MicrosoftのPhi-4 AIモデルなど、小規模な言語モデルが近月で注目を集め、大きなモデルだけが全てではないことを示しています。特に、合成データの活用が重視されています。
合成データを多用することで、高品質で多様なデータセットに基づく学習が可能になるため、14BパラメータのPhi-4は、70BパラメータのLlama 3.3やOpenAIのGPT-4oを複数のベンチマークで上回りました。
また、Microsoftの研究者であるHarkirat Behl氏によると、Phi-4は10のインド言語をサポートし、低コストで利用可能であるため、インドを含む多くの国での影響が期待されています。その一方で、既存の大量のデータには限界があり、今後のモデルは新しい技術を採用することが必要だとの意見もあります。
データ駆動のAIの未来は、データの質と創造力に左右されるでしょう。
出典 : Microsoft Solves the Problem of LLM Data Scarcity | AI Origins & Evolution https://analyticsindiamag.com/ai-origins-evolution/microsoft-solves-the-problem-of-llm-data-scarcity/