次世代AIモデル「NeuralHermes-2.5」の衝撃

2024.11.21

WorkWonders

最新技術を取り入れたAIモデル「NeuralHermes-2.5」の開発に成功しました。伝統的な大規模言語モデル(LLM)は単純な次の単語予測機能しか持たなかったが、新しい手法である直接嗜好最適化(DPO)を用いることで、モデルが質問に効果的に答えられるようになりました。
人間のフィードバックから学習し、効率的なファインチューニングを行うことで、行動傾向をモデルに学習させるこの技術は、優れた回答を生成するようにモデルを導きます。GitHubとGoogle Colabでコードを公開し、論文や実験結果を参照できるようになっています。
また、実績として、読者のJessie Davids氏がこの記事とコードを使用して、Open LLM Leaderboardで最高成績を収めることに成功しました。DPOを活用した「NeuralHermes-2.5」は、教育用データセットの精度を大幅に向上させ、一般向けのAIモデルの開発に新たな道を拓きました。

出典 : Fine-tune a Mistral-7b model with Direct Preference Optimization https://towardsdatascience.com/fine-tune-a-mistral-7b-model-with-direct-preference-optimization-708042745aac

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓