人間の好みを学ぶAI:報酬ベースと報酬フリーの手法

2024.07.07

WorkWonders

大規模言語モデル(LLM)は、人間の好みや価値観を理解し、それを反映した文章を生成する能力を持っていますが、その「良い」文章の基準は主覂的で、文脈によって変わることが課題です。
ストーリーテリングでは創造性が、情報提供では正確性や信頼性が重要です。そこで注目されているのが、人間のフィードバックを基にAIを調整するRLHF(Reinforcement Learning from Human Feedback)です。
RLHFには報酬を用いる手法と、新たな方策を取り入れた報酬フリーの手法があります。報酬を用いる手法では、人間の評価をスコアとしてAIにフィードバックし、AIが好ましい文章を生成するように調節します。
一方、報酬フリー手法では、報酬モデルを使わずに直接方策自体の最適化を目指し、コストを抑えつつも人間の好みに合わせたAIのトレーニングが可能です。
これらの手法によって、人間らしさを理解し、それを取り入れたテキスト生成が期待されます。

出典 : https://towardsdatascience.com/llm-alignment-reward-based-vs-reward-free-methods-ef0c0f6e8d88

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください