人間の好みを学ぶAI：報酬ベースと報酬フリーの手法

生成AIニュース

2024.07.07

WorkWonders

大規模言語モデル（LLM）は、人間の好みや価値観を理解し、それを反映した文章を生成する能力を持っていますが、その「良い」文章の基準は主覂的で、文脈によって変わることが課題です。
ストーリーテリングでは創造性が、情報提供では正確性や信頼性が重要です。そこで注目されているのが、人間のフィードバックを基にAIを調整するRLHF（Reinforcement Learning from Human Feedback）です。
RLHFには報酬を用いる手法と、新たな方策を取り入れた報酬フリーの手法があります。報酬を用いる手法では、人間の評価をスコアとしてAIにフィードバックし、AIが好ましい文章を生成するように調節します。
一方、報酬フリー手法では、報酬モデルを使わずに直接方策自体の最適化を目指し、コストを抑えつつも人間の好みに合わせたAIのトレーニングが可能です。
これらの手法によって、人間らしさを理解し、それを取り入れたテキスト生成が期待されます。

出典 : https://towardsdatascience.com/llm-alignment-reward-based-vs-reward-free-methods-ef0c0f6e8d88

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】