私は5週間にわたって、「Mastering LLMs」という開発者とデータサイエンティスト向けのコースに参加しました。
このコースでは、ダン・ベッカーとハメル・フセインが主催し、多くの専門家がLLM(大規模言語モデル)の応用について知見を共有しました。特に、プロンプトエンジニアリングやリトリーバル拡張生成(RAG)の限界を超えるためのLLMのファインチューニングに焦点が当てられました。
コースを修了した後、私は自分自身のLLMをファインチューニングして、自分のように話すチャットボットを作りたくなりました。それを家族や友人と会話させれば、もっと自由な時間を得られると考えました。
このプロジェクトは、私が日常的に使用しているWhatsAppのやりとりを含む豊富なデータを活用しました。
妻が主なユーザーになる予定だったので、私たち夫婦の会話を中心に、WhatsAppのチャット履歴をトレーニングデータとして使いましたが、他の9人の友人との会話も取り入れました。
ただし、WhatsAppからエクスポートしたデータはそのままでは使えず、三段階のプリプロセッシングを行いました。
これには、特定のブログの方法を参考にし、例えば同一送信者からの連続したメッセージを一つにまとめるなどの手順を踏みました。
これらの処理を経て、私のチャットボットは私のように話すことができるようにトレーニングされました。
出典 : Finetuning My Clone — Training an LLM to Talk Like Me! https://medium.com/@watsonchua/finetuning-my-clone-training-an-llm-to-talk-like-me-2ee7b5ba2f88