コンピュータビジョンと自然言語処理の分野では、特定のタスクに特化したモデルのファインチューニングが注目されていますが、
それぞれのモデルを個別に管理するのは非効率です。そこで最近、複数のファインチューン済みモデルを融合する技術が重要視されています。
この技術では、トレーニングデータがなくても統合モデルを作成でき、複雑なデータセットの統合を回避することができます。
線形モード接続やモデルスープ、SLERPと呼ばれる方法は、同一アーキテクチャのモデル間で有効ですが、
異なる初期化を持つモデルの組み合わせには別のアプローチが必要です。たとえば、ユニットの重みの順序変更により、
モデル間の結合を改善する技術が挙げられます。さらに、Frankenmergingなどの手法では異なるアーキテクチャのモデルも融合可能です。
また、AIモデル融合を自動化するための進化的最適化という枠組みも研究されており、
統合AIのパフォーマンスを個々のモデルを超えるレベルに引き上げることが目指されています。
こうした技術を駆使すれば、例えば日本語と数学の大規模言語モデルを融合させ、特定のタスクで最先端の性能を発揮するAIが生まれるかもしれません。
出典 : Beyond Fine-Tuning: Merging Specialized LLMs Without the Data Burden https://towardsdatascience.com/beyond-fine-tuning-merging-specialized-llms-without-the-data-burden-1c449c2060c4