このGitHubリポジトリでは、C/C++で実装された大規模言語モデルのためのpythonバインディング、llama-cpp-pythonの使用法を紹介しています。オープンソースコミュニティに広く受け入れられているため、このチュートリアルでの使用を決定しました。
Nvidia RTX4090のGPUを搭載したシステムでアプリのテストを行っており、まずは新しいconda環境を作成することから始めます。llama-cpp-pythonのインストールには、効率的な推論を実現するため、ハードウェアアクセラレーションのバックエンドを支援するllama.cppが利用されています。
GPUを活用し、LLMをGPUで動かすためには、CUBLASでプログラムをビルドする必要があります。GPUでモデルをオフロードする上でいくつか問題に直面した経験を踏まえ、正しくインストールする方法をこの投稿で発見することができました。
出典 : https://towardsdatascience.com/building-your-own-personal-ai-assistant-a-step-by-step-guide-to-text-and-voice-interaction-with-a-07389c5fd874