大量のデータを機械学習モデルで注釈付けする際、無意識のうちに多くのリソースを浪費していることがあります。
例えば、1000ページのドキュメントに注釈を付けるとしましょう。これを1ページずつ個別に行うと、約100万トークンが消費されますが、10ページ分を一度に処理することで、約30%ものトークンを節約できるのです。
バッチ処理を利用すると、指示文や例文を繰り返し使うことができ、これがコスト削減の鍵となります。
検証実験を通じて、バッチサイズを最適化することで、コストを大幅に削減しながら、精度を維持するか、さらに向上させることが可能であることが明らかになりました。
規模の大きなデータセット処理において、バッチ処理は利益と効率の両方をもたらす重要な手法であることを理解しましょう。
出典 : Stop Wasting LLM Tokens https://towardsdatascience.com/stop-wasting-llm-tokens-a5b581fb3e6e