「GPT-4o」は、テキスト処理に秀でたAIの一つですが、画像に対してはどのような処理をしているのでしょうか。
プログラマーのオラン・ルーニー氏によれば、画像は512×512ピクセルのタイルに切り分けられ、1タイル当たり170トークンを使用して処理されるという不思議な数字を使います。
この数字の背後には、画像をベクトル空間にマッピングする複雑な手法が隠されており、それらがどのようなシステムで連携しているかは明かされていません。
ルーニー氏は独自の仮説を立て、GPT-4oが特定のサイズのグリッドに画像を分割して処理している可能性を探りましたが、完全な答えには至りませんでした。
しかしこの探求は、AIによる画像処理技術の深い理解への扉をわずかに開くものです。
まだ謎に包まれているGPT-4oの処理能力の秘密を解き明かす鍵は、これからの技術的発展および洞察にかかっています。
出典 : https://gigazine.net/news/20240623-gpt-4o-170-tokens-theory/