現代においてGoogleやOpenAIなど複数の企業が大規模な言語モデルを開発しており、その性能比較をするために様々なベンチマークが用いられています。その中でエンジニアのウィリソン氏が、一風変わった試みとして「自転車に乗ったペリカンのSVG」生成という独自ベンチマークを考案しました。
彼は、ペリカンをモチーフに選ぶことで、既存データに依存せずモデルの創造性を試すことができると語っています。このベンチマークでは、具体的に「自転車に乗っているペリカンのSVG画像を生成してください」という命題をAIに提示します。
実際にAnthropicのモデルやGoogleのGemini、OpenAIのモデルなどがこの課題に挑戦しており、その結果はウェブサイトやGitHubで公開されています。これにより、各モデルがどのようなクリエイティブな応答をするのかを比較することが可能です。
また、動画生成AIであるGoogleのVeo 2を使って同様の試みが行われたところ、非常にリアルな動画を生成することに成功しているそうです。これにより、大規模言語モデルが静止画だけでなく動画生成にも長けていることが明らかになりました。
出典 : GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ https://gigazine.net/news/20241219-pelicans-on-a-bicycle/