目に見えない世界を聞こえる形で捉える技術：Vision2Audioの可能性

生成AIニュース

2024.09.20

WorkWonders

視覚障害者や全盲の人々の日常には、数々の障害が存在しますが、最新の技術がそのギャップを埋めようとしています。
大規模言語モデルや多モーダルAIが、テキストから画像の検索、画像キャプションの生成、視覚に関する問いへの回答の提供を可能にし、これによりデジタルコンテンツが視覚障害者にとってアクセスしやすくなっています。

特に、Vision2Audioプロジェクトでは、NVIDIA Jetson AGX Orin Developer Kitを使用し、視覚情報を音声に変換することで、視覚障害者が周囲を理解しやすくする技術が開発されています。
モデルはローカル環境で動作し、低遅延でオフラインでも使用可能です。

このウェブアプリケーションにより、視覚障害者はスマートフォンを使用して画像を撮影し、音声認識により質問をすることができます。
その後テキストを音声に変換する技術が、回答を提供します。

実際には、買い物をしている際の商品説明や、家での食事の準備、街歩きなど、日常生活のさまざまなシーンでVision2Audioが活用されています。
このプロジェクトが提供する包括的なソリューションは、視覚障害者の自立と生活の質を飛躍的に向上させる可能性があります。

出典 : Vision2Audio – Giving the blind an understanding through AI https://www.hackster.io/shahizat/vision2audio-giving-the-blind-an-understanding-through-ai-33f929

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】