Geminiで文字起こしできない原因と今すぐ試せる解決策7選

はじめに

Geminiを使って音声やWeb会議の文字起こしを試みたものの、うまくいかなかった経験を持つ方は少なくないはずです。私自身も、議事録作成の自動化を試みる中で、同じ壁に何度かぶつかりました。原因を把握しないまま繰り返し試すと、時間だけが過ぎてしまいます。

文字起こしできない原因は、契約プランの種類やファイル形式の制約、管理者設定、プロンプトの与え方など複数にわたります。重要なのは、「なぜできないのか」を先に切り分けることです。本文では、それぞれの原因を整理したうえで、今すぐ実行できる7つの解決策を順番に紹介します。

Gemini文字起こし機能の全体像

Geminiチャットでの音声ファイル文字起こし

Geminiのチャット画面では、音声ファイルをアップロードするだけで文字起こしを行えます。対応するファイル形式はMP3、AAC、WAVの3種類で、長さが10分以内であれば無料で処理されます。一度に最大10ファイルまでアップロードでき、その合計が10分を超えなければまとめて処理できる仕組みです（参照*1）。

この方法は、短い打ち合わせやインタビュー音声をすばやくテキスト化したいときに向いています。私が実際に使ってみた感触では、静かな環境で録音された音声であれば精度は十分実用的です。一方で、10分を超える音声には対応しないため、長時間の会議では別の手段を検討する必要があります。ファイル形式や長さの条件を事前に把握しておくことが、スムーズな文字起こしの第一歩です。

Google Meetの3種類の文字起こし機能

Google Meetには文字起こしに関連する機能が3つあり、それぞれ役割が異なります。1つ目は画面上に表示される字幕で、リアルタイムに発言を表示しますが保存はされません。2つ目は録画に付属する字幕で、録画時に「字幕を含める」にチェックを入れると動画と一緒に保存されます。ただし、これは動画用の字幕データであり、文書としての文字起こしではありません（参照*2）。

3つ目が、会議全体の発言をドキュメントとして残す「完全な文字起こし」です。多くの人が想像する自動議事録はこの3つ目にあたります。1つ目や2つ目の機能を「文字起こし」と混同してしまうと、思ったような結果が得られず困惑する原因になります。実際に企業への導入支援を行う中でも、この混同は非常によく起きます。自分が求めているのがどの機能なのかを最初に確認することが大切です。

「議事録」と「文字起こし」の違い

Geminiの周辺機能では「議事録」と「文字起こし」が別の概念として扱われています。文字起こしは発言をそのままテキスト化する処理を指し、議事録は要点を整理した要約に近い成果物です。GmailやGoogleドライブ、Googleドキュメントと深く連携しているため、Googleドキュメントで作成した議事録をそのままGeminiに渡して要約するといったワークフローも可能です（参照*3）。

両者の違いを意識しないままGeminiに指示を出すと、文字起こしを期待しているのに要約が返ってくるといったズレが生じます。これはAIへの指示全般に言えることですが、「何を成果物として欲しいのか」を明確にしないと、AIは自分なりの解釈で動きます。どちらの成果物が必要なのかを最初に決め、適切な機能やプロンプトを選ぶことが、トラブルを未然に防ぐ基本です。

文字起こしできない主な原因

契約プランの制約

Geminiで文字起こしできない原因として最も多いのが、契約プランの違いです。Google AI Pro（2TB）、Google One AI Premium、Google AI Ultraといった個人向けのプランは名称やAI機能こそ充実していますが、Google Meetの会議全体を文書として文字起こしする機能は含まれていません。文字起こしのドキュメント出力に対応しているのは、プラン名に「Workspace」が付くビジネス向けプランに限られます（参照*2）。

「Premiumと書いてあるから何でもできるはず」と考えてしまいがちですが、個人向けプランとWorkspace系プランでは対象となる機能の範囲が根本的に異なります。プラン名の華やかさに惑わされず、自分が契約しているプランの名称を確認し、Workspace系であるかどうかを見極めることが、文字起こしできない問題を解消する最初のステップです。

対応ファイル形式と上限の超過

Geminiチャットで音声ファイルを文字起こしする場合、対応するファイル形式はMP3、AAC、WAVの3種類です。これら以外の形式でアップロードすると処理が行われません。また、ファイルの長さが10分を超える場合も文字起こしの対象外となります（参照*1）。

録音時の設定によっては、知らないうちに非対応の形式で保存されているケースもあります。ファイル形式と長さの両方が条件を満たしているかを、アップロード前に確認しておくとエラーを回避しやすくなります。

管理者設定・同意ダイアログの影響

Google Workspaceの組織で利用する場合、管理者の設定が文字起こしを妨げることがあります。管理者は、自動メモ取りや録画、文字起こしの開始前に参加者の明示的な同意を求める機能を有効にできます。この設定がオンになっていると、対応デバイスの参加者全員が録画や文字起こしに同意しない限り、機能が開始されません（参照*4）。

個人の操作に問題がなくても、組織全体の管理者設定が原因で文字起こしできないケースは見落とされがちです。社内のIT管理者に設定状況を確認することで、原因が特定できる場合があります。

プロンプトの与え方による要約化

長い音声データをそのままアップロードし、単に「文字起こしして」と指示すると、Geminiが内容を要約してしまうことがあります。全体の概要としてはよくまとまるものの、細かい発言が省略されたり、意図と異なる形で圧縮されたりします。私が実際に試したときも、30分程度の音声を渡しただけでは、きれいな要約文が返ってきて「逐語テキスト」にはなりませんでした（参照*5）。

これは「文字起こしできない」というよりも、Geminiがプロンプトの意図を「要約」と解釈してしまう現象です。AIは与えられた指示を最善の形で処理しようとするため、曖昧な指示ほど解釈の幅が広がります。音声が長くなるほどこの傾向が強まるため、プロンプトの書き方を工夫することが回避の鍵になります。

今すぐ試せる解決策7選

解決策1：対応プランへの切り替え

Google Meetの自動文字起こし機能を使いたい場合、Workspace系のプランに切り替える方法が最も確実です。個人で契約できるプランとしては「Google Workspace Individual」があり、月額は約1,360円です。@gmail.comのアドレスでも利用でき、Meetの自動文字起こし（ドキュメント出力）に加えて、録画や字幕の機能もそろっています（参照*2）。

個人で議事録を残したい場合、このプランが現実的な選択肢となります。契約前に、現在のプランで何ができて何ができないのかを整理し、必要な機能に絞って判断するとコストを無駄にしにくくなります。私が導入支援をする場合でも、まずプランの確認から始めるのが原則です。

解決策2：ファイル形式と長さの最適化

Geminiチャットで音声ファイルを処理する場合、対応形式であるMP3、AAC、WAVのいずれかに変換しておく必要があります。録音ソフトやスマートフォンのアプリによっては、初期設定が非対応の形式になっていることがあるため、出力形式を事前に確認しておくと安心です。

さらに、合計10分以内という長さの上限も意識する必要があります。長時間の音声を扱う場合は、必要な部分だけを切り出して10分以内に収める方法が有効です。ファイル形式の変換と分割は、Audacityのような無料の音声編集ソフトで十分対応できます。

解決策3：管理者コンソールの設定確認

組織でGoogle Workspaceを利用している場合、管理者コンソールの設定が文字起こしの可否を左右します。参加者の明示的な同意を求める機能は初期状態ではオフになっていますが、管理者がドメイン・組織部門・グループの各レベルで有効にできます（参照*4）。

文字起こしが始まらない場合は、IT管理者にこの設定の状態を確認してもらうことで、問題が解消する可能性があります。

解決策4：部分指定プロンプトの活用

長い音声をGeminiに渡して「文字起こしして」とだけ伝えると、要約として返ってくる場合があります。この問題を回避するには、2段階の手順が効果的です。まずGeminiに「この音声データ全体を要約して」と指示し、どのような話題が含まれているかを大まかに把握します。次に、その要約を見ながら詳しくテキスト化したい部分を特定し、「○○について話している部分を、一語も漏らさずそのまま文字起こしして」と具体的に指示します（参照*5）。

この方法であれば、特定の部分に絞って高い精度の文字起こしを得ることができます。全体をいきなり文字起こしさせるのではなく、要約で全体像をつかんでから部分指定するという手順が、Geminiの特性に合った使い方です。AIに何かをさせるときは、一発で完成形を求めるより、段階を分けて指示を出すほうが精度が上がる、というのは私が業務で生成AIを使い続けてきた中で実感していることでもあります。

解決策5：再試行とブラウザ変更

Geminiに音声ファイルをアップロードした際、実際にはファイルが空でないにもかかわらず「ファイルが空です」という誤ったエラーが表示される場合があります。この事例では、2回目の試行ですぐに正常に動作しました（参照*1）。

エラーが出た場合は、まず同じ操作をもう一度試すのが最も手軽な対処法です。それでも解消しなければ、別のブラウザに切り替えて試すことで、ブラウザ固有の問題を切り分けられます。

解決策6：Canvasで専用ツールを自作

GeminiのCanvas機能を使うと、プログラミングの知識がなくても文字起こし用のWebアプリを自作できます。Canvas機能は、Geminiとの会話の中でコードやドキュメントをリアルタイムに生成・編集できるツールです。「こういうツールがほしい」と伝えるだけで、Webアプリを構築してもらえます。有料サービスの契約や複雑な設定も不要です（参照*6）。

ただし、この方法はブラウザ標準の音声認識API（Web Speech API）を利用するため、マイクの品質や周囲の騒音に影響を受けます。静かな会議室であれば問題なく動作しますが、騒がしい場所では精度が下がる可能性があります（参照*6）。

解決策7：外部文字起こしツールとの併用

Geminiだけでは要件を満たせない場合、外部の文字起こしツールと組み合わせる方法もあります。たとえばTactiqは、Zoom、Google Meet、Microsoft Teamsといった主要なWeb会議サービスと連携できるAI会議アシスタントです（参照*7）。

外部ツールで文字起こしを行い、その結果をGeminiに渡して要約や分析を依頼するという分業も有効です。文字起こしと要約をそれぞれ得意なツールに任せることで、精度と効率の両方を高められます。ツールを一つに絞ろうとするより、工程ごとに最適なものを組み合わせる発想のほうが、現実的な精度が出ます。

解決策の比較と選び方

会議の記録を文書として残したい場合、選択肢は大きく3つに分けられます。1つ目はGoogle Workspaceプランに切り替える方法で、最も素直で確実な手段です。2つ目は外部の文字起こしサービスを使い、録画した動画をアップロードする方法です。3つ目は録画と字幕を見ながら自分で要点をまとめる方法です（参照*2）。

どの方法を選ぶかは、費用、手間、精度のバランスで決まります。Google系のサービスに作業環境が集中している場合はWorkspaceプランの恩恵が大きい一方、Googleサービスへの依存度が低い環境ではほかのツールのほうが使いやすいケースもあります。また、要約の品質だけを比較すると、GeminiよりClaudeやChatGPTのほうが適している場面があるというのが私の印象です。用途に応じた使い分けが、結果的に一番効率的です（参照*3）。

失敗しやすい落とし穴と注意点

最もよくある勘違いは、「Premiumと書いてあるプランなら何でもできる」という思い込みです。Google One系のプランは個人向けのAI機能やストレージを強化するもので、Meetの会議文字起こしドキュメントは対象外です。文字起こしドキュメントはWorkspace系のプランでのみ利用できます（参照*2）。

長時間の会議を文字起こしする場合にも注意が必要です。2時間を超える会議では、途中でいったん一時停止してデータを保存しておくことが推奨されています（参照*6）。また、Geminiとのチャット内容の取り扱いについても意識しておくべき点があります。アクティビティをオフにしても、チャットの内容はGeminiが応答やフィードバック処理を行うために72時間保存されます（参照*8）。機密性の高い音声データを扱う場合は、この仕様を踏まえたうえで利用する必要があります。生成AIの業務利用全般に言えることですが、「便利だから使う」だけでは情報管理の責任を果たせません。何をAIに渡してよいかを事前にルール化しておくことが重要です。

おわりに

Geminiで文字起こしできない原因は、契約プランの違い、ファイル形式や長さの制約、管理者設定、プロンプトの書き方など多岐にわたります。原因ごとに適切な対処法が異なるため、まずは自分がどの原因に該当するかを切り分けることが解決への近道です。私が見てきた限り、多くのケースはプランの誤解かプロンプトの設計不足のどちらかに行き着きます。

本記事で紹介した7つの解決策は、プラン変更からプロンプトの工夫、外部ツールの併用まで幅広くカバーしています。大切なのは、「どのツールを使うか」より「どの工程で何を任せるか」を決めることです。自分の環境と用途に合った方法を選び、文字起こし作業を効率化する手がかりとして活用してください。

監修者

安達裕哉（あだちゆうや）

デロイトトーマツコンサルティングにて品質マネジメント、人事などの分野でコンサルティングに従事しその後、監査法人トーマツの中小企業向けコンサルティング部門の立ち上げに参画。大阪支社長、東京支社長を歴任したのち2013年5月にwebマーケティング、コンテンツ制作を行う「ティネクト株式会社」を設立。ビジネスメディア「Books&Apps」を運営。
2023年7月に生成AIコンサルティング、およびAIメディア運営を行う「ワークワンダース株式会社」を設立。ICJ2号ファンドによる調達を実施(1.3億円)。
著書「頭のいい人が話す前に考えていること」が、82万部（2025年3月時点）を売り上げる。
（“2023年・2024年上半期に日本で一番売れたビジネス書”（トーハン調べ／日販調べ））