スマホで使えるGemini文字起こし完全ガイド！精度と活用術を徹底解説

はじめに

会議の録音やインタビュー音声をテキストにしたい場面は多いものの、スマホだけで手軽に済ませる方法は意外と限られます。私自身、取材音声の文字起こしに長年悩んできましたが、GeminiにM4Aファイルをアップロードして「話者を区別して書き起こしてください」と指示するだけで、インタビュアーと回答者をきれいに分けたテキストが得られたときは、正直なところかなり驚きました。

ただし、音声入力が途中で切れる問題やプライバシー設定の見落としなど、知っておくべきポイントもあります。この記事では、スマホでGeminiの文字起こしを行う具体的な手順から精度を上げるテクニック、関連ツールとの使い分けまでを順に解説します。「便利そうだが現場で使えるか」を検証しながら書いていますので、実務での導入を検討している方の参考になれば幸いです。

Gemini文字起こしの仕組み

クラウド処理とオンデバイス処理の違い

Geminiの文字起こしには、大きく分けてクラウド処理とオンデバイス処理の2つの方式があります。クラウド処理は、スマホで入力した音声をGoogleのサーバーへ送り、サーバー側の大規模モデルで解析してテキストを返す流れです。高性能なモデルを使えるため複雑な文脈の理解や多言語対応に強い一方、インターネット接続が必須となります。

オンデバイス処理は、スマホ本体のハードウェアを使ってAI推論を完結させる方式です。サーバーへの通信が発生しないためネットワーク遅延がなくなりますが、推論速度は端末のハードウェア性能に左右されます（参照*1）。つまり、処理能力の高いチップを搭載したスマホほど素早く結果が得られるということです。

どちらの方式でも音声をテキストに変換する基本的な流れは同じですが、通信環境やスマホの性能に応じて適した方法が変わります。たとえばオフラインでの利用が多い場面ではオンデバイス処理が向いており、長時間の録音を高精度で処理したい場合はクラウド処理が適しています。私がコンサルティングの現場でAI導入を支援してきた経験からも、「どちらが優れているか」ではなく「どの業務条件に合うか」で選ぶ視点が重要です。

Gemini Nanoの役割と対応端末

Gemini Nanoは、スマホやエッジ端末向けに最適化されたオンデバイスモデルです。AndroidのAICoreというシステムサービス上で動作し、端末のハードウェアを活用して推論の遅延を抑えるとともに、モデルを自動で最新の状態に保ちます（参照*1）。

対応端末としては、Pixelシリーズや一部のSamsung Galaxyシリーズが挙げられており、常時インターネットに接続しなくてもAI機能を利用できる点が特徴です（参照*2）。Gemini Nanoが担う機能の1つに音声認識があり、話した音声をテキストに変換する処理を端末内部で実行します（参照*1）。

この仕組みにより、たとえば通信が不安定な場所でもスマホ単体で文字起こしの基本的な処理を進められます。自分のスマホがGemini Nanoに対応しているかどうかは、利用できる文字起こし方法を選ぶうえでの前提条件になります。

スマホでの文字起こし手順

音声入力によるリアルタイム文字起こし

スマホでGeminiにリアルタイムで音声を入力する手順はシンプルです。Geminiアプリを開き、マイクのアイコンをタップして話しかけると、音声がそのままテキストとして処理されます（参照*3）。会議中のメモ取りや思いつきの記録など、手がふさがっている場面で特に便利です。

ただし、この方法はもともと短めのプロンプト入力向けに設計されているため、長時間話し続けるとマイクが自動で停止してしまうことがあります。長い文章を一度に入力したい場合は、次の節で紹介するファイルアップロードや、後述するGboard音声入力との併用を検討する必要があります。

音声・動画ファイルのアップロード手順

事前に録音した音声や動画のファイルをGeminiにアップロードすれば、まとまった長さの文字起こしを依頼できます。手順は、Geminiを開いて「+」ボタンをタップし、スマホ内の音声ファイルまたは動画ファイルを選択したうえで、処理内容を指示するプロンプトを入力して送信するという流れです（参照*4）。

たとえば「タイムスタンプ付きで書き起こしてください」といった指示を添えると、時間情報を含んだテキストが生成されます。出力された文字起こしに修正したい点があれば、続けてチャットでGeminiに変更を依頼し、やり取りを重ねながら仕上げることも可能です（参照*4）。無料プランでは1ファイルあたり10分までという制限がある点には注意が必要です（参照*4）。10分を超える音声は分割してアップロードするか、有料プランへの移行を検討するのが現実的です。

プロンプトの書き方と話者識別の指定

Geminiの文字起こし精度はプロンプトの書き方に大きく左右されます。「書き起こして」と丸投げするのではなく、話者の人数、出力形式（タイムスタンプの有無など）、言語、専門用語の扱いを明示するほど、期待に近い出力が得られます。100以上の言語に対応しており、文脈や専門用語の解釈にも優れているため、指示次第で翻訳と文字起こしを同時に行うことも可能です（参照*4）。私が文章生成でAIを使う際に常に意識していることですが、「良い出力を得るには良い入力が必要」というのは文字起こしでも変わりません。

話者の識別を求めるプロンプトも有効です。ある事例では、M4Aファイルをアップロードし「これを聞いて書き起こし、話者を区別してください」と指示したところ、Geminiは話者を「Interviewer」と相手の名前・肩書きで自動的に分けて書き起こしました（参照*5）。やり取りの往復なく一度のプロンプトで完了した点も、スマホでの作業効率を考えると大きな利点です。

精度を高めるテクニック

録音環境と話し方の工夫

Geminiの文字起こし精度は、元の音声品質に直結します。どれだけプロンプトを工夫しても、収録した音声が悪ければ限界があります。スマホで録音する際は、周囲の雑音が少ない場所を選び、マイクと話者の距離をできるだけ近づけることが基本です。複数人の会話ではスマホをテーブルの中央に置くなど、各話者の声が均等に拾われるよう配置を意識します。

話し方についても、Geminiの話者識別精度に影響します。ある検証では、対象者が最後に名前をスペルアウトしたにもかかわらずGeminiが別の名前を採用したケースがあった一方で、どちらが話しているかの識別そのものは正確で、全体の精度も非常に高かったと報告されています（参照*5）。固有名詞の誤認識は起きやすい。録音時にはっきり発音したうえで、出力後にプロンプトで「○○という名前が誤認識されている可能性があるので確認して修正してください」と指示する流れが現実的です。AIに完璧を求めるより、人間が確認・補正する工程をあらかじめ設計しておくほうが運用は安定します。

Gboard音声入力との併用

Geminiアプリ内蔵のマイクは短いプロンプト向けに最適化されているため、長い文章をリアルタイムで入力したい場合にはGboardの音声入力と組み合わせる方法が有効です。手順としては、Geminiアプリのテキスト入力欄をタップしてGboardを表示させ、スペースバー付近にあるマイクアイコンを押して話し始めます（参照*6）。

Gboardの音声入力は、より長時間の連続入力を想定して設計されており、途中で入力が打ち切られにくい傾向があります（参照*6）。Geminiアプリのマイクで入力が途切れてしまう場合は、Gboard経由に切り替えるだけで問題を回避できるケースが少なくありません。入力後はそのままGeminiにプロンプトとして送信できるため、操作の流れを大きく変えずに済みます。

音声入力が途切れるときの対処法

途切れる原因と発生条件

Geminiアプリで音声入力が途中で止まってしまうのは、アプリ内蔵のマイク機能が短く簡潔なプロンプト入力向けに最適化されていることが主な原因です。短い間の沈黙を「入力の終わり」と判断し、話し手がまだ続けるつもりでも自動的にリスニングを停止してしまいます（参照*6）。

この現象は、おおむね198語から300語あたりで発生する傾向が報告されています（参照*6）。長めの指示や議事録のような用途では、この制限を踏まえたうえで対策を講じる必要があります。

キャッシュクリアとGemini Liveの活用

音声入力の途切れを軽減する方法の1つとして、Geminiアプリのキャッシュクリアがあります。スマホの設定からアプリ情報を開き、キャッシュを削除することで動作が安定する場合があります。これは一時的な不具合やデータの蓄積による挙動の乱れをリセットする効果が期待できる操作です。

Googleはこの途切れ問題への対応を進めており、Geminiアプリ向けに専用の「マイクロック」機能を開発しています。この機能はマイクのアイコンを停止ボタンに変え、ユーザーが明示的に停止するまでマイクを有効に保ち続けることで、長時間の音声入力を途切れさせずに行えるようにすることを目指しています（参照*6）。現時点では、前述のGboard音声入力への切り替えや、入力を短いブロックに分けて送信する方法を組み合わせるのが実用的な対処法です。

プライバシー設定と注意点

音声データの保存と削除の設定

Geminiで文字起こしを行うと、音声データがGoogleのサーバーに保存される場合があります。Googleアカウントの「ウェブとアプリのアクティビティ」設定には「音声と音声アクティビティを含める」というオプションがあり、これがオンになっているとやり取りの実際の音声ファイルが保存されます（参照*10）。音声データを残したくない場合は、この設定をオフにしておきます。

Gemini Liveのチャット内容についても、アクティビティの削除操作を行うと、関連する音声・録音・書き起こしテキストがすべて一括で削除されます（参照*3）。スマホで文字起こしを頻繁に行う場合は、定期的にアクティビティ画面を確認し、不要なデータを削除する習慣を持つことがポイントです。

活動履歴とメモリー機能の管理

Geminiの活動履歴は、Googleアカウント内の「アクティビティを保持」設定で管理できます。この設定をオフにすると履歴の蓄積が止まりますが、安全上の理由から最大72時間の短期バッファは残る仕組みです（参照*10）。完全に即時削除されるわけではない点を理解しておく必要があります。

もう1つの選択肢として、3か月経過後にデータを自動削除するオプションも用意されています。この設定にすれば、進行中のタスクにはGeminiの履歴を活用しつつ、一定期間が過ぎたデータは自動的に消去されます（参照*10）。文字起こしの利便性を保ちながらプライバシーも守りたい場合には、自動削除の期間設定を活用するのが現実的な方法です。

おわりに

スマホでGeminiの文字起こしを活用するには、ファイルアップロードやプロンプトの工夫、Gboard音声入力との併用など、いくつかのテクニックを押さえることで精度と使い勝手を大きく向上させられます。音声入力の途切れ問題にも対処法があり、目的に応じてRecorderやEloquentと使い分けることで弱点を補えます。重要なのは、AIに丸投げするのではなく、録音品質・プロンプト設計・出力後の確認という工程を意識して組み立てることです。

プライバシー設定は一度確認して終わりではなく、音声データの保存範囲やアクティビティの自動削除期間を定期的に見直すことが欠かせません。業務で機密性の高い会議音声を扱う場合は特に、クラウド処理とオンデバイス処理のどちらを使うかという選択自体がセキュリティ上の判断になります。この記事で紹介した手順やテクニックを組み合わせ、自分の用途に合った文字起こしの運用を整えてみてください。

監修者

安達裕哉（あだちゆうや）

デロイトトーマツコンサルティングにて品質マネジメント、人事などの分野でコンサルティングに従事しその後、監査法人トーマツの中小企業向けコンサルティング部門の立ち上げに参画。大阪支社長、東京支社長を歴任したのち2013年5月にwebマーケティング、コンテンツ制作を行う「ティネクト株式会社」を設立。ビジネスメディア「Books&Apps」を運営。
2023年7月に生成AIコンサルティング、およびAIメディア運営を行う「ワークワンダース株式会社」を設立。ICJ2号ファンドによる調達を実施(1.3億円)。
著書「頭のいい人が話す前に考えていること」が、82万部（2025年3月時点）を売り上げる。
（“2023年・2024年上半期に日本で一番売れたビジネス書”（トーハン調べ／日販調べ））