スマホでGemini文字起こしを使う方法とは？精度と便利機能を徹底解説

はじめに

スマホだけで会議や取材の音声をテキスト化できれば、作業効率は大きく変わります。しかし、どのツールを使い、どのような手順で進めれば正確な文字起こしが得られるのかは、意外と情報が整理されていません。

私は取材や会議の音声をAIで処理する作業を日常的に行っており、ChatGPTやGeminiなど複数のツールを実際に比較してきました。Geminiはテキストだけでなく音声や画像も扱えるマルチモーダルAIであり、スマホから音声ファイルをアップロードしてプロンプトを添えるだけで文字起こしが可能です。この記事では、スマホでGeminiを使った文字起こしの具体的な手順から、精度を高めるコツ、音声入力が途切れる際の対処法、他のGoogle系ツールとの使い分けまでを順に解説します。

Geminiとは何か

マルチモーダルAIの基本

Geminiは、Googleが開発したAIアシスタントです。最大の特徴は、テキストだけでなく画像・音声・動画など複数の種類の情報を理解し、生成できるマルチモーダル（multimodal）の仕組みにあります（参照*1）。

文字起こしとの関係で言えば、この仕組みがあるからこそ、音声ファイルや動画ファイルをGeminiに渡して「テキストに変換してほしい」と指示できます。テキストしか扱えないAIでは、そもそも音声ファイルを受け取れません。Geminiのマルチモーダル対応は、スマホでの文字起こしを実現する土台になっています。私自身、ChatGPTでは音声ファイルを直接処理できずに回り道が必要だったケースでも、Geminiなら一発でアップロードから処理まで完結した経験があります。

Gemini Nanoとオンデバイス処理

Geminiにはいくつかのモデルがあり、そのうちGemini Nanoはスマホなどの端末上で直接動作するよう設計されたモデルです。Pixelスマートフォンや一部のSamsung Galaxyで利用でき、常時インターネットに接続していなくてもAI機能を使えます（参照*2）。

Gemini NanoはAndroidのAICoreというシステムサービス上で動作し、端末のハードウェアを活用することで推論の遅延を低く抑えています（参照*3）。サーバーへデータを送らずに端末内で処理が完結するため、プライバシーの面でも利点があります。スマホで文字起こしを行う際に通信環境を気にせず使える場面があるのは、このオンデバイス処理の仕組みがあるためです。

スマホで文字起こしする手順

Geminiアプリへの音声入力方法

スマホでGeminiに直接話しかけて文字起こしを行う方法はシンプルです。Geminiアプリを開き、マイクアイコンをタップして、質問や指示を声で伝えます（参照*4）。たとえば「この内容を文字に起こしてください」といった指示を口頭で伝えるだけで処理が始まります。

ただし、この方法はリアルタイムの短い発話を文字にする用途に向いています。長時間の会議録音をそのままマイク入力で処理するのは難しいため、録音済みのファイルがある場合は次に説明するアップロード手順を使うのが現実的です。

音声・動画ファイルのアップロード手順

録音済みの音声や動画からの文字起こしには、ファイルアップロードの機能を使います。Geminiの入力欄にある「+」ボタンをタップすると、写真やファイルを添付できます（参照*4）。スマホに保存されたM4AやMP4などのファイルを選び、プロンプト（指示文）を添えて送信します。

具体的な流れとしては、「+」ボタンから音声または動画ファイルを選択し、「この音声を文字起こしして、話者を区別してください」のように指示を入力して送信するだけです（参照*5）。スマホからでもPC版と同じ手順で操作できるため、外出先での文字起こし作業にも対応できます。

プロンプトの書き方と調整のコツ

Geminiでの文字起こし精度を左右するのがプロンプトの内容です。たとえば「タイムスタンプ付きの文字起こしを作成して、SRTファイルに変換できる形式にしてください」と指定すれば、時間情報付きのテキストが出力されます（参照*5）。

ある実例では、M4A形式の音声ファイルを添付し、「これを聞いて文字に起こし、話者を識別してください」という短いプロンプトを入力したところ、やり取りなしで話者を分けた全文の書き起こしが出力されました（参照*6）。最初の出力結果に修正が必要であれば、追加のプロンプトで調整を依頼できます。私の経験では、一度で完璧な出力を求めるより、「話者名を修正して」「専門用語の表記を統一して」と段階的にやり取りするほうが、結果的に作業時間が短くなります。

文字起こし精度を高めるテクニック

話者識別とタイムスタンプの指定

Geminiの文字起こしで特に実用的なのが、話者の区別を自動で行える点です。あるインタビュー音声をGeminiで処理した事例では、インタビュアーとインタビュー対象者の発言が正確に分離されました。ただし、音声中で対象者が自分の名前を綴った場面では、Geminiが異なる名前を採用するケースも確認されており、固有名詞については出力後の確認が必須です（参照*6）。人名・地名・専門用語は、AIが「それらしく補完」してしまうリスクがある。ここは人間が必ず目を通す工程として残しておくべき箇所です。

修正の依頼もプロンプト上で完結します。上記の事例では、追加のプロンプトで話者名の修正を指示したところ、正しい名前に置き換えたテキストが再出力されました。Geminiは専門用語や文脈の解釈にも強く、100以上の言語に対応しているため、多言語の音声を扱う場面でもプロンプトで翻訳を指示できます（参照*5）。

Gboard音声入力との併用

スマホでGeminiに長い指示を入力したい場合、Gboard（Googleのキーボードアプリ）の音声入力を併用する方法があります。Geminiアプリのテキスト入力欄をタップしてキーボードを表示させ、Gboard上のマイクアイコンをタップして話し始めます（参照*7）。

Gboardの音声入力は、Geminiアプリ内蔵のマイク機能よりも連続した入力に適した設計になっており、途中で入力が途切れにくい傾向があります。長いプロンプトや補足指示を声で入力したいときに有効な手段です。音声ファイルのアップロードと組み合わせれば、スマホだけでも効率的に文字起こし作業を進められます。

音声入力が途切れる原因と対処法

入力が止まる仕組みと制限

Geminiアプリで音声入力を使っていると、話の途中で入力が止まってしまうことがあります。この現象の主な原因は、Geminiのアプリ内マイク機能が短く簡潔な指示の入力に最適化されている点にあります。音声中の短い間（ま）を「入力の終了」と判断して、聞き取りを止めてしまうのです（参照*7）。

つまり、会議の議事録のように長く話し続ける使い方は、現時点のGeminiアプリ内マイクの設計意図と合っていません。この制限を理解しておくと、入力が止まった際にも冷静に対処できます。ツールの限界を知ることは、使いこなしの第一歩です。

Gemini Liveやキャッシュクリアの活用

音声入力の途切れを防ぐ方法の一つが、Gemini Liveの利用です。Gemini Advanced（有料プラン）のユーザーが利用できるこの機能は、連続的な会話形式のやり取りに特化しており、「保留（Hold）」ボタンでマイクの一時停止と再開を自分で制御できます（参照*7）。長い音声入力を行いたい場合には、Gemini Liveへの切り替えが有効です。

今後の改善策として、マイクを長時間有効にし続けられる「マイクロックボタン」機能の開発が進められています。この機能が実装されれば、マイクアイコンが停止ボタンに変わり、意図的に止めるまで聞き取りが続くようになる見込みです。前述のGboard音声入力との併用とあわせて、状況に応じた使い分けが途切れ対策の基本になります。

Google系文字起こしツールとの比較

Recorder・Live Transcribe・Eloquent

Google系の文字起こしツールにはGemini以外にも複数の選択肢があり、それぞれ特徴が異なります。Google Recorderは無料で使えるPixelスマートフォン専用アプリで、録音ボタンを押すだけで録音と文字起こしが同時に行われます。完成した文字起こしは検索・編集・共有が可能です（参照*8）。

Google Live Transcribeは、Android 5.0以上で利用できる無料のアクセシビリティ向けツールで、リアルタイムの会話を画面上にテキスト表示します。評価としてはアクセシビリティやリアルタイム会話向けに位置づけられています（参照*5）。

Google AI Edge Eloquentは、iPhoneでも使えるオフライン対応の音声入力アプリです。端末にGemmaベースの音声認識モデルをダウンロードして動作するため、オフラインでも利用でき、サブスクリプション料金もかかりません。「えーと」「あのー」といったフィラー（つなぎ言葉）や言い直しをAIが自動で除去し、整った文章として出力する機能が特徴です（参照*9）。

用途別の使い分け基準

これらのツールは、用途と端末環境によって向き不向きが分かれます。Geminiは、録音済みの音声ファイルからタイムスタンプや話者識別付きの文字起こしを作りたいときに向いており、有料プランは月額19.99ドルとされています。Google RecorderはPixelユーザーがオフラインでも録音と文字起こしを同時に行いたい場面に適しています（参照*5）。

Live Transcribeは対面での会話をリアルタイムで文字化する用途に限定されるため、録音の書き起こし目的には適しません。Eloquentは、iPhoneユーザーがオフラインで整った文章を音声入力したい場合に選択肢になります。自分がどの端末を使い、何を文字起こししたいのかを基準に選ぶと、最適なツールを判断しやすくなります。

プライバシーと活動履歴の管理

スマホで音声データを扱う以上、プライバシーへの配慮は欠かせません。Gemini Liveでは、活動履歴を削除すると、関連する音声・文字起こし・録音もすべて消去されます（参照*4）。また、活動の保存自体をオフにする設定や、3か月後に自動削除する設定も用意されています。ただし、活動の保存をオフにしても、安全上の理由から最大72時間は短期的なバッファとしてデータが保持される点には注意が必要です。

一方、Gemini Nanoのようなオンデバイス処理モデルでは、プロンプトが端末内で実行されるため、サーバーへの通信が発生しません（参照*3）。扱う音声の内容が機密性の高いものであれば、オンデバイス処理が可能な機能を選ぶか、活動履歴の自動削除設定を有効にしておくことで、情報管理のリスクを抑えられます。企業の会議音声や取材音声をクラウドに送ることに抵抗がある場合は、このオンデバイス処理の選択肢を事前に確認しておくことをお勧めします。

おわりに

Geminiを使った文字起こしは、スマホからファイルをアップロードしてプロンプトを入力するだけで始められます。話者識別やタイムスタンプの指定、Gboard音声入力との併用など、工夫次第で精度と効率をさらに高められます。私自身、文字起こしにかかる時間が以前と比べて大幅に短縮されており、AIに任せるべき工程と人間が確認すべき工程を切り分けることが、実務での安定した活用につながると実感しています。

音声入力の途切れへの対処法やGoogle系ツールとの使い分け、プライバシー設定まで把握しておけば、スマホ1台で安心して文字起こし作業を完結させられます。まずは短い音声ファイルで試し、プロンプトの書き方に慣れるところから始めてみてください。固有名詞や専門用語の確認は人間が担う、という役割分担を最初から決めておくと、運用がスムーズになります。

監修者

安達裕哉（あだちゆうや）

デロイトトーマツコンサルティングにて品質マネジメント、人事などの分野でコンサルティングに従事しその後、監査法人トーマツの中小企業向けコンサルティング部門の立ち上げに参画。大阪支社長、東京支社長を歴任したのち2013年5月にwebマーケティング、コンテンツ制作を行う「ティネクト株式会社」を設立。ビジネスメディア「Books&Apps」を運営。
2023年7月に生成AIコンサルティング、およびAIメディア運営を行う「ワークワンダース株式会社」を設立。ICJ2号ファンドによる調達を実施(1.3億円)。
著書「頭のいい人が話す前に考えていること」が、82万部（2025年3月時点）を売り上げる。
（“2023年・2024年上半期に日本で一番売れたビジネス書”（トーハン調べ／日販調べ））