Googleがリアルタイム音声AI「Gemini 3.1 Flash Live」を発表
- •Googleが低遅延の音声対話モデル「Gemini 3.1 Flash Live」を全世界で公開
- •音声推論ベンチマークでGPT-4oを上回る95.9%の高精度を記録
- •音声で対話しながら検索できる新機能「Search Live」の日本語版も提供開始
Googleが発表した「Gemini 3.1 Flash Live」は、人間との自然なキャッチボールを可能にするリアルタイム音声AIの最新モデルです。従来のAIは音声を一度テキストデータに変換してから処理を行うため、どうしても数秒の「間」が生じていましたが、本モデルは音声をダイレクトに処理するネイティブな設計により、人間同士の会話に近い驚異的な低遅延を実現しています。
性能面において特筆すべきは、単に速いだけでなく、複雑な論理的思考(推論)を伴う音声対話において極めて高い精度を示した点です。Googleが実施したベンチマーク評価によると、音声から適切なプログラムや機能を呼び出す能力(関数呼び出し)を測定する指標において、従来のモデルを大きく上回る90.8%という数値を記録しました。また、文脈を汲み取った高度な理解力を測るテストでも、競合他社の最新モデルを凌駕する結果を残しています。これにより、ユーザーは曖昧な指示や複雑な質問であっても、ストレスなくAIと対話できるようになります。
この革新的な技術は、Google検索の新たな形である「Search Live」の基盤として即座に投入されました。従来の検索体験が、検索窓にキーワードを入力して結果のリストを眺めるという「静的な作業」であったのに対し、Search LiveはAIとリアルタイムで対話しながら情報を深掘りしていく「探索的な体験」へと進化させます。例えば、料理のレシピを相談しながら手元にある材料で代用案を考えたり、旅行の計画を立てる際に行き先の特徴を対話で確認しながら絞り込んだりといった、より直感的でパーソナルな検索が可能になります。
今回の発表に合わせて日本語版の紹介ページも公開されており、日本国内のユーザーもこの次世代の検索体験を享受できる体制が整いつつあります。検索エンジンの圧倒的なシェアを持つGoogleが、AIによる「音声ファースト」のインターフェースへ本格的にシフトしたことは、私たちのインターネットとの接点や情報の取得方法そのものを、今後数年で劇的に変容させる可能性を強く示唆しています。