Google、高度な自動化を実現するGemini Robotics-ER 1.6を発表
- •Googleが身体化推論(Embodied Reasoning)を強化したGemini Robotics-ER 1.6をリリース
- •精密な空間認識と計器読み取り機能を新たに搭載
- •Google AI Studioにて提供開始、開発者向けColab例も公開中
ロボットが実社会で効果的に機能するためには、単なる事前プログラム済みの指示だけでなく、物理的なインテリジェンスが不可欠である。Google DeepMindが新たに公開したGemini Robotics-ER 1.6は、身体化推論を洗練させることで、この領域に大きな進歩をもたらした。この能力により、ロボットは倉庫の床や混雑した研究室といった複雑で乱雑な環境を、行動に移せる知的な判断へと変換できるようになる。
従来モデルと異なり、本モデルは多視点の視覚入力を解釈する能力に優れている。複数のカメラから得た情報を同時に統合することで、周囲の環境に関する一貫したメンタルマップを作成することが可能だ。このアップデートの核となるのは、改善された空間認識能力である。AIは今や、物体の計数、軌道のナビゲーション、そして対象物が容器に収まるかどうかといった関係論理の理解など、精密なタスクを遂行できるようになった。
これらは単なる学術的な進歩にとどまらず、実践的な自律性を支えるものである。システムはタスクが完了したか、あるいは再試行が必要かを判断できる。これは人間の監督なしで稼働するロボットにとって極めて重要な機能だ。さらに印象的なのは、エージェント的視覚という専門的な支援機能を導入したことである。
これは視覚処理能力とコード実行能力を組み合わせる技術であり、ロボットはアナログメーターやサイトグラス、デジタル表示などの微細な詳細まで拡大して読み取ることができる。グレアやカメラの歪みがあっても、まるで人間が圧力バルブの針の位置を確認し、単位を解釈して液面を推定するように、正確に状況を把握するのだ。
これらの機能は産業用途を直接のターゲットとしており、ボストン・ダイナミクス(Boston Dynamics)が主要な協力企業として名を連ねている。持ち上げるには重すぎる物体の識別や危険物の認識など、ロボットが制約の中で安全に移動することを可能にする本アップデートは、真に協調的な自動化への道を切り拓く。ソフトウェアの知能と物理的ハードウェアが交差する現場を注視する学生にとって、テキスト生成から物理世界への積極的な介入へと進化したモデルの姿を明確に示していると言えるだろう。