テンセント、実世界ロボット向け基盤モデル「HY-Embodied-0.5」を発表
- •HY-Embodied-0.5は、実世界の物理的なロボットエージェントに向けた柔軟な基盤モデルファミリーである。
- •空間推論に最適化された2Bエッジモデルと、最先端レベルの性能を持つ32Bモデルで構成される。
- •Mixture-of-Transformersアーキテクチャを採用し、視覚認識と計画能力を高度に融合させている。
AIの潮流は、画面上のデジタル空間から現実の物理空間へと急速にシフトしている。テンセントのロボット研究部門「Robotics X」が公開した「HY-Embodied-0.5」は、この進化を加速させる重要な一歩と言える。従来の言語モデルと物理ロボットの橋渡しを目的として設計されたこのモデルは、テキストの処理だけでなく、現実世界の空間的・時間的な機微を理解することで、ロボットの予測や相互作用を可能にする。
この革新の核心は「Mixture-of-Transformers」という特異なアーキテクチャにある。これは脳のような構造で、視覚と言語という異なるデータを単一のパイネルで混雑させるのではなく、それぞれ専用の経路で処理させる仕組みだ。さらに、重要な視覚的特徴を圧縮した数学的表現である「ラテントトークン」を統合することで、計算コストを抑えつつ、繊細な作業に必要な高解像度の認識精度を実現した。
モデル構成はハードウェアの制約に応じて柔軟に選択できる。ロボット内部のデバイスで直接動作する「エッジAI」向けの軽量な2Bモデルと、高度な推論を担う強力な32Bモデルの2種類が用意された。さらに、より大型のモデルが持つ高度な推論能力を、学習を通じて小型モデルに継承させる「自己進化型」のトレーニングプロセスが採用されている。
評価データによれば、この戦略は極めて有効だ。2Bモデルは視覚・空間ベンチマークにおいて同規模のモデルを凌駕し、32Bモデルは市場の最高峰モデルに匹敵する性能を記録した。テンセントはこのコードとモデルをオープンソースとして公開している。
これにより、研究者は単なる反復的な自動化を超え、現実世界でインテリジェントに行動するロボット開発の新たなツールボックスを手に入れたといえる。AIが物理的なエージェントとして機能する未来は、いま確実に現実のものとなりつつある。