RAD-2:自律走行車の安全性を高める新アーキテクチャ
- •RAD-2フレームワークにより、シミュレーションでの衝突率を56%削減。
- •ジェネレーター・ディスクリミネーター構造が複雑な走行シナリオにおける動作計画を安定化。
- •BEV-Warp環境が俯瞰視点(Bird's-Eye View)での効率的な高速評価を実現。
自律走行には、目的地までの移動だけでなく、不確実性と動的な要素で構成される世界を深く理解する能力が不可欠である。市街地で安全に走行するためには、車両は自身の最適経路だけでなく、歩行者や他車の挙動まで予測しなければならない。近年、画像生成技術として知られる拡散モデルを、これら複雑な軌道の予測に応用する研究が進んでいる。しかし、動作計画に適用すると確率的な不安定さが生じ、修正メカニズムの欠如が原因で、挙動が不自然になるという課題を抱えていた。
この課題に対し、RAD-2は動作計画に安定性をもたらすジェネレーターとディスクリミネーターの統合フレームワークを導入した。拡散モデルに基づくジェネレーターが多様な未来の軌道を生成し、強化学習に基づくディスクリミネーターがその中から最も安全で効率的な候補を選択する。この役割分担により、高次元データへの直接的な報酬付与で生じる急なハンドル操作などの「グリッチ」を回避できる。
本技術の核となるのが「時間的整合性を保ったグループ相対方策最適化」という手法である。従来の強化学習では、過去のどの行動が結果に結びついたかを特定する「クレジット割り当て」が困難であった。この新手法は、数秒前のハンドル操作が現在の軌道に関連しているという運転の連続性を活用し、学習プロセスを円滑化する。これにより、フィードバック信号が整理され、安全な走行パターンへとモデルが誘導される。
評価環境であるBEV-Warpの開発も画期的だ。システムはBird's-Eye View、すなわち俯瞰視点上の特徴空間で直接、閉ループ計画を実行する。これにより、あらゆるシナリオでフル3Dシミュレーションを行うという計算コストの高いプロセスを排除した。その結果、膨大な相互作用を限られた計算資源で効率的に学習できるようになった。
RAD-2の成果は顕著であり、従来の拡散モデルベースの計画アルゴリズムと比較して、衝突率を56%削減することに成功した。数値だけでなく、実車展開テストにおいても、走行の滑らかさと知覚的な安全性の向上が確認されている。模倣学習からディスクリミネーター主導型への移行は、自律走行技術が複雑な市街地航行に求められる信頼性を獲得するための重要な転換点である。