Gen-Searcher:検索推論で画像生成の正確性を劇的に向上
2026年3月31日 (火)
- •マルチホップ検索による外部知識の収集で、画像生成の正確性を飛躍的に向上
- •テキストと画像の両面から評価を行う、二重報酬型の強化学習プロセスを採用
- •新指標KnowGenにて、既存モデルのQwen-Imageを16ポイント上回る性能を記録
従来の画像生成モデルは、学習済みの内部知識のみに依存するため、最新の出来事や専門的な科学概念といった知識集約的なタスクにおいて、不正確な内容を出力してしまうことが少なくなかった。Gen-Searcherはこの限界を打破するために開発された、自律的にウェブを閲覧するエージェント機能を備えたモデルである。創作プロセスを開始する前に、必要な参照画像を自ら検索・取得することで、より事実に即した生成を可能にしている。
このシステムの中核を成すのは、単一の検索に留まらず、情報の連鎖を追って必要なデータに辿り着く「マルチホップ推論」という技術だ。さらに、この複雑な振る舞いを最適化するために、研究チームは特殊な強化学習を導入した。生成されたテキストの正確性と、最終的な画像が参照画像とどれだけ一致しているかの両面から報酬を与えることで、AIが現実世界のデータに対して忠実であり続けるよう調整されている。
ベンチマークであるKnowGenでの測定結果は極めて良好であり、先行モデルを16ポイントも上回る成果を収めた。研究チームはすでに8Bサイズのモデルと学習データセットをオープンソース化しており、このプロジェクトは次世代の検索エージェントにおける基礎的なフレームワークとなるだろう。これにより、AIが静的な学習データの枠を超え、刻々と変化する現実世界をリアルタイムで理解し、視覚化する未来が現実味を帯びてきた。