NVIDIA、合成データを活用した多言語OCR技術を刷新
- •多言語ドキュメント認識モデル「Nemotron OCR v2」を公開
- •合成データを用いて日本語、韓国語、ロシア語、中国語のデータ不足を解消
- •単一のA100 GPUで毎秒34.7ページの高速処理を実現
AIが文書を読み取る光学式文字認識(OCR)の領域において、最大のボトルネックとなっているのは学習データの質と量である。英語のデータはウェブ上で容易に収集できるが、日本語、韓国語、ロシア語などの言語では、注釈付きの高品質なデータセットを見つけることが極めて困難だ。手作業によるラベル付けはコスト面で現実的ではなく、ウェブから収集したPDFデータもノイズが多く精度を確保できないケースが少なくない。
NVIDIAが発表した「Nemotron OCR v2」は、合成データを巧みに活用することでこの課題を解決した。研究チームは現実の文書を探し回る代わりに、膨大な多言語テキストと多様なデジタルフォントを組み合わせ、注釈付き画像を自動生成するパイプラインを構築したのだ。これにより、人間がラベル付けするよりも遥かに高精度な「正解」を数学的精度で作成できるようになった。
この手法により、モデルは文字の形状だけでなく、マルチカラムのレイアウトや表構造、読み取り順序といった複雑な文書構造まで学習可能となった。1,200万枚の合成画像による学習を経て、非英語圏の言語性能は実用的なレベルを大きく超え、最先端の精度へと飛躍した。特筆すべきは、モデルがモジュール式に設計されている点である。新しい言語を追加する場合でも、ゼロから再学習することなく、テキストとフォントを追加するだけで対応できる柔軟性を備えている。
さらに、アーキテクチャの効率性も本モデルの大きな特徴だ。Nemotron OCR v2は、画像を分析する「バックボーン」層を共有し、テキスト検出、単語認識、レイアウト理解の3つのタスクを同時に処理する設計を採用した。重複する計算作業を排除することで、NVIDIAのA100 GPUを使用し、毎秒約35ページという圧倒的な処理速度を叩き出している。
AIの進化を追う学生にとって、今回の事例は重要な転換点を示している。現代のAI開発において、「データのボトルネック」はモデルの構造そのものよりも重要になりつつある。高品質な情報を十分に収集できない場合、AIを使ってデータを人工的に生成する「合成データ」戦略が、成功のための基盤となるだろう。