OpenAI、WebSocket導入でエージェント処理を高速化
- •Responses APIにWebSocketモードを導入し、エージェントのワークフロー速度を最大40%向上させた。
- •新アーキテクチャによりコーディングループが加速し、推論速度は最大で毎秒4,000トークンに達する。
- •永続的な接続による状態キャッシュが可能となり、複雑な複数工程のタスクにおけるデータ転送の冗長性が排除された。
AIエージェントの進化を注視する者にとって、長年のボトルネックはレイテンシであった。エージェントが自律的にコーディングや調査、計画といった多段階のタスクを遂行する際、思考ごとにモデルサーバーとの通信が発生する。従来のWebアーキテクチャでは、その都度接続を確立し直す必要があり、まるで電話をかけるたびに切断して再発信を繰り返すような非効率な構造となっていた。
OpenAIはこの課題に対し、標準的なHTTPリクエストからResponses APIへのWebSocket移行という解決策を打ち出した。これにより、エージェントの各ステップを独立したイベントとして扱うのではなく、双方向の永続的な通信チャネルを確立する。システムは会話の状態をメモリに保持できるため、ターンごとにコンテキストをゼロから再構築する無駄がなくなる。
この転換による影響は極めて大きい。開発ツールをはじめとする先行ユーザーからは、複数ファイルのワークフローが約40%高速化したとの報告が上がっている。バグ修正やコード生成といった、応答時間が作業フローを分断しかねない業務において、この短縮は極めて重要だ。レンダリングされたトークンやモデル構成をキャッシュすることで、リクエストのたびに行われていた重い処理工程を回避している。
今回のアップデートは、AI時代におけるインフラエンジニアリングの重要性を浮き彫りにしている。世間の議論はモデルの「頭脳」に集中しがちだが、ユーザーとモデルの間でデータが移動する「神経系」こそが等しく重要になりつつある。OpenAIがWebSocketによる永続接続をサポートしたことは、インタラクティブなAIアプリケーション構築の新たな基準を示すものだ。
モデルの推論速度が向上し続ける中で、こうした転送層の最適化は、より高速なモデルを作るだけでなく、より優れたユーザー体験を構築するために不可欠である。今後は、基盤となるデータ通信の仕組みがAIの実用性を左右する鍵となるだろう。