Cloudflare Workers AI、大型モデルKimi K2.5に対応
- •Cloudflare Workers AIが、Moonshot AIの「Kimi K2.5」をはじめとする最先端の大規模モデルへの対応を開始した。
- •統合されたPrefix Cachingとセッションアフィニティ・ヘッダーにより、推論コストを最大77%削減することに成功した。
- •刷新された非同期APIにより、大量の非リアルタイムなエージェント・ワークロードにおける安定した実行が可能となった。
Cloudflareは、最先端のオープンソース・モデルをインフラに直接統合することで、AIエージェントの構築とデプロイにおける最高峰のプラットフォームを目指している。その皮切りとなるのが、Moonshot AIの「Kimi K2.5」だ。このモデルは、一度に処理可能な情報量を示すコンテキストウィンドウが256kと極めて大きく、強力なビジョン機能やTool Callingも備えている。この動きにより、Cloudflareは特化型の小規模モデルのホストから、エージェントのライフサイクル全体を管理できるフルスタックな環境へと進化を遂げた。
負荷の高いワークロードを最適化するため、CloudflareはPrefix Cachingとセッションアフィニティ・ヘッダーを導入した。エージェントが複数回のやり取りを行う際、過去の文脈の大部分は変化しない。Prefix Cachingはこうした入力の数学的表現(テンソル)を保存し、後続のリクエストでの重複処理をスキップする仕組みだ。さらに、セッションアフィニティ・ヘッダーを利用してリクエストを同一のモデルインスタンスにルーティングすることで、キャッシュのヒット率を最大化し、独自の代替手段と比較してコストを最大77%削減できる。
サーバーレス環境特有の不安定さを解消すべく、Cloudflareは非同期APIの大幅な刷新も行った。このプル型のシステムは、余剰のGPU容量を活用して大量のバッチ推論を処理するもので、コードスキャンや深いリサーチといった非リアルタイムタスクにおける容量不足エラーを事実上排除する。こうしたインフラの強化は、エンタープライズ向けの自律型エージェントにおいて、コスト効率と信頼性の高いスケーリングが主要な指標へと変化していることを示唆している。