Google、高性能な次世代オープンモデル「Gemma 4」を発表
- •Googleが高度な推論と自律的なエージェント機能を備えた4つのサイズのGemma 4を公開した。
- •音声・映像入力をネイティブ処理し、最大256Kトークンのコンテキストウィンドウを実現している。
- •スマートフォンからH100 GPUまで、デバイスを選ばないローカル環境での実行が可能だ。
AIを取り巻く環境は、ブラックボックス化された閉鎖的なシステムから、開発者が自身の環境で強力なモデルを制御できる未来へと急速に変化している。Googleが発表した最新モデル「Gemma 4」は、こうしたAI民主化の大きな転換点だ。「パラメータあたりの知能」を重視することで、巨大なデータセンターインフラを必要とせず、高いレベルの推論と意思決定能力をローカル環境で実現している。
Gemma 4には、20億パラメータの軽量モデル(E2B)から310億パラメータの密結合モデルまで、4つのサイズが用意されている。開発者は、モバイルデバイス向けの軽量アシスタントから、複雑なデータ分析を行う高性能な論理エンジンまで、用途に応じて最適なモデルを選択できる。特筆すべきは、260億パラメータのMixture of Experts(MoE)モデルの搭載だ。このアーキテクチャは、リクエストに応じて必要な部分のみを稼働させることで、計算コストを抑えつつ高い処理能力を維持している。
学生開発者にとって最も大きな恩恵は、Agentic AI(エージェント型AI)ワークフローへのネイティブ対応だ。従来、AIにウェブ検索や電卓などのツールを接続するには複雑なコーディングが不可欠だった。しかしGemma 4では、関数呼び出しや構造化された出力を標準でサポートしているため、AIが自らタスクを計画し、適切なタイミングでツールを実行する自律的なエージェント構築が可能になった。
テキスト処理にとどまらず、Gemma 4シリーズはすべてマルチモーダルに対応しており、画像や映像、音声入力を初期段階から理解できる。これにより、人間と同じように現実世界を認識するアプリケーション開発が容易になる。さらに、140以上の言語と最大256Kトークンまで対応するContext Windowにより、膨大な資料や重層的な会話を忘れることなく一貫して処理できるようになった。
プライバシーやデータの主権を重視するユーザーにとって、Apache 2.0オープンソースライセンスでの公開は朗報だ。Googleはモデルの重みを公開することで、世界中のコミュニティによる革新を促している。これにより、API制限のない環境で、研究者や個人開発者がモデルの限界を試すことが可能になった。ローカルワークステーション、Raspberry Pi、あるいは大規模なエンタープライズ環境であっても、Gemma 4は開発者のコードが存在する場所を選ばず、強力なAIの力を提供する。