AIはどれも「天才」のはずなのに、なぜ実感が湧かないのか?
「米国司法試験をトップ10%で突破した」「博士級の人材より賢い」。最近のAIモデル発表を見ると、どれもみな天才ばかりです。
でも実際に使ってみると?あるAIは質問の意図をピタリと捉え、あるAIは自信たっぷりにもっともらしい嘘をつく。
発表される性能評価の点数はほとんど90点台で横並びなのに、なぜ使い心地はこんなに違うのでしょうか?
今回は、AIの性能を評価する方法、すなわちベンチマークとは何か、何を測っているのか、どこまで信頼できるのかを、専門知識ゼロでも5分で感覚がつかめるようにまとめました。
list目次expand_more
- 1. AIの性能、どうやって比べるの?
- 2. どんな種類のベンチマークがある?
- 3. 主要ベンチマークの測定内容とTOP 5
- ① MMLU / MMLU-Pro:「AIの共通テスト」
- ② GPQA Diamond:「AIの大学院試験」
- ③ HumanEval:「AIのコーディングテスト」
- ④ LiveCodeBench:「毎回変わるコーディングテスト」
- ⑤ AIME 2025:「AI数学オリンピック」
- ⑥ SWE-bench Verified:「AI現場エンジニアテスト」
- ⑦ Arena:「AI人気投票」
- ⑧ Humanity's Last Exam(HLE):「人類最後の試験」
- ⑨ ARC-AGI-2:「汎用知能テスト」
- 4. ベンチマークの限界:スコア ≠ 実際の使用感
- ① テストはあくまでテスト
- ② 問題の流出問題
- ③ ある分野の天才 ≠ 万能
- ④ スピードとコストも大事
- ⑤ 「いい会話」はスコアで測りにくい
- 5. 結局、どうやってAIを選べばいい?
1. AIの性能、どうやって比べるの?
新しいスマートフォンを選ぶとき、カメラの画素数やバッテリー容量、処理速度といったスペックを比較しますよね。AIも「どれだけ賢いか」を客観的に比べるには、標準化された評価基準があります。
その役割を担うのがベンチマーク(Benchmark)。AIに課す標準化されたテストです。
AI企業は新モデルをリリースするたびにベンチマークスコアを公開して性能をアピールしますが、通常は次の3つで構成されています。
-
問題:AIに与える質問や課題
-
採点方法:正答率やコードの実行結果など、客観的な基準
-
ランキング表:他のAIモデルとのスコア比較
TOEICが英語力を測るように、AIベンチマークはAIの特定の能力を測定します。
そのため、知識・コーディング・数学・対話など様々な種類があり、ひとつのベンチマークがAIの「すべての能力」を評価するわけではありません。
2. どんな種類のベンチマークがある?
AIを評価するベンチマークは、大きく6つの領域に分けられます。
| 領域 | 何を測る? | 例え |
|---|---|---|
| 🧠 一般知識 | 幅広い分野の基礎知識 | センター試験・共通テスト |
| 🔬 専門家レベルの推論 | 博士レベルの理科・医学問題 | 大学院の資格試験 |
| 💻 コーディング | プログラミング問題の解決力 | コーディングテスト |
| 🔢 数学 | 数学オリンピックレベルの問題 | 数学の競技大会 |
| 🛠️ 実践的ソフトウェア | 実際のコードのバグ修正・開発 | 現場エンジニアのスキルテスト |
| 💬 対話品質 | 人が直接評価した会話の満足度 | 主観的な面接審査 |
3. 主要ベンチマークの測定内容とTOP 5
① MMLU / MMLU-Pro:「AIの共通テスト」
Massive Multitask Language Understanding。
57科目(歴史・物理・法学・医学など)にまたがる4択試験です。
-
人間に例えると、共通テストを全科目一度に受けるようなもの
-
MMLU-Proはアップグレード版で、選択肢を増やし難易度を上げることで「山勘」対策を強化
-
⚠️ 現在の上位AIはほとんどが90%超を記録しており、実力差が見えにくくなっています
TOP 5(2026年3月時点)
https://onyx.app/llm-leaderboard
| 順位 | AIモデル | スコア |
|---|---|---|
| 🥇 1位 | Moonshot / Kimi K2.5 | 92.0% |
| 🥈 2位 | Google / Gemini 3.1 Pro | 91.8% |
| 🥉 3位 | Anthropic / Claude Opus 4.6 | 91.0% |
| 4位 | DeepSeek / DeepSeek R1 | 90.8% |
| 5位 | OpenAI / GPT-oss 120B | 90.0% |
② GPQA Diamond:「AIの大学院試験」
Graduate-Level Google-Proof Q&A。物理・化学・生物学の博士レベルの問題です。
-
人間に例えると、博士課程の総合試験
-
「Google-Proof」という名のとおり、検索しても答えが見つからない問題ばかり
-
人間の専門家でも平均65%程度しか正解できない超高難度
TOP 5(2026年3月時点)
https://epoch.ai/benchmarks/gpqa-diamond
| 順位 | AIモデル | スコア |
|---|---|---|
| 🥇 1位 | OpenAI / GPT-5.4 Pro | 94.6% |
| 🥈 2位 | Google / Gemini 3.1 Pro | 94.1% |
| 🥉 3位 | Google / Gemini 3 Pro | 92.6% |
| 4位 | OpenAI / GPT-5.2 | 91.4% |
| 5位 | Anthropic / Claude Opus 4.6 | 90.5% |
③ HumanEval:「AIのコーディングテスト」
Python関数を書くプログラミングテストです。説明文を読んで、正しく動作するコードを書く必要があります。
-
人間に例えると、エンジニア採用のコーディングテスト
-
164問で構成され、書いたコードが実際に実行されてテストをパスしなければなりません
-
⚠️ 上位モデルのほとんどが95%超を記録しており、差が出にくくなってきています。 そこで次に紹介するLiveCodeBenchが登場しました
TOP 5(2026年3月時点)
https://pricepertoken.com/leaderboards/benchmark/humaneval
| 順位 | AIモデル | スコア |
|---|---|---|
| 🥇 1位 | Anthropic / Claude Sonnet 4.5 | 97.6% |
| 🥈 2位 | DeepSeek / DeepSeek R1 | 97.4% |
| 🥉 3位 | xAI / Grok 4 | 97.0% |
| 🥉 3位 | Google / Gemini 3 Pro | 97.0% |
| 🥉 3位 | Anthropic / Claude Sonnet 4.5 | 97.0% |
④ LiveCodeBench:「毎回変わるコーディングテスト」
毎月新問題が追加されるコーディングベンチマークです。AIが過去問を丸暗記して解くことを防ぎます。
-
人間に例えると、毎月変わる実践的なコーディングコンテスト
-
HumanEvalの弱点(問題の流出・暗記)を補う形で生まれました
-
2026年現在、最高モデルでも約80%台のため、実力差がしっかり測れます
TOP 5(2026年3月時点)
https://benchlm.ai/benchmarks/liveCodeBench
| 順位 | AIモデル | スコア |
|---|---|---|
| 🥇 1位 | Moonshot AI / Kimi K2.5 | 85% |
| 🥈 2位 | Zhipu AI / GLM-4.7 | 84.9% |
| 🥉 3位 | OpenAI / GPT 5.4 | 84% |
| 4位 | Xiamo / MiMo-V2-Flash | 80.6% |
| 5位 | xAI / Grok Code Fast 1 | 80% |
NOTE
同じ「コーディング」ベンチマークなのに、なぜ順位に大きな差があるの?
LiveCodeBenchは数学的な論理問題を解かせるのに対し、SWE-benchは実際のプロジェクトのバグを修正する問題です。ClaudeはSWE-benchでトップに立ちますが、アルゴリズム問題では中国系モデルに後れをとります。「コーディングが得意」の意味は、ベンチマークによって全く異なる。これはその典型的な例です。
⑤ AIME 2025:「AI数学オリンピック」
American Invitational Mathematics Examination。米国数学招待試験の問題をAIに解かせます。
-
人間に例えると、数学の天才だけが参加できる競技大会
-
単純な計算ではなく、複数のステップの論理的推論が必要な問題
-
最近はトップモデルの一部が満点を出し始めており、さらに難しいテストが求められています
TOP 5(2026年3月時点)
https://vellum.ai/llm-leaderboard
| 順位 | AIモデル | スコア |
|---|---|---|
| 🥇 1位 | Google / Gemini 3 Pro | 100% |
| 🥇 1位 | OpenAI / GPT 5.2 | 100% |
| 🥉 3位 | Anthropic / Claude Opus 4.6 | 99.8% |
| 4位 | Moonshot AI / Kimi K2.5 | 99.1% |
| 5位 | OpenAI / GPT-oss 20B | 98.7% |
⑥ SWE-bench Verified:「AI現場エンジニアテスト」
実際のオープンソースプロジェクト(GitHub)のバグを修正する課題です。
-
人間に例えると、現場のエンジニアが巨大な実プロジェクトのコード全体からバグを見つけて直す業務
-
HumanEvalとの違い:HumanEvalは「小さな関数ひとつ」を書くもの、SWE-benchは大規模な実際のプロジェクトの中で問題を解決しなければなりません
-
コーディング力だけでなく、大規模なコードを理解し文脈を把握する能力まで測定します
TOP 5(2026年3月時点)
https://www.swebench.com/
| 順位 | AIモデル | スコア |
|---|---|---|
| 🥇 1位 | Anthropic / Claude Opus 4.5 | 76.8% |
| 🥈 2位 | Google / Gemini 3 Flash | 75.8% |
| 🥈 2位 | MiniMax / MiniMax M2.5 | 75.8% |
| 4位 | Anthropic / Claude Opus 4.6 | 75.6% |
| 5位 | OpenAI / GPT 5.2 Codex | 72.8% |
⑦ Arena:「AI人気投票」
人々が2つのAIの回答を比べて直接投票する方式です。
どのAIかわからない状態(ブラインド)で行われます。
-
人間に例えると、審査員が回答内容を主観的に評価する面接審査
-
チェスのレーティングと同じ勝率ベースのスコア(Elo)方式を採用(高いほど優秀)
-
他のベンチマークと異なり、実際のユーザーの使用感を反映できるのが大きな強み
-
ただし投票者の主観が入るため、「賢さ」より「話し方の上手さ」が有利になりやすい面もあります
TOP 5(2026年3月時点/テキスト回答品質)
https://arena.ai/leaderboard/text
| 順位 | AIモデル | Eloスコア |
|---|---|---|
| 🥇 1位 | Anthropic / Claude Opus 4.6 | 1504 |
| 🥈 2位 | Google / Gemini 3.1 Pro | 1493 |
| 🥉 3位 | xAI / Grok 4.2 Beta 1 | 1491 |
| 4位 | Google / Gemini 3 Pro | 1486 |
| 5位 | OpenAI / GPT-5.4 High | 1484 |
⑧ Humanity's Last Exam(HLE):「人類最後の試験」
世界中の専門家数千人が「AIには絶対解けないだろう」と思いながら作った超難問2,500問です。
-
人間に例えると、ノーベル賞受賞者レベルの専門家が課す超難度の卒業試験
-
数学・人文科学・科学など幅広い分野の最高難度の問題
-
2026年3月時点では最高のモデルでも約50%。まだAIが制覇できていない領域
-
AI進化の速度を測る物差しとして機能しています
TOP 5(2026年3月時点)
https://artificialanalysis.ai/evaluations/humanitys-last-exam
| 順位 | AIモデル | スコア |
|---|---|---|
| 🥇 1位 | Google / Gemini 3.1 Pro | 44.7% |
| 🥈 2位 | OpenAI / GPT 5.4 xHigh | 41.6% |
| 🥉 3位 | Anthropic / Claude Opus 4.6 | 36.7% |
| 4位 | Google / Gemini 3 Flash | 34.7% |
| 5位 | Anthropic / Claude Sonnet 4.6 | 30.0% |
⑨ ARC-AGI-2:「汎用知能テスト」
事前知識なしでパターンを見つけ、新しい問題に応用する能力を測ります。
-
人間に例えると、IQテストの図形推論問題
-
一般的なAIチャットbot(LLM)はほぼ0% — 現在最も過酷なベンチマークのひとつ
-
最高AI(Gemini 3 Deep Think)が84.6%に到達したが、1問あたり$13と非常に高コスト
-
「本物の知性」に最も近いものを測ろうとする試み
TOP 5(2026年3月時点)
https://arcprize.org/leaderboard
| 順位 | AIモデル・問題解決にかかる費用 | スコア |
|---|---|---|
| 🥇 1位 | Google / Gemini 3 Deep Think ($13.62) | 84.6% |
| 🥈 2位 | OpenAI / GPT 5.4 Pro xHigh ($16.41) | 83.3% |
| 🥉 3位 | Google / Gemini 3.1 Pro ($0.962) | 77.1% |
| 4位 | OpenAI / GPT 5.4 xHigh ($1.52) | 74.0% |
| 5位 | Anthropic / Claude Opus 4.6 High ($3.47) | 69.2% |
4. ベンチマークの限界:スコア ≠ 実際の使用感
ベンチマークスコアが高いからといって、あなたが使うときに最高のAIとは限りません。
ベンチマークは有用な参考情報ですが、いくつかの限界があります。
① テストはあくまでテスト
受験で満点を取った人が、必ずしも仕事ができるとは限らないように、テストスコア = 実務能力ではありません。
AIも同じです。ベンチマークで高得点のモデルが、あなたの実際の質問には的外れな答えを返すこともあります。
② 問題の流出問題
一部のAIモデルは、学習データにベンチマークの問題が含まれている可能性があります。
答えを事前に見た学生が高得点を取るのと同じ原理です。これを「データ汚染(コンタミネーション)」といいます。
③ ある分野の天才 ≠ 万能
数学ベンチマーク1位のモデルが、文章作成でも1位とは限りません。
AIにはそれぞれ得意な領域があります。 目的によって最適なAIは変わります。
④ スピードとコストも大事
どんなに賢いAIでも、回答に30秒かかったり、1回の質問に数十円かかったりするAIを毎日使い続けるのは難しい。
ベンチマークは通常「知性」しか測らず、速度・コスト・使いやすさは反映されません。
⑤ 「いい会話」はスコアで測りにくい
「このAIは自分の言いたいことをわかってくれる」「返答が自然だ」「自分のスタイルに合っている」といった主観的な満足度は、客観的なテストでは測りにくいのです。
5. 結局、どうやってAIを選べばいい?
ベンチマークは「候補を絞り込む1次フィルター」として活用し、最終的には実際に使ってみて自分の用途に合うかどうかを確認してください。
-
まず自分の用途を決める:コーディング?文章作成?勉強?業務の自動化?
-
その分野のベンチマークを参考に、候補を2〜3つに絞る
-
同じ質問を投げて比べてみる:実際の使用感が、最も正確な評価です