【AIのスコアってなに?】AIスコア、ベンチマークの紹介
はじめに
みなさま、こんにちは!
クラウドソリューション第2グループ入社3年目のkugishimakです。
生成AIは日を追うごとに次々に新しいものが誕生し選択肢もたくさん増えています。
生成AIの比較にあたり評価指標としてスコアを用いられることがあるのですが一言にスコアといっても様々あります。
本記事では、生成AIにおける生成品質の評価スコアを題材に、そもそもスコアとは何か、その種類や算出方法を整理します。
生成AIにおける評価スコアとは
生成AIの評価における「スコア」とは、モデルがどれだけ正確・自然・賢くコンテンツを生成できるかを数値で示したものです。
このスコアは、、「ベンチマーク」(基準となる評価指標や課題セット)を通じて測定され、
モデルの性能を客観的に比較するために使われます。
ベンチマークとは?
ベンチマークとは、AIモデルの能力を比較・評価するために設計された標準化されたテストセットです。
人間の試験のように、同じ問題を複数のモデルに解かせて、どれだけ正確に・賢く・効率的に答えられるかをスコアで示します。
主要なベンチマークの種類
ベンチマークにはそれぞれ目的別に設定された問題で構成されています。
ここでは、GPT-5などの最新モデルで使用されている、注目度の高いベンチマークを紹介します。
1. MMLU-Pro(Massive Multitask Language Understanding – Pro)
MMLU-Proは、従来のMMLU(Massive Multitask Language Understanding)ベンチマークを改良・拡張した、
より堅牢で挑戦的なマルチタスク言語理解ベンチマークです。
主に大規模言語モデル(LLM)の推論能力と知識応用力をより正確に評価することを目的としています。
なぜMMLU-Proが重要か?
- 最新のLLM(例:GPT-4o, Claude 3, Gemini 1.5など)はMMLUで高得点を出すようになり、差が見えにくくなってきた問題があった
- MMLU-Proでは、より難しい問題と多様な選択肢により、モデルの本質的な理解力や推論力の差を可視化できるように改良された
MMLU-Proの主な特徴
特徴 | 内容 |
---|---|
選択肢の増加 | 従来の4択から10択に増加。偶然の正解率を下げ、推論力をより厳密に評価。 |
推論重視の設問 | STEM分野(数学・物理・化学など)からTheoremQAやSciBenchの問題を追加し、知識だけでなく推論力を問う構成に。 |
高品質なデータセット | 専門家による2段階レビューで、誤答やノイズを除去。信頼性の高い設問群を構築。 |
広範な分野カバー | 数学、法律、心理学、健康など14分野・12,000問以上を収録。 |
CoT(Chain-of-Thought)対応 | 思考の連鎖を使うことで、モデルの性能が最大19%向上。 MMLUでは逆に性能が下がる場合も。 |
プロンプト安定性 | 24種類のプロンプトで評価してもスコアのばらつきが2%以下と安定。 MMLUでは4〜5%。 |
MMLUとの違い
比較項目 | MMLU | MMLU-Pro |
---|---|---|
選択肢数 | 4 | 10 |
問題の性質 | 知識中心 | 推論中心 |
難易度 | 中〜高 | 高〜非常に高 |
評価の精度 | 限界に達しつつある | モデル間の差を明確に示せる |
CoTの効果 | 限定的または逆効果 | 明確な性能向上あり |
2. GPQA Diamond(Graduate-Level Physics QA – Diamond)
GPQA Diamondは、博士課程レベルの物理・科学知識を問うベンチマークで、生成AIの高度な専門知識と論理的推論力を評価するために設計されています。
なぜGPQA Diamondが重要か?
- 通常のQAベンチマークでは測れない、専門的かつ複雑な科学的知識の理解力を評価できる
- モデルが「表面的な知識」ではなく、「深い理解と推論」に基づいて回答できるかを検証するための指標
GPQA Diamondの主な特徴
特徴 | 内容 |
---|---|
高難度の設問 | 大学院レベルの物理・化学・天文学などから出題。 専門家でも難しい問題が含まれる。 |
論理的推論力の重視 | 単なる知識ではなく、複数ステップの推論を必要とする設問が中心。 |
多様な選択肢 | 10択問題で偶然の正解率を低減。 |
モデル間の差が明確 | GPT-4oやClaude 3などでも大きなスコア差が出るため、性能比較に有効。 |
3. SWE-Bench Verified(Software Engineering Benchmark)
SWE-Bench Verifiedは、実際のGitHub Issue(ソフトウェア開発における課題管理や改善提案を記録・共有するための仕組み)をもとに、AIがどれだけ正確にコード修正・生成できるかを評価するベンチマークです。
なぜSWE-Bench Verifiedが重要か?
- 実務に近い環境でAIの「コード生成力」「バグ修正力」を測定できる
- 開発現場でのAI活用の可能性を具体的に示す指標
SWE-Bench Verifiedの主な特徴
特徴 | 内容 |
---|---|
実データ使用 | GitHub上の実際のIssueとPRをベースにした設問。 |
自動検証 | 修正後のコードがテストを通過するかで正解を判定。 |
Verified版 | 人手で正解を確認した高品質なサブセット。 |
モデルの実務適性を評価 | 単なるコード生成ではなく、実務で使えるかを検証。 |
4. Humanity’s Last Exam(HLE)
Humanity’s Last Examは、大学レベルの総合試験を模したベンチマークで、幅広い分野の知識と応用力を問います。
なぜHLEが重要か?
- モデルが「人間の大学生レベルの知識」を持っているかを測定できる
- 一般教養から専門分野まで、幅広い知識の統合力を評価
HLEの主な特徴
特徴 | 内容 |
---|---|
分野の広さ | 哲学、経済、歴史、心理学、数学など多岐にわたる。 |
難易度の高さ | 大学の期末試験レベルの設問が中心。 |
論述形式も含む | 選択式だけでなく、記述式問題も一部含まれる。 |
モデルの汎用性を評価 | 特定分野に偏らない、総合的な知識力を測定。 |
5. MMMU(Massive MultiModal Understanding)
MMMUは、画像・音声・動画などのマルチモーダル情報を理解する力を評価するベンチマークです。
なぜMMMUが重要か?
- テキストだけでなく、視覚・聴覚情報を扱えるかをみる
- 実世界の複雑な情報を統合して理解する能力を測定
MMMUの主な特徴
特徴 | 内容 |
---|---|
多様なモダリティ | 画像、音声、動画、図表などを含む設問。 |
実世界に近い課題 | 医療画像の診断、地図の読み取り、音声認識など。 |
高難度 | モダリティ間の情報統合が必要な設問が多い。 |
モデルの汎用性を評価 | 単一モダリティに依存しない理解力を測定。 |
6. AIME 2025(AI Math Evaluation)
AIME 2025は、数学の難問に対するAIの対応力を測るベンチマークで、特に論理的思考と計算力が問われます。
なぜAIME 2025が重要か?
- 数学はAIの「推論力」「論理力」を最も厳密に評価できる分野
- 高度な数学問題に対応できるかが、汎用AIの限界を示す
AIME 2025の主な特徴
特徴 | 内容 |
---|---|
難易度の高さ | 数学オリンピックレベルの問題も含まれる。 |
論理的推論 | 単なる計算ではなく、証明や論理展開が必要。 |
自動採点可能 | 正解が明確なため、スコアの信頼性が高い。 |
モデルの思考力を評価 | Chain-of-Thoughtの有無で大きくスコアが変動。 |
おわりに
本記事では、生成AIの性能を測るために使われる主要なベンチマークについて紹介しました。
それぞれのベンチマークは、異なる能力(知識、推論、コード生成、マルチモーダル理解など)を評価するために設計されており、モデルの強み・弱みを明確にする手助けとなります。
生成AIを選ぶ際には、単なる「人気」や「話題性」だけでなく、こうしたベンチマークスコアを参考にすることで、目的に合ったモデル選定が可能になります。
次回は、これらのベンチマークを使って実際にモデルを比較した結果や、LibreChatでの活用事例なども紹介していきます。
それではまた👋
