AIスコア×利用率で読み解く生成AIモデル比較:GPT・Claude・Gemini
はじめに
みなさま、こんにちは!
クラウドソリューション第2グループ入社3年目のkugishimakです。
2025年現在、生成AIは多様なモデルが登場し、用途に応じた使い分けが求められる時代になりました。
本記事では、実際の利用率とベンチマークスコア(MMLU、GPQA、SWE-benchなど)を軸に、主要モデルを比較します。
生成AI利用率ランキング
2025年6月にMarkeZineが実施した調査によると、ChatGPT(GPT-4o/GPT-5)が圧倒的なシェアを誇り、次いでGemini、Microsoft Copilotが続いています。
利用率ランキング(日本国内)
順位 | モデル名 | 利用率(全体比) |
---|---|---|
1位 | ChatGPT | 20.8%(全体の約62.7%) |
2位 | Google Gemini | 10.4%(全体の約24.5%) |
3位 | Microsoft Copilot | 6.8%(全体の約13.3%) |
なぜこのような結果に?
1位:ChatGPT (20.8%/全体の6割超)
-
最初にブレイクした存在感
2022年末の公開から「生成AI=ChatGPT」というイメージが強く定着。メディア露出・SNS拡散が圧倒的でした。 -
無料版の使いやすさ
無料で使えるGPT-3.5の存在が大きい。Googleアカウント等を持っていなくてもすぐ試せる「手軽さ」が強み。 -
教育・個人利用での普及
学生や若年層を中心に「宿題やレポートの下書き」「文章添削」など、生活密着的な使い方が広まった。
2位:Gemini (10.4%/全体の約25%)
-
Google検索との結びつき
GeminiはGoogle検索と統合が進み、特に検索代替や補完として触れる機会が多い。 -
モバイルアプリでの利用体験
Androidスマホへの統合や「Geminiアプリ」での利用が増えてきた。 -
ただし「後発感」がある
ChatGPTの先行優位に対し、「生成AIといえばGemini」とまで一般認知されていない。
3位:Copilot
-
ビジネス利用に偏る
Copilotは主に Office製品(Word, Excel, Outlook) に組み込まれて普及しており、利用者は業務ユーザーに集中している。 -
認知度の課題
一般消費者層には「Copilot=生成AI」という認識がまだ弱い。 -
有料プラン制約
Microsoft 365の契約や企業側のライセンス導入が必要なため、個人での利用ハードルが高い。
最新モデルのベンチマーク比較
続いてはそれぞれの生成AI最新モデルのベンチマークを比較していきましょう。
今回の比較対象は下記となります。※2025年9月現在
- GPT-5
公表:2025年7月 - Claude 4 .1
公表:2025年6月 - Gemini 2.5 Pro
公表:2025年3月
モデル名 | MMLU-Pro (汎用知識・推論) |
GPQA Diamond (科学知識) |
SWE-Bench Verified (コード生成) |
AIME 2025 (数学推論) |
MMMU (マルチモーダル理解) |
---|---|---|---|---|---|
GPT-5 | 87.0% | 88.4% | 74.9% | 94.6% | 84.2% |
Claude 4.1 | 87.8% | 75.5% | 74.5% | 78% | 78% |
Gemini 2.5 Pro | 84.1% | 84.0% | 63.8% | 88.0% | 80% |
やはり最新で公表されているモデルはベンチマークの数値も高くなっていますね。
この数値から各モデルの強み/弱みを見ることができます。
1. GPT-5
- 強み:全体的に高スコア。特に数学(94.6%)と科学(88.4%)が突出。
- おすすめ用途:
- 高度な数学・科学の問題解決(教育、研究支援)
- コード生成(74.9%)も安定して高い
- マルチモーダル(84.2%)も強いため、画像+テキストの複合タスクにも対応可能
2. Claude 4.1
- 強み:汎用知識(87.8%)が最も高く、バランス型
- おすすめ用途:
- 一般的な知識問答や論理的推論が必要な業務(FAQ、カスタマーサポート)
- コード生成(74.5%)もGPT-5とほぼ同等
- 科学・数学・マルチモーダルはやや弱めなので、専門性が高い分野では補助的に使うのが良さそう
3. Gemini 2.5 Pro
- 強み:数学(88.0%)と科学(84.0%)が高め
- おすすめ用途:
- 数学・科学系の教育コンテンツ生成や問題解決
- マルチモーダル(80%)も比較的強いので、画像解析や視覚情報を含むタスクにも対応可能
- コード生成(63.8%)は他モデルより劣るため、プログラミング用途には不向きかも
まとめると…
用途 | 最適モデル | 理由 |
---|---|---|
汎用知識・推論 | Claude 4.1 / GPT-5 | Claudeがわずかに高いが、GPT-5も十分 |
科学知識 | GPT-5 / Gemini | GPT-5が最も高く、Geminiも良好 |
コード生成 | GPT-5 / Claude 4.1 | Geminiは不向き |
数学推論 | GPT-5 / Gemini | GPT-5が圧倒的、Geminiも高得点 |
マルチモーダル理解 | GPT-5 / Gemini | Claudeはやや劣る |
おわりに
本記事では、主要な生成AIモデルの利用率とベンチマークスコアをもとに、それぞれの特徴と適した用途を整理しました。生成AIを選ぶ際には、話題性だけでなく、目的に応じた性能指標を参考にすることで、より効果的な活用が可能になります。今後もモデルの進化に注目しながら、適切な選定を心がけていきましょう。
それではまた👋