Chat Conversation
Message 1 from User
4つの画像を分析して説明し、元の画像の内容をそのままMarkdownに変換して表示する
Message 2 from QueryPie
4つの画像を詳しく分析し、それぞれの内容をMarkdownに変換します。
画像1: 2026年2月20日現在 — 主要LLMモデル比較(Gemini 3.1 Pro反映)
OpenAI、Anthropic、Googleの最新LLMモデルを一覧で比較した表です。各モデルのContext Window、最大Output、ベンチマークスコア(BFCL、SWE-bench、ARC-AGI-2)を網羅しています。
| 企業 | モデル名 | リリース日 | Context Window | 最大Output | BFCL (Tool Use) | SWE-bench Verified | ARC-AGI-2 | 備考 |
|---|---|---|---|---|---|---|---|---|
| OpenAI | GPT-5.2 Thinking ★ | 2025.12 | 400K | 128K | ~65% | 69.0% | 52.9% | 推論トークン、エージェント |
| OpenAI | GPT-5.2 Pro | 2025.12 | 400K | 128K | ~68% | ~72% | — | 精度最優先 |
| OpenAI | GPT-5.1 | 2025.11 | 200K | 32K | ~62% | 48.6% | 17.6% | マルチモーダル |
| OpenAI | o3 | 2025.04 | 200K | 100K | — | 69.1% | — | 推論特化(継続) |
| Anthropic | Claude Opus 4.6 ★ | 2026.02 | 200K | 64K | ~73% | 80.8% | 68.8% | コーディング/エージェント最強級 |
| Anthropic | Claude Opus 4.5 | 2025.11 | 200K | 64K | ~72% | 74.4% | — | 効率性大幅改善 |
| Anthropic | Claude Sonnet 4.5 | 2025.09 | 200K (1Mβ) | 64K | ~70% | — | — | コーディング+長期エージェント |
| Anthropic | Claude Haiku 4.5 | 2025.10 | 200K | 64K | ~65% | — | — | 超軽量Extended Thinking |
| 🆕 Gemini 3.1 Pro ★ | 2026.02.19 | 1M | 65K | — | 80.6% | 77.1% | 本日リリース!推論2倍↑ | |
| Gemini 3 Pro | 2025.11 | 1M | 64K | ~61% | 74.2% | 31.1% | 生成型UI | |
| Gemini 3 Deep Think | 2025.11 | 1M | 64K | — | — | 84.6% | PhD級推論最高 | |
| Gemini 2.5 Pro | 2025.03 | 1M | 64K | ~58% | 63.8% | 4.9% | コスパ優秀 |
★= 各社フラグシップ | 🆕= 本日(2/20) リリース | BFCL未発表(Gemini 3.1 Pro) | ベンチマーク出典: Google, Anthropic, OpenAI公式 + 第三者検証
画像2: 2025年8月時点 — 主要LLMモデル比較(OpenAI / Anthropic / Google)
6ヶ月前(2025年8月)時点の主要LLMモデル一覧です。画像1との比較ベースラインとなるデータです。
| 企業 | モデル名 | リリース日 | Context Window | 最大Output | BFCL (Tool Use) | SWE-bench Verified | ARC-AGI-2 | 備考 |
|---|---|---|---|---|---|---|---|---|
| OpenAI | GPT-4o | 2024.03 | 128K | 16K | ~62% | 33.2% | — | 汎用マルチモーダル |
| OpenAI | GPT-4.1 | 2025.04 | 1M | 32K | ~65% | 54.6% | — | コーディング特化、長コンテキスト |
| OpenAI | o3 | 2025.04 | 200K | 100K | — | 69.1% | — | 推論特化モデル |
| OpenAI | GPT-5 ★ | 2025.08 | 400K | 128K | ~59% | — | ~18% | アダプティブルーティング、フラグシップ |
| Anthropic | Claude 3.5 Sonnet | 2024.06 | 200K | 8K | ~60% | 49.0% | — | 前世代モデル |
| Anthropic | Claude 3.7 Sonnet | 2025.02 | 200K | 64K | ~65% | 70.3% | — | Extended Thinking導入 |
| Anthropic | Claude Opus 4 ★ | 2025.05 | 200K | 64K | ~70% | 72.5% | — | コーディング1位、エージェント強み |
| Anthropic | Claude Sonnet 4 | 2025.05 | 200K | 64K | ~70% | 72.7% | — | ハイブリッド推論モデル |
| Gemini 2.5 Pro ★ | 2025.03 | 1M | 64K | ~58% | 63.8% | 4.9% | マルチモーダル、推論強み | |
| Gemini 2.5 Flash | 2025.03 | 1M | 64K | ~52% | — | — | 速度特化モデル | |
| Gemini 2.0 Flash | 2024.12 | 1M | 8K | ~48% | — | — | 超高速推論 |
★= 各社フラグシップ | BFCL = Berkeley Function Calling Leaderboard | 一部数値は第三者評価に基づく推定値
画像3: 2026年2月20日 — 3社フラグシップモデル 主要ベンチマーク直接比較
3社のフラグシップモデル(GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro)を価格・推論・コーディング・エージェント・マルチモーダルの各カテゴリで直接比較した詳細表です。🏆マークが各ベンチマークの1位を示しています。
| ベンチマーク | OpenAI GPT-5.2 | Anthropic Claude Opus 4.6 | Google 🆕 Gemini 3.1 Pro |
|---|---|---|---|
| リリース日 | 2025.12 | 2026.02 | 2026.02.19(本日) |
| Context Window | 400K | 200K | 1M |
| 最大Output | 128K | 64K | 65K |
| 価格(Input/1M) | $1.75 | $5.00 | $2.00 |
| 価格(Output/1M) | $14.00 | $25.00 | $12.00 |
| —— 推論ベンチマーク —— | |||
| ARC-AGI-2(推論) | 52.9% | 68.8% | 🏆 77.1% |
| GPQA Diamond(科学) | 92.4% | 91.3% | 🏆 94.3% |
| HLE(総合難題) | — | 40.0% | 🏆 44.4% |
| —— コーディングベンチマーク —— | |||
| SWE-bench Verified | 69.0% | 🏆 80.8% | 80.6% |
| Terminal-Bench 2.0 | — | — | 🏆 68.5% |
| LiveCodeBench Pro | — | — | 🏆 Elo 2887 |
| —— エージェントベンチマーク —— | |||
| BFCL(Tool Calling) | ~65% | 🏆 ~73% | 未発表 |
| BrowseComp(Webエージェント) | 65.8% | 84.0% | 🏆 85.9% |
| APEX-Agents(長期タスク) | 23.0% | 29.8% | 🏆 33.5% |
| MCP Atlas | — | — | 🏆 69.2% |
| —— マルチモーダル —— | |||
| MMMLU(多言語) | — | — | 🏆 92.6% |
| マルチモーダル対応 | テキスト+画像+音声+動画 | テキスト+画像 | テキスト+画像+音声+動画 |
画像4: 6ヶ月間のフラグシップモデル性能変化(2025.08 → 2026.02.20)— Gemini 3.1 Pro反映
2025年8月から2026年2月までの6ヶ月間で、各社フラグシップモデルがどれだけ進化したかを定量的に比較した変化量テーブルです。
| 指標 | OpenAI(2025.08) | OpenAI(2026.02) | Anthropic(2025.08) | Anthropic(2026.02) | Google(2025.08) | Google(2026.02) |
|---|---|---|---|---|---|---|
| フラグシップモデル | GPT-5 | GPT-5.2 | Claude Opus 4 | Claude Opus 4.6 | Gemini 2.5 Pro | 🆕 Gemini 3.1 Pro |
| Context Window | 400K | 400K | 200K | 200K | 1M | 1M |
| └ 変化 | → 同一 | → 同一 | → 同一 | |||
| 最大Output | 128K | 128K | 64K | 64K | 64K | 65K |
| SWE-bench Verified | — | 69.0% | 72.5% | 80.8% | 63.8% | 80.6% |
| └ 変化 | (新規) | +8.3%p ↑ | +16.8%p ↑↑ | |||
| ARC-AGI-2(推論) | ~18% | 52.9% | — | 68.8% | 4.9% | 77.1% |
| └ 変化 | +35%p ↑↑ | (新規) | +72.2%p ↑↑↑ | |||
| GPQA Diamond | — | 92.4% | — | 91.3% | — | 94.3% |
| BFCL(Tool Use) | ~59% | ~65% | ~70% | ~73% | ~58% | 未発表 |
| └ 変化 | +6%p ↑ | +3%p ↑ | — | |||
| BrowseComp | — | 65.8% | — | 84.0% | — | 85.9% |
| 価格(Input/1M) | $1.25 | $1.75 | $15 | $5 | $1.25 | $2 |
| └ 変化 | +$0.50 | -$10 ↓↓↓ | +$0.75 | |||
| 価格(Output/1M) | $10 | $14 | $75 | $25 | $10 | $12 |
| └ 変化 | +$4 | -$50 ↓↓↓ | +$2 |
📊 6ヶ月間の主要変化まとめ(Gemini 3.1 Pro反映)
- 🏆 推論能力(ARC-AGI-2):Googleが最も圧倒的な飛躍!4.9% → 77.1%(+72%p)。3ヶ月で推論性能15倍以上向上。
- 🏆 コーディング(SWE-bench):Anthropic(80.8%)とGoogle(80.6%)がほぼ同点で1位争い。6ヶ月前のGoogleは63.8%だった。
- 🏆 科学推論(GPQA):Gemini 3.1 Proが94.3%で歴代最高記録。GPT-5.2(92.4%)、Opus 4.6(91.3%)を上回る。
- エージェント/Tool Use:AnthropicがBFCLで依然としてリード(~73%)。GoogleはBrowseComp(85.9%)・APEX-Agents(33.5%)で1位。
- 価格:AnthropicがOpusを5に最も積極的に値下げ。Googleは$2で性能対比最高のコスパ。
- Context:Googleが1Mトークンで最大だが、OpenAI(400K)も十分。Anthropic(200K)は相対的に劣勢。
- 結論:6ヶ月間で最大の変化を見せたのはGoogle。Gemini 2.5→3.1でほぼ全てのベンチマークで1~2位に躍進。
⚠️ Gemini 3.1 Pro BFCLスコアは未発表。一部数値は公式発表+第三者検証の総合。ベンチマークバージョン・条件により差異あり。
総合分析
これら4枚の画像は、2026年2月20日時点のLLM市場を多角的に分析した資料セットです。
- 画像1・2:6ヶ月前(2025年8月)と現在のモデルラインナップの全体像
- 画像3:3社フラグシップモデルの直接対決(ベンチマーク・価格の詳細比較)
- 画像4:6ヶ月間の変化量を定量化した進化トラッキング
🎯 最大のハイライトは、本日(2026年2月20日)リリースされたGoogle Gemini 3.1 Proが、推論(ARC-AGI-2: 77.1%)、科学(GPQA: 94.3%)、エージェント系ベンチマークで軒並み1位を獲得し、かつ価格も12と最もコスパが高い点です。一方、Anthropic Claude Opus 4.6はコーディング(SWE-bench: 80.8%)とツール呼び出し(BFCL: ~73%)で依然トップを維持しており、各社の得意分野が明確に分かれています。