Chat Conversation

Participants: User, QueryPie

Message 1 from User

4つの画像を分析して説明し、元の画像の内容をそのままMarkdownに変換して表示する

Message 2 from QueryPie

4つの画像を詳しく分析し、それぞれの内容をMarkdownに変換します。


画像1: 2026年2月20日現在 — 主要LLMモデル比較(Gemini 3.1 Pro反映)

OpenAI、Anthropic、Googleの最新LLMモデルを一覧で比較した表です。各モデルのContext Window、最大Output、ベンチマークスコア(BFCL、SWE-bench、ARC-AGI-2)を網羅しています。

企業 モデル名 リリース日 Context Window 最大Output BFCL (Tool Use) SWE-bench Verified ARC-AGI-2 備考
OpenAI GPT-5.2 Thinking ★ 2025.12 400K 128K ~65% 69.0% 52.9% 推論トークン、エージェント
OpenAI GPT-5.2 Pro 2025.12 400K 128K ~68% ~72% 精度最優先
OpenAI GPT-5.1 2025.11 200K 32K ~62% 48.6% 17.6% マルチモーダル
OpenAI o3 2025.04 200K 100K 69.1% 推論特化(継続)
Anthropic Claude Opus 4.6 ★ 2026.02 200K 64K ~73% 80.8% 68.8% コーディング/エージェント最強級
Anthropic Claude Opus 4.5 2025.11 200K 64K ~72% 74.4% 効率性大幅改善
Anthropic Claude Sonnet 4.5 2025.09 200K (1Mβ) 64K ~70% コーディング+長期エージェント
Anthropic Claude Haiku 4.5 2025.10 200K 64K ~65% 超軽量Extended Thinking
Google 🆕 Gemini 3.1 Pro ★ 2026.02.19 1M 65K 80.6% 77.1% 本日リリース!推論2倍↑
Google Gemini 3 Pro 2025.11 1M 64K ~61% 74.2% 31.1% 生成型UI
Google Gemini 3 Deep Think 2025.11 1M 64K 84.6% PhD級推論最高
Google Gemini 2.5 Pro 2025.03 1M 64K ~58% 63.8% 4.9% コスパ優秀

★= 各社フラグシップ | 🆕= 本日(2/20) リリース | BFCL未発表(Gemini 3.1 Pro) | ベンチマーク出典: Google, Anthropic, OpenAI公式 + 第三者検証


画像2: 2025年8月時点 — 主要LLMモデル比較(OpenAI / Anthropic / Google)

6ヶ月前(2025年8月)時点の主要LLMモデル一覧です。画像1との比較ベースラインとなるデータです。

企業 モデル名 リリース日 Context Window 最大Output BFCL (Tool Use) SWE-bench Verified ARC-AGI-2 備考
OpenAI GPT-4o 2024.03 128K 16K ~62% 33.2% 汎用マルチモーダル
OpenAI GPT-4.1 2025.04 1M 32K ~65% 54.6% コーディング特化、長コンテキスト
OpenAI o3 2025.04 200K 100K 69.1% 推論特化モデル
OpenAI GPT-5 ★ 2025.08 400K 128K ~59% ~18% アダプティブルーティング、フラグシップ
Anthropic Claude 3.5 Sonnet 2024.06 200K 8K ~60% 49.0% 前世代モデル
Anthropic Claude 3.7 Sonnet 2025.02 200K 64K ~65% 70.3% Extended Thinking導入
Anthropic Claude Opus 4 ★ 2025.05 200K 64K ~70% 72.5% コーディング1位、エージェント強み
Anthropic Claude Sonnet 4 2025.05 200K 64K ~70% 72.7% ハイブリッド推論モデル
Google Gemini 2.5 Pro ★ 2025.03 1M 64K ~58% 63.8% 4.9% マルチモーダル、推論強み
Google Gemini 2.5 Flash 2025.03 1M 64K ~52% 速度特化モデル
Google Gemini 2.0 Flash 2024.12 1M 8K ~48% 超高速推論

★= 各社フラグシップ | BFCL = Berkeley Function Calling Leaderboard | 一部数値は第三者評価に基づく推定値


画像3: 2026年2月20日 — 3社フラグシップモデル 主要ベンチマーク直接比較

3社のフラグシップモデル(GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro)を価格・推論・コーディング・エージェント・マルチモーダルの各カテゴリで直接比較した詳細表です。🏆マークが各ベンチマークの1位を示しています。

ベンチマーク OpenAI GPT-5.2 Anthropic Claude Opus 4.6 Google 🆕 Gemini 3.1 Pro
リリース日 2025.12 2026.02 2026.02.19(本日)
Context Window 400K 200K 1M
最大Output 128K 64K 65K
価格(Input/1M) $1.75 $5.00 $2.00
価格(Output/1M) $14.00 $25.00 $12.00
—— 推論ベンチマーク ——
ARC-AGI-2(推論) 52.9% 68.8% 🏆 77.1%
GPQA Diamond(科学) 92.4% 91.3% 🏆 94.3%
HLE(総合難題) 40.0% 🏆 44.4%
—— コーディングベンチマーク ——
SWE-bench Verified 69.0% 🏆 80.8% 80.6%
Terminal-Bench 2.0 🏆 68.5%
LiveCodeBench Pro 🏆 Elo 2887
—— エージェントベンチマーク ——
BFCL(Tool Calling) ~65% 🏆 ~73% 未発表
BrowseComp(Webエージェント) 65.8% 84.0% 🏆 85.9%
APEX-Agents(長期タスク) 23.0% 29.8% 🏆 33.5%
MCP Atlas 🏆 69.2%
—— マルチモーダル ——
MMMLU(多言語) 🏆 92.6%
マルチモーダル対応 テキスト+画像+音声+動画 テキスト+画像 テキスト+画像+音声+動画

画像4: 6ヶ月間のフラグシップモデル性能変化(2025.08 → 2026.02.20)— Gemini 3.1 Pro反映

2025年8月から2026年2月までの6ヶ月間で、各社フラグシップモデルがどれだけ進化したかを定量的に比較した変化量テーブルです。

指標 OpenAI(2025.08) OpenAI(2026.02) Anthropic(2025.08) Anthropic(2026.02) Google(2025.08) Google(2026.02)
フラグシップモデル GPT-5 GPT-5.2 Claude Opus 4 Claude Opus 4.6 Gemini 2.5 Pro 🆕 Gemini 3.1 Pro
Context Window 400K 400K 200K 200K 1M 1M
 └ 変化 → 同一 → 同一 → 同一
最大Output 128K 128K 64K 64K 64K 65K
SWE-bench Verified 69.0% 72.5% 80.8% 63.8% 80.6%
 └ 変化 (新規) +8.3%p ↑ +16.8%p ↑↑
ARC-AGI-2(推論) ~18% 52.9% 68.8% 4.9% 77.1%
 └ 変化 +35%p ↑↑ (新規) +72.2%p ↑↑↑
GPQA Diamond 92.4% 91.3% 94.3%
BFCL(Tool Use) ~59% ~65% ~70% ~73% ~58% 未発表
 └ 変化 +6%p ↑ +3%p ↑
BrowseComp 65.8% 84.0% 85.9%
価格(Input/1M) $1.25 $1.75 $15 $5 $1.25 $2
 └ 変化 +$0.50 -$10 ↓↓↓ +$0.75
価格(Output/1M) $10 $14 $75 $25 $10 $12
 └ 変化 +$4 -$50 ↓↓↓ +$2

📊 6ヶ月間の主要変化まとめ(Gemini 3.1 Pro反映)

  1. 🏆 推論能力(ARC-AGI-2):Googleが最も圧倒的な飛躍!4.9% → 77.1%(+72%p)。3ヶ月で推論性能15倍以上向上。
  2. 🏆 コーディング(SWE-bench):Anthropic(80.8%)とGoogle(80.6%)がほぼ同点で1位争い。6ヶ月前のGoogleは63.8%だった。
  3. 🏆 科学推論(GPQA):Gemini 3.1 Proが94.3%で歴代最高記録。GPT-5.2(92.4%)、Opus 4.6(91.3%)を上回る。
  4. エージェント/Tool Use:AnthropicがBFCLで依然としてリード(~73%)。GoogleはBrowseComp(85.9%)・APEX-Agents(33.5%)で1位。
  5. 価格:AnthropicがOpusを1515→5に最も積極的に値下げ。Googleは$2で性能対比最高のコスパ。
  6. Context:Googleが1Mトークンで最大だが、OpenAI(400K)も十分。Anthropic(200K)は相対的に劣勢。
  7. 結論:6ヶ月間で最大の変化を見せたのはGoogle。Gemini 2.5→3.1でほぼ全てのベンチマークで1~2位に躍進。

⚠️ Gemini 3.1 Pro BFCLスコアは未発表。一部数値は公式発表+第三者検証の総合。ベンチマークバージョン・条件により差異あり。


総合分析

これら4枚の画像は、2026年2月20日時点のLLM市場を多角的に分析した資料セットです。

  • 画像1・2:6ヶ月前(2025年8月)と現在のモデルラインナップの全体像
  • 画像3:3社フラグシップモデルの直接対決(ベンチマーク・価格の詳細比較)
  • 画像4:6ヶ月間の変化量を定量化した進化トラッキング

🎯 最大のハイライトは、本日(2026年2月20日)リリースされたGoogle Gemini 3.1 Proが、推論(ARC-AGI-2: 77.1%)、科学(GPQA: 94.3%)、エージェント系ベンチマークで軒並み1位を獲得し、かつ価格も2/2/12と最もコスパが高い点です。一方、Anthropic Claude Opus 4.6はコーディング(SWE-bench: 80.8%)とツール呼び出し(BFCL: ~73%)で依然トップを維持しており、各社の得意分野が明確に分かれています。