Chat Conversation

Participants: User, QueryPie02/20/2026

User02:14:19 PM

4つの画像を分析して説明し、元の画像の内容をそのままMarkdownに変換して表示する

QueryPie02:15:34 PM

4つの画像を詳しく分析し、それぞれの内容をMarkdownに変換します。

画像1: 2026年2月20日現在 — 主要LLMモデル比較（Gemini 3.1 Pro反映）

OpenAI、Anthropic、Googleの最新LLMモデルを一覧で比較した表です。各モデルのContext Window、最大Output、ベンチマークスコア（BFCL、SWE-bench、ARC-AGI-2）を網羅しています。

企業	モデル名	リリース日	Context Window	最大Output	BFCL (Tool Use)	SWE-bench Verified	ARC-AGI-2	備考
OpenAI	GPT-5.2 Thinking ★	2025.12	400K	128K	~65%	69.0%	52.9%	推論トークン、エージェント
OpenAI	GPT-5.2 Pro	2025.12	400K	128K	~68%	~72%	—	精度最優先
OpenAI	GPT-5.1	2025.11	200K	32K	~62%	48.6%	17.6%	マルチモーダル
OpenAI	o3	2025.04	200K	100K	—	69.1%	—	推論特化（継続）
Anthropic	Claude Opus 4.6 ★	2026.02	200K	64K	~73%	80.8%	68.8%	コーディング/エージェント最強級
Anthropic	Claude Opus 4.5	2025.11	200K	64K	~72%	74.4%	—	効率性大幅改善
Anthropic	Claude Sonnet 4.5	2025.09	200K (1Mβ)	64K	~70%	—	—	コーディング+長期エージェント
Anthropic	Claude Haiku 4.5	2025.10	200K	64K	~65%	—	—	超軽量Extended Thinking
Google	🆕 Gemini 3.1 Pro ★	2026.02.19	1M	65K	—	80.6%	77.1%	本日リリース！推論2倍↑
Google	Gemini 3 Pro	2025.11	1M	64K	~61%	74.2%	31.1%	生成型UI
Google	Gemini 3 Deep Think	2025.11	1M	64K	—	—	84.6%	PhD級推論最高
Google	Gemini 2.5 Pro	2025.03	1M	64K	~58%	63.8%	4.9%	コスパ優秀

★= 各社フラグシップ | 🆕= 本日(2/20) リリース | BFCL未発表(Gemini 3.1 Pro) | ベンチマーク出典: Google, Anthropic, OpenAI公式 + 第三者検証

画像2: 2025年8月時点 — 主要LLMモデル比較（OpenAI / Anthropic / Google）

6ヶ月前（2025年8月）時点の主要LLMモデル一覧です。画像1との比較ベースラインとなるデータです。

企業	モデル名	リリース日	Context Window	最大Output	BFCL (Tool Use)	SWE-bench Verified	ARC-AGI-2	備考
OpenAI	GPT-4o	2024.03	128K	16K	~62%	33.2%	—	汎用マルチモーダル
OpenAI	GPT-4.1	2025.04	1M	32K	~65%	54.6%	—	コーディング特化、長コンテキスト
OpenAI	o3	2025.04	200K	100K	—	69.1%	—	推論特化モデル
OpenAI	GPT-5 ★	2025.08	400K	128K	~59%	—	~18%	アダプティブルーティング、フラグシップ
Anthropic	Claude 3.5 Sonnet	2024.06	200K	8K	~60%	49.0%	—	前世代モデル
Anthropic	Claude 3.7 Sonnet	2025.02	200K	64K	~65%	70.3%	—	Extended Thinking導入
Anthropic	Claude Opus 4 ★	2025.05	200K	64K	~70%	72.5%	—	コーディング1位、エージェント強み
Anthropic	Claude Sonnet 4	2025.05	200K	64K	~70%	72.7%	—	ハイブリッド推論モデル
Google	Gemini 2.5 Pro ★	2025.03	1M	64K	~58%	63.8%	4.9%	マルチモーダル、推論強み
Google	Gemini 2.5 Flash	2025.03	1M	64K	~52%	—	—	速度特化モデル
Google	Gemini 2.0 Flash	2024.12	1M	8K	~48%	—	—	超高速推論

★= 各社フラグシップ | BFCL = Berkeley Function Calling Leaderboard | 一部数値は第三者評価に基づく推定値

画像3: 2026年2月20日 — 3社フラグシップモデル主要ベンチマーク直接比較

3社のフラグシップモデル（GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro）を価格・推論・コーディング・エージェント・マルチモーダルの各カテゴリで直接比較した詳細表です。🏆マークが各ベンチマークの1位を示しています。

ベンチマーク	OpenAI GPT-5.2	Anthropic Claude Opus 4.6	Google 🆕 Gemini 3.1 Pro
リリース日	2025.12	2026.02	2026.02.19（本日）
Context Window	400K	200K	1M
最大Output	128K	64K	65K
価格（Input/1M）	$1.75	$5.00	$2.00
価格（Output/1M）	$14.00	$25.00	$12.00
—— 推論ベンチマーク ——
ARC-AGI-2（推論）	52.9%	68.8%	🏆 77.1%
GPQA Diamond（科学）	92.4%	91.3%	🏆 94.3%
HLE（総合難題）	—	40.0%	🏆 44.4%
—— コーディングベンチマーク ——
SWE-bench Verified	69.0%	🏆 80.8%	80.6%
Terminal-Bench 2.0	—	—	🏆 68.5%
LiveCodeBench Pro	—	—	🏆 Elo 2887
—— エージェントベンチマーク ——
BFCL（Tool Calling）	~65%	🏆 ~73%	未発表
BrowseComp（Webエージェント）	65.8%	84.0%	🏆 85.9%
APEX-Agents（長期タスク）	23.0%	29.8%	🏆 33.5%
MCP Atlas	—	—	🏆 69.2%
—— マルチモーダル ——
MMMLU（多言語）	—	—	🏆 92.6%
マルチモーダル対応	テキスト+画像+音声+動画	テキスト+画像	テキスト+画像+音声+動画

画像4: 6ヶ月間のフラグシップモデル性能変化（2025.08 → 2026.02.20）— Gemini 3.1 Pro反映

2025年8月から2026年2月までの6ヶ月間で、各社フラグシップモデルがどれだけ進化したかを定量的に比較した変化量テーブルです。

指標	OpenAI（2025.08）	OpenAI（2026.02）	Anthropic（2025.08）	Anthropic（2026.02）	Google（2025.08）	Google（2026.02）
フラグシップモデル	GPT-5	GPT-5.2	Claude Opus 4	Claude Opus 4.6	Gemini 2.5 Pro	🆕 Gemini 3.1 Pro
Context Window	400K	400K	200K	200K	1M	1M
└ 変化		→ 同一		→ 同一		→ 同一
最大Output	128K	128K	64K	64K	64K	65K
SWE-bench Verified	—	69.0%	72.5%	80.8%	63.8%	80.6%
└ 変化		（新規）		+8.3%p ↑		+16.8%p ↑↑
ARC-AGI-2（推論）	~18%	52.9%	—	68.8%	4.9%	77.1%
└ 変化		+35%p ↑↑		（新規）		+72.2%p ↑↑↑
GPQA Diamond	—	92.4%	—	91.3%	—	94.3%
BFCL（Tool Use）	~59%	~65%	~70%	~73%	~58%	未発表
└ 変化		+6%p ↑		+3%p ↑		—
BrowseComp	—	65.8%	—	84.0%	—	85.9%
価格（Input/1M）	$1.25	$1.75	$15	$5	$1.25	$2
└ 変化		+$0.50		-$10 ↓↓↓		+$0.75
価格（Output/1M）	$10	$14	$75	$25	$10	$12
└ 変化		+$4		-$50 ↓↓↓		+$2

📊 6ヶ月間の主要変化まとめ（Gemini 3.1 Pro反映）

🏆 推論能力（ARC-AGI-2）：Googleが最も圧倒的な飛躍！4.9% → 77.1%（+72%p）。3ヶ月で推論性能15倍以上向上。
🏆 コーディング（SWE-bench）：Anthropic（80.8%）とGoogle（80.6%）がほぼ同点で1位争い。6ヶ月前のGoogleは63.8%だった。
🏆 科学推論（GPQA）：Gemini 3.1 Proが94.3%で歴代最高記録。GPT-5.2（92.4%）、Opus 4.6（91.3%）を上回る。
エージェント/Tool Use：AnthropicがBFCLで依然としてリード（~73%）。GoogleはBrowseComp（85.9%）・APEX-Agents（33.5%）で1位。
価格：AnthropicがOpusを $15→$ 5に最も積極的に値下げ。Googleは$2で性能対比最高のコスパ。
Context：Googleが1Mトークンで最大だが、OpenAI（400K）も十分。Anthropic（200K）は相対的に劣勢。
結論：6ヶ月間で最大の変化を見せたのはGoogle。Gemini 2.5→3.1でほぼ全てのベンチマークで1～2位に躍進。

⚠️ Gemini 3.1 Pro BFCLスコアは未発表。一部数値は公式発表+第三者検証の総合。ベンチマークバージョン・条件により差異あり。

総合分析

これら4枚の画像は、2026年2月20日時点のLLM市場を多角的に分析した資料セットです。

画像1・2：6ヶ月前（2025年8月）と現在のモデルラインナップの全体像
画像3：3社フラグシップモデルの直接対決（ベンチマーク・価格の詳細比較）
画像4：6ヶ月間の変化量を定量化した進化トラッキング

🎯 最大のハイライトは、本日（2026年2月20日）リリースされたGoogle Gemini 3.1 Proが、推論（ARC-AGI-2: 77.1%）、科学（GPQA: 94.3%）、エージェント系ベンチマークで軒並み1位を獲得し、かつ価格も $2/$ 12と最もコスパが高い点です。一方、Anthropic Claude Opus 4.6はコーディング（SWE-bench: 80.8%）とツール呼び出し（BFCL: ~73%）で依然トップを維持しており、各社の得意分野が明確に分かれています。