オープンソースモデル

フロンティアクラス、でも重みは自分のもの。

Llama 4 Maverick · DeepSeek V3.2 · Qwen3 235B · Mistral Large 3 — セルフホスト、ファインチューン、どこでも実行。データがインフラの外に出ません。

Llama 4 Maverick

DeepSeek V3.2

Qwen3 235BMistral Large 3

オープンソースのフラッグシップ

主要モデル概要:

Llama 4 Maverick (Meta) — コンテキスト1M · 入力$0.15/M · 出力$0.60/M · 2025年4月リリース · テキスト+画像
DeepSeek V3.2 (DeepSeek) — コンテキスト131K · 入力$0.25/M · 出力$0.38/M · 2025年9月リリース · テキスト
Qwen3 235B (Alibaba) — コンテキスト256K · 入力$0.46/M · 出力$1.82/M · 2025年7月リリース · テキスト
Mistral Large 3 (Mistral AI) — コンテキスト256K · 入力$0.50/M · 出力$1.50/M · 2025年12月リリース · テキスト+画像

モデル価格

主な追加モデル:

Llama 4 Scout — 10Mコンテキスト · 入力$0.08 · 出力$0.30
DeepSeek R1-0528 — 164Kコンテキスト · 入力$0.50 · 出力$2.15
DeepSeek V4-Flash — 1Mコンテキスト · 入力$0.14 · 出力$0.28
DeepSeek V4-Pro — 1Mコンテキスト · 入力$0.44 · 出力$0.87
Qwen3 32B — 41Kコンテキスト · 入力$0.08 · 出力$0.28
Qwen3 30B-A3B — 41Kコンテキスト · 入力$0.08 · 出力$0.28
Mistral Medium 3 — 131Kコンテキスト · 入力$0.40 · 出力$2.00
Mistral Small 3.2 — 131Kコンテキスト · 入力$0.075 · 出力$0.20

USD/100万トークン。すべてのモデルはオープン重み(MITまたはApache 2.0)。DeepSeek V4の価格は2026年5月までの公式APIプロモーションを反映。出典: OpenRouter · DeepSeek · Qwen · Mistral — 2026年5月。

ベンチマーク

代表的なベンチマーク結果(太字は最高スコア):

広範な知識(MMLU): Llama 4 Mav 85.5% · DeepSeek V3.2 88.5% · Qwen3 235B 93.1% · Mistral Lg 3 ~85.5%
専門推論(MMLU-Pro): Llama 4 Mav 80.5% · DeepSeek V3.2 85.0% · Qwen3 235B 83.0% · Mistral Lg 3 73.1%
大学院レベルSTEM(GPQA Diamond): Llama 4 Mav 69.8% · DeepSeek V3.2 82.4% · Qwen3 235B 77.5% · Mistral Lg 3 ~43.9%
エージェント型コーディング(SWE-bench Verified): Llama 4 Mav ~34% · DeepSeek V3.2 73.1% · Qwen3 235B — · Mistral Lg 3 —
競技プログラミング(LiveCodeBench): Llama 4 Mav 43.4% · DeepSeek V3.2 73.3%† · Qwen3 235B 51.8% · Mistral Lg 3 —
最大コンテキスト: Llama 4 Mav 1M · DeepSeek V3.2 131K · Qwen3 235B 256K · Mistral Lg 3 256K

太字は各ベンチマークの最高スコアです。†LiveCodeBenchスコアはDeepSeek R1-0528(推論モデル)のもの。DeepSeek V3.2にはLiveCodeBench公表スコアがありません。出典: 公式モデルカード(Meta、DeepSeek、Qwen3、Mistral)、DeepSeek-V3.2技術レポート(arXiv:2512.02556)、CodeSOTA Open LLM Leaderboard(codesota.com、2026年5月)。Mistral GPQAは第三者推定。— = 公表スコアなし。

適切なモデルを選ぶ

長コンテキストのドキュメントとコード分析

Llama 4 Scoutをご利用ください — 10Mトークンのコンテキストは任意のオープン重みモデルで最長。コードベース全体、1年分の会話ログ、複数巻のドキュメントセットをチャンクなしで取り込めます。Llama 4 Community Licenseでロイヤリティフリーのセルフホスト可能。

深い推論、数学、エージェント型コーディング

DeepSeek R1-0528をご利用ください — コーディングベンチマーク首位(LiveCodeBench 73.3%、SWE-bench Verified 73.1%)。MITライセンス。自社GPUクラスターで配備し、クローズドモデルの数分の一のコストで準フロンティア推論が可能。

多言語およびアジア言語タスク

Qwen3 235Bをご利用ください — このラインナップで最高のMMLU(93.1%)、36以上の言語で訓練、中国語・日本語・韓国語・アラビア語で強力。Apache 2.0ライセンスのため、言語固有ドメインへの制限なきファインチューン可能。

EU規制およびプライバシー重視ワークロード

Mistral Large 3をご利用ください — フランスのAIラボ製、AWSパリまたはAzure EUに配備可能、欧州インフラの外にデータが出ないGDPRネイティブ。Apache 2.0ライセンス、マルチモーダル(テキスト+画像)を予測可能なコストで提供。

オープンソース vs フロンティア

LIFEOSAIでは

次に読む

フロンティアモデルクローズド重みのトップ — Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro。

AIモデル — 概要ローカルモデルを含む全6レイヤーを一目で。

Agent SDK 脳がワーカーになる仕組み — ツール、ループ、サブエージェント。