ローカルモデル

自社ハードウェアで実行。

トークン単価ゼロ。完全なデータ主権。標準でAPPI準拠。Llama 4 Scout · Qwen 3.6-27B · DeepSeek-R1 · Gemma 4 — 2026年のローカルラインナップ。

Llama 4

Qwen 3.6

DeepSeek-R1

Gemma 4OllamaLM Studio

主要モデル

主要モデルの概要(各ベンダー公式ページへのリンクは原文をご参照ください):

Llama 4 Scout (Meta) — 10Mトークンコンテキスト · 最低VRAM 24GB int4 · Metaライセンス · 2025年4月リリース · 最適用途: 長文ドキュメント、コードベース
Qwen 3.6-27B (Alibaba) — 262Kトークンコンテキスト · 最低VRAM 16GB Q4 · Apache 2.0 · 2025年5月リリース · 最適用途: 日本語、コーディング
DeepSeek R1-Distill-14B (DeepSeek) — 128Kトークンコンテキスト · 最低VRAM 10GB Q4 · MIT · 2025年1月リリース · 最適用途: 推論、数学
Gemma 4 31B (Google) — 256Kトークンコンテキスト · 最低VRAM 14GB int4 · Gemmaライセンス · 2025年4月リリース · 最適用途: ビジョン、ドキュメント

ハードウェアガイド

サイズクラス	GPU VRAM	Apple Silicon	例
Nano · 3–4B	4 GB	8 GB	Phi-4 Mini, Qwen3-4B
Small · 7–8B	6 GB	16 GB	Llama 3.1-8B, Qwen3-8B
Medium · 14B	10–12 GB	32 GB	Phi-4-14B, DeepSeek-R1-14B
Large · 27–31B	14–20 GB	64 GB	Qwen 3.6-27B, Gemma 4-31B
XL · 70B	35–40 GB	192 GB	Llama 3.3-70B, Qwen3-72B
Server · 100B+	2× H100	—	Llama 4 Scout bf16, Mistral Small 4

ローカル実行

Ollamaをインストール

OllamaはmacOSとLinuxで最速の経路です。1コマンドでランタイム、ローカルAPIサーバー、Apple Silicon向けMLXバックエンドがインストールされます。

brew install ollama        # macOS
curl -fsSL https://ollama.com/install.sh | sh  # Linux

モデルをプルしてサーバーを起動

Ollamaが量子化されたGGUFを自動ダウンロードします。サーバーはOpenAI互換エンドポイントとしてポート11434で起動します。

ollama pull qwen3:27b      # ~16 GB download
ollama serve               # http://localhost:11434

または LM StudioでGUI利用

LM Studio 0.4+ はモデルブラウザ、GGUFダウンローダ、ローカルサーバートグルを備えます。サーバーを有効にするとポート1234でリッスンします — 同じOpenAI互換APIです。

# After enabling Local Server in LM Studio settings:

LifeOS統合

すべてのローカル推論ツールはOpenAI互換のRESTエンドポイントを公開します。アダプタ層は不要 — base_urlを変えるだけで、Claudeを呼んでいる既存のLifeOSエージェントがそのままローカルモデルを呼べます。

直接 — OpenAI SDK

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",       # required, unused
)
response = client.chat.completions.create(
    model="qwen3:27b",
    messages=[{"role": "user", "content": "..."}],
)

LangChainエージェント

from langchain_ollama import ChatOllama

llm = ChatOllama(model="qwen3:27b")

# Drop-in replacement for ChatAnthropic
# or ChatOpenAI in any LangChain chain

ツール	エンドポイント	フレームワークパッケージ
Ollama	localhost:11434/v1	langchain-ollama · llama-index-llms-ollama
LM Studio	localhost:1234/v1	openai SDK(base_urlオーバーライド)
vLLM / llama.cpp	設定可能	openai SDK(base_urlオーバーライド)

適切なモデルを選ぶ

長コンテキストの取り込み — コードベース全体や1年分のドキュメント

Llama 4 Scoutをご利用ください — 10Mトークンのコンテキストウィンドウはローカルモデルで唯一無二。1コールでコードベース全体、1年分のメール、法務ドキュメントライブラリを読み込めます。24〜32GB VRAM(int4)が必要、RTX 4090またはH100単体で動作。

日本語タスク · 多言語コーディングエージェント

Qwen 3.6-27Bをご利用ください — 2025年半ば時点でオープン重みの中で日本語ベンチマーク最高スコア。Apache 2.0ライセンスのため商用利用無制限。Q4で16GB VRAMに収まる — ラップトップGPU単体で動作。

推論 · 数学 · 構造化分析

DeepSeek-R1-Distill-14Bをご利用ください — R1の推論チェーンを14Bパラメータに蒸留。MITライセンス。10GB VRAMでMATHとAIMEにおいてo1-miniに匹敵。ローカルモデルのGB当たり推論性能で最高。

高速ルーティング · 分類 · 軽量タスク

Phi-4 Mini 3.8B(Microsoft、MIT)をご利用ください — 4GB VRAMで動作、コンシューマハードで約200トークン/秒。LifeOSではタスクルータとして配置: 受信リクエストを分類して適切な専門モデルに転送。コール単価ゼロ。

ローカル vs フロンティア

ローカルモデルは驚くほど幅広いタスクでフロンティアに匹敵します。ローカルが明確に勝つ3点:

データ主権 — データがマシンの外に出ません。APPI準拠(日本の個人情報保護法)、医療記録、サードパーティAPIに触れられない金融データに必須。
限界費用ゼロ — トークン課金なし。フロンティアAPIで月数千ドルになる大量ドキュメントパイプラインも、ハードウェア償却後は無料で動作。
エアギャップ配備 — 工場、防衛、オフラインエッジデバイス。モデルダウンロード後はインターネット不要。

フロンティアは依然として500K+トークンの一貫性、複雑な多段エージェントパイプライン、コンプライアンスSLA(SOC2、FedRAMP)で優位。

次に読む

AIモデル — 概要全モデル階層を一目で — フロンティア、オープンソース、ローカル。

フロンティアモデル Claude Opus 4.7 · GPT-5.5 · Gemini 3.1 Pro — カーブの頂点。

Agent SDK 脳がワーカーになる仕組み — ツール、ループ、サブエージェント。