ローカルモデル
自社ハードウェアで実行。
トークン単価ゼロ。完全なデータ主権。標準でAPPI準拠。Llama 4 Scout · Qwen 3.6-27B · DeepSeek-R1 · Gemma 4 — 2026年のローカルラインナップ。
主要モデル
主要モデルの概要(各ベンダー公式ページへのリンクは原文をご参照ください):
- Llama 4 Scout (Meta) — 10Mトークンコンテキスト · 最低VRAM 24GB int4 · Metaライセンス · 2025年4月リリース · 最適用途: 長文ドキュメント、コードベース
- Qwen 3.6-27B (Alibaba) — 262Kトークンコンテキスト · 最低VRAM 16GB Q4 · Apache 2.0 · 2025年5月リリース · 最適用途: 日本語、コーディング
- DeepSeek R1-Distill-14B (DeepSeek) — 128Kトークンコンテキスト · 最低VRAM 10GB Q4 · MIT · 2025年1月リリース · 最適用途: 推論、数学
- Gemma 4 31B (Google) — 256Kトークンコンテキスト · 最低VRAM 14GB int4 · Gemmaライセンス · 2025年4月リリース · 最適用途: ビジョン、ドキュメント
ハードウェアガイド
| サイズクラス | GPU VRAM | Apple Silicon | 例 |
|---|---|---|---|
| Nano · 3–4B | 4 GB | 8 GB | Phi-4 Mini, Qwen3-4B |
| Small · 7–8B | 6 GB | 16 GB | Llama 3.1-8B, Qwen3-8B |
| Medium · 14B | 10–12 GB | 32 GB | Phi-4-14B, DeepSeek-R1-14B |
| Large · 27–31B | 14–20 GB | 64 GB | Qwen 3.6-27B, Gemma 4-31B |
| XL · 70B | 35–40 GB | 192 GB | Llama 3.3-70B, Qwen3-72B |
| Server · 100B+ | 2× H100 | — | Llama 4 Scout bf16, Mistral Small 4 |
ローカル実行
Ollamaをインストール
OllamaはmacOSとLinuxで最速の経路です。1コマンドでランタイム、ローカルAPIサーバー、Apple Silicon向けMLXバックエンドがインストールされます。
brew install ollama # macOScurl -fsSL https://ollama.com/install.sh | sh # Linuxモデルをプルしてサーバーを起動
Ollamaが量子化されたGGUFを自動ダウンロードします。サーバーはOpenAI互換エンドポイントとしてポート11434で起動します。
ollama pull qwen3:27b # ~16 GB downloadollama serve # http://localhost:11434または LM StudioでGUI利用
LM Studio 0.4+ はモデルブラウザ、GGUFダウンローダ、ローカルサーバートグルを備えます。サーバーを有効にするとポート1234でリッスンします — 同じOpenAI互換APIです。
# After enabling Local Server in LM Studio settings:LifeOS統合
すべてのローカル推論ツールはOpenAI互換のRESTエンドポイントを公開します。アダプタ層は不要 — base_urlを変えるだけで、Claudeを呼んでいる既存のLifeOSエージェントがそのままローカルモデルを呼べます。
from openai import OpenAI
client = OpenAI( base_url="http://localhost:11434/v1", api_key="ollama", # required, unused)response = client.chat.completions.create( model="qwen3:27b", messages=[{"role": "user", "content": "..."}],)from langchain_ollama import ChatOllama
llm = ChatOllama(model="qwen3:27b")
# Drop-in replacement for ChatAnthropic# or ChatOpenAI in any LangChain chain| ツール | エンドポイント | フレームワークパッケージ |
|---|---|---|
| Ollama | localhost:11434/v1 | langchain-ollama · llama-index-llms-ollama |
| LM Studio | localhost:1234/v1 | openai SDK(base_urlオーバーライド) |
| vLLM / llama.cpp | 設定可能 | openai SDK(base_urlオーバーライド) |
適切なモデルを選ぶ
長コンテキストの取り込み — コードベース全体や1年分のドキュメント
Llama 4 Scoutをご利用ください — 10Mトークンのコンテキストウィンドウはローカルモデルで唯一無二。1コールでコードベース全体、1年分のメール、法務ドキュメントライブラリを読み込めます。24〜32GB VRAM(int4)が必要、RTX 4090またはH100単体で動作。
日本語タスク · 多言語コーディングエージェント
Qwen 3.6-27Bをご利用ください — 2025年半ば時点でオープン重みの中で日本語ベンチマーク最高スコア。Apache 2.0ライセンスのため商用利用無制限。Q4で16GB VRAMに収まる — ラップトップGPU単体で動作。
推論 · 数学 · 構造化分析
DeepSeek-R1-Distill-14Bをご利用ください — R1の推論チェーンを14Bパラメータに蒸留。MITライセンス。10GB VRAMでMATHとAIMEにおいてo1-miniに匹敵。ローカルモデルのGB当たり推論性能で最高。
高速ルーティング · 分類 · 軽量タスク
Phi-4 Mini 3.8B(Microsoft、MIT)をご利用ください — 4GB VRAMで動作、コンシューマハードで約200トークン/秒。LifeOSではタスクルータとして配置: 受信リクエストを分類して適切な専門モデルに転送。コール単価ゼロ。