コンテンツにスキップ

ローカルモデル

自社ハードウェアで実行。

トークン単価ゼロ。完全なデータ主権。標準でAPPI準拠。Llama 4 Scout · Qwen 3.6-27B · DeepSeek-R1 · Gemma 4 — 2026年のローカルラインナップ。

Llama 4Qwen 3.6DeepSeek-R1Gemma 4OllamaLM Studio

主要モデル

主要モデルの概要(各ベンダー公式ページへのリンクは原文をご参照ください):

  • Llama 4 Scout (Meta) — 10Mトークンコンテキスト · 最低VRAM 24GB int4 · Metaライセンス · 2025年4月リリース · 最適用途: 長文ドキュメント、コードベース
  • Qwen 3.6-27B (Alibaba) — 262Kトークンコンテキスト · 最低VRAM 16GB Q4 · Apache 2.0 · 2025年5月リリース · 最適用途: 日本語、コーディング
  • DeepSeek R1-Distill-14B (DeepSeek) — 128Kトークンコンテキスト · 最低VRAM 10GB Q4 · MIT · 2025年1月リリース · 最適用途: 推論、数学
  • Gemma 4 31B (Google) — 256Kトークンコンテキスト · 最低VRAM 14GB int4 · Gemmaライセンス · 2025年4月リリース · 最適用途: ビジョン、ドキュメント

ハードウェアガイド

サイズクラスGPU VRAMApple Silicon
Nano · 3–4B4 GB8 GBPhi-4 Mini, Qwen3-4B
Small · 7–8B6 GB16 GBLlama 3.1-8B, Qwen3-8B
Medium · 14B10–12 GB32 GBPhi-4-14B, DeepSeek-R1-14B
Large · 27–31B14–20 GB64 GBQwen 3.6-27B, Gemma 4-31B
XL · 70B35–40 GB192 GBLlama 3.3-70B, Qwen3-72B
Server · 100B+2× H100Llama 4 Scout bf16, Mistral Small 4

ローカル実行

01

Ollamaをインストール

OllamaはmacOSとLinuxで最速の経路です。1コマンドでランタイム、ローカルAPIサーバー、Apple Silicon向けMLXバックエンドがインストールされます。

Terminal window
brew install ollama # macOS
curl -fsSL https://ollama.com/install.sh | sh # Linux
02

モデルをプルしてサーバーを起動

Ollamaが量子化されたGGUFを自動ダウンロードします。サーバーはOpenAI互換エンドポイントとしてポート11434で起動します。

Terminal window
ollama pull qwen3:27b # ~16 GB download
ollama serve # http://localhost:11434
03

または LM StudioでGUI利用

LM Studio 0.4+ はモデルブラウザ、GGUFダウンローダ、ローカルサーバートグルを備えます。サーバーを有効にするとポート1234でリッスンします — 同じOpenAI互換APIです。

1234/v1
# After enabling Local Server in LM Studio settings:

LifeOS統合

すべてのローカル推論ツールはOpenAI互換のRESTエンドポイントを公開します。アダプタ層は不要 — base_urlを変えるだけで、Claudeを呼んでいる既存のLifeOSエージェントがそのままローカルモデルを呼べます。

直接 — OpenAI SDK
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # required, unused
)
response = client.chat.completions.create(
model="qwen3:27b",
messages=[{"role": "user", "content": "..."}],
)
LangChainエージェント
from langchain_ollama import ChatOllama
llm = ChatOllama(model="qwen3:27b")
# Drop-in replacement for ChatAnthropic
# or ChatOpenAI in any LangChain chain
ツールエンドポイントフレームワークパッケージ
Ollamalocalhost:11434/v1langchain-ollama · llama-index-llms-ollama
LM Studiolocalhost:1234/v1openai SDK(base_urlオーバーライド)
vLLM / llama.cpp設定可能openai SDK(base_urlオーバーライド)

適切なモデルを選ぶ

01

長コンテキストの取り込み — コードベース全体や1年分のドキュメント

Llama 4 Scoutをご利用ください — 10Mトークンのコンテキストウィンドウはローカルモデルで唯一無二。1コールでコードベース全体、1年分のメール、法務ドキュメントライブラリを読み込めます。24〜32GB VRAM(int4)が必要、RTX 4090またはH100単体で動作。

02

日本語タスク · 多言語コーディングエージェント

Qwen 3.6-27Bをご利用ください — 2025年半ば時点でオープン重みの中で日本語ベンチマーク最高スコア。Apache 2.0ライセンスのため商用利用無制限。Q4で16GB VRAMに収まる — ラップトップGPU単体で動作。

03

推論 · 数学 · 構造化分析

DeepSeek-R1-Distill-14Bをご利用ください — R1の推論チェーンを14Bパラメータに蒸留。MITライセンス。10GB VRAMでMATHとAIMEにおいてo1-miniに匹敵。ローカルモデルのGB当たり推論性能で最高。

04

高速ルーティング · 分類 · 軽量タスク

Phi-4 Mini 3.8B(Microsoft、MIT)をご利用ください — 4GB VRAMで動作、コンシューマハードで約200トークン/秒。LifeOSではタスクルータとして配置: 受信リクエストを分類して適切な専門モデルに転送。コール単価ゼロ。

ローカル vs フロンティア

次に読む