ローカル LLM ベンチマーク|Llama 3.1 8B/13B/70B Tokens/sec 2026年版
ローカル LLM(Llama 3.1・Qwen 2.5・DeepSeek R1)の GPU 別 Tokens/sec を集約。LM Studio / Ollama / llama.cpp の量子化別速度を主要 GPU で比較。
※ 本記事はアフィリエイト広告(Amazon アソシエイト等)を含みます
ローカル LLM(Llama 3.1 / Qwen 2.5 / DeepSeek R1 等)の GPU 別生成速度を集約。Tokens/sec(1 秒あたり生成トークン数)が体感速度の主要指標です。
モデルサイズ別の VRAM 消費
| 評価項目 | モデル | Q4 量子化 | Q8 量子化 | FP16 |
|---|---|---|---|---|
| Llama 3.1 8B | 6 GB | 10 GB | 16 GB | |
| Llama 3.1 13B | 10 GB | 16 GB | 26 GB | |
| Qwen 2.5 14B | 10 GB | 16 GB | 28 GB | |
| DeepSeek R1 32B | 20 GB | 32 GB | 64 GB | |
| Llama 3.3 70B | 40 GB | 70 GB | 140 GB |
GPU 別 Tokens/sec(Llama 3.1 13B Q4)
| 評価項目 | GPU | VRAM | tokens/sec |
|---|---|---|---|
| RTX 4090 24GB | 余裕 | 85 | |
| RTX 4080 SUPER 16GB | 余裕 | 70 | |
| RTX 4070 Ti SUPER 16GB | 余裕 | 60 | |
| RTX 4070 SUPER 12GB | ギリ | 50 | |
| RTX 4060 Ti 16GB | 余裕 | 45 | |
| RTX 4060 8GB | **OOM** | — |
ツール選択
| ツール | 特徴 | 推奨層 |
|---|---|---|
| Ollama(CLI) | シンプル・モデル切替容易 | エンジニア |
| LM Studio(GUI) | 直感的 UI | 非エンジニア |
| llama.cpp | 軽量・カスタマイズ | 上級者 |
| text-generation-webui | A1111 的 UI | カスタマイズ重視 |
まとめ
ローカル LLM は VRAM 容量で運用できるモデルが決まる。13B Q4 まで → RTX 4060 Ti 16GB。32B Q4 まで → RTX 4090。70B Q4 → 24GB 必須。詳しくは 生成 AI 用自作 PC も参照。