ベンチマーク・ 2026-09-08 （更新：2026-05-07）

ローカル LLM ベンチマーク｜Llama 3.1 8B/13B/70B Tokens/sec 2026年版

ローカル LLM（Llama 3.1・Qwen 2.5・DeepSeek R1）の GPU 別 Tokens/sec を集約。LM Studio / Ollama / llama.cpp の量子化別速度を主要 GPU で比較。

※ 本記事はアフィリエイト広告（Amazon アソシエイト等）を含みます

ローカル LLM（Llama 3.1 / Qwen 2.5 / DeepSeek R1 等）の GPU 別生成速度を集約。Tokens/sec（1 秒あたり生成トークン数）が体感速度の主要指標です。

モデルサイズ別の VRAM 消費

ローカル LLM 量子化別 VRAM

評価項目	モデル	Q4 量子化	Q8 量子化
Llama 3.1 8B	6 GB	10 GB	16 GB
Llama 3.1 13B	10 GB	16 GB	26 GB
Qwen 2.5 14B	10 GB	16 GB	28 GB
DeepSeek R1 32B	20 GB	32 GB	64 GB
Llama 3.3 70B	40 GB	70 GB	140 GB

VRAM 16GB で 13B Q4 余裕、24GB で 32B Q4 + 70B Q4 ギリ。

Llama 3.1 13B Q4 生成速度（中央値）

評価項目	GPU	VRAM
RTX 4090 24GB	余裕	85
RTX 4080 SUPER 16GB	余裕	70
RTX 4070 Ti SUPER 16GB	余裕	60
RTX 4070 SUPER 12GB	ギリ	50
RTX 4060 Ti 16GB	余裕	45
RTX 4060 8GB	OOM	—

VRAM 16GB が 13B Q4 の境界線。VRAM 容量ファースト、CUDA コア数セカンド。

ローカル LLM は VRAM 容量で運用できるモデルが決まる。13B Q4 まで → RTX 4060 Ti 16GB。32B Q4 まで → RTX 4090。70B Q4 → 24GB 必須。詳しくは生成 AI 用自作 PC も参照。