NPU vs GPU|AI処理はどっちが速いかを実測比較
「Copilot+ PCのNPUがあればもうRTX 5090いらない」みたいな広告、最近やたら流れてきません?で、それ信じてLlama 3.1 8Bをローカルで動かそうとしたら全然足りなくて結局GPU使う羽目になったことがあって、NPUとGPU、用途で答えが完全に変わるのがほんと厄介。1週間ベンチを漁って整理できたので、用途別の実差をまとめました。
結論: AI処理は用途で「どっちが速い」が真逆になる
結論から書く。「AI処理」と一括りにできない。用途ごとに最適解はこう分かれる。
| 用途 | 勝者 | 速度差の目安 |
|---|---|---|
| ローカルLLM(Llama 3.1 8B等) | GPU圧勝 | RTX 5070 Ti比 NPUは1/8以下 |
| Stable Diffusion XL | GPU圧勝 | RTX 5090比 NPUは1/15程度 |
| 動画AIアップスケール | GPU圧勝 | CUDA最適化が決定的 |
| Whisper音声文字起こし | NPU有利 | 電力5W以下で常時稼働 |
| 会議要約・字幕生成 | NPUで十分 | Copilot+ PCで完結 |
| 背景ぼかし・ノイズ除去 | NPUの独壇場 | 電池持ち優先用途 |
- 生成系AIはGPU
- 常時稼働AIはNPU
- 両方欲しいなら両搭載機
NPU/GPU/CPUの役割の違いを30秒で
そもそも何が違うのか。ここを押さえると以降の数値が腑に落ちる。
GPU: 大規模並列演算の王様
数千〜2万超のCUDA/Streamコアで巨大行列を一気に殴るのが得意。NVIDIA RTX 5090は21,760 CUDAコア+680 Tensorコアで、AI推論時にFP4で318 TOPSに到達(NVIDIA公称)。電力は450-575Wと爆食い。LLMやSD等「巨大モデル一発」用途で圧倒的。
NPU: 低電力で常時稼働するAI専用回路
10-50 TOPS級の専用回路。消費電力5-15WでAIを動かし続けられるのが本質的価値。ノートで電池4-6時間使いながらWhisper音声起こしや字幕生成を裏で常時動かす、みたいな使い方が刺さる。生成系には力不足。
CPU: 汎用処理の司令塔
少数コアでなんでも処理。AI演算もできるが効率はGPU/NPUの足元にも及ばない。AVX-512やAMXで一部のINT8推論は速いが、それでもNPUと同じ電力では3-5倍遅い(Geekbench AI集計)。
TOPS数値比較表(2026年5月時点 公開仕様)
各社公開仕様(INT8 or FP16 換算、新世代はFP4含む)を一覧化。NPU側はIntel/AMD/Qualcomm/Apple、GPU側はNVIDIA最新世代を並べた。
| チップ | 種別 | AI性能 | TDP目安 | 出典 |
|---|---|---|---|---|
| Intel Core Ultra 9 285K | NPU(Arrow Lake) | 13 TOPS | 125W(CPU全体) | Intel公式 |
| Intel Core Ultra 7 258V(Lunar Lake) | NPU | 48 TOPS | 17-30W | Intel公式 |
| AMD Ryzen AI 9 HX 370 | NPU(XDNA 2) | 50 TOPS | 28W | AMD公式 |
| Qualcomm Snapdragon X Elite | NPU(Hexagon) | 45 TOPS | 23W | Qualcomm公式 |
| Apple M4 Max | NPU(Neural Engine) | 38 TOPS | 機種依存 | Apple公式 |
| NVIDIA RTX 5070 Ti | GPU(Blackwell) | 1406 TOPS(FP4) | 300W | NVIDIA公式 |
| NVIDIA RTX 5080 | GPU(Blackwell) | 1801 TOPS(FP4) | 360W | NVIDIA公式 |
| NVIDIA RTX 5090 | GPU(Blackwell) | 3352 TOPS(FP4) / 318 TOPS(INT8換算相当) | 575W | NVIDIA公式 |
注: FP4とINT8では数値スケールが2倍違う。NPU側はINT8基準、GPU側はFP4込みなので「318 vs 50」のように直接比較すると不正確。実用速度は次の用途別ベンチで見る。
用途別ベンチマーク(2026年5月時点 集計値)
ここからが本題。机上のTOPSではなく、実際にモデルを動かしたときの速度を用途別に並べる。出典は各社レビュー記事を集計したもの。
ローカルLLM: Llama 3.1 8B (Q4量子化, token/sec)
| 構成 | 速度(tok/s) | 体感 |
|---|---|---|
| Ryzen AI 9 HX 370 NPU単体 | 約7-10 | 遅い・実用ギリ |
| Core Ultra 7 258V NPU+iGPU | 約12-15 | 許容範囲 |
| RTX 5070 Ti(16GB) | 約60-80 | サクサク |
| RTX 5090(32GB) | 約120-150 | 人間が読む速度より速い |
Tom’s HardwareのLM Studio実測や、PugetベンチのLLM評価を総合するとこのレンジ。RTX 5070 TiでもNPU比5-8倍。8B以上の大型モデルを使いたいなら正直GPU一択。
Stable Diffusion XL: 1024×1024, 30steps 生成時間
| 構成 | 生成時間/枚 | 備考 |
|---|---|---|
| Intel NPU(AI Playground) | 約20-30秒 | SD 1.5 512px時の値 |
| RTX 4060(8GB) | 約8-10秒 | VRAMギリ |
| RTX 5070 Ti(16GB) | 約3-4秒 | LoRA併用OK |
| RTX 5090(32GB) | 約1.8-2.2秒 | FLUX.1も余裕 |
TechPowerUpのSDXL集計より。SDXL以上をNPUで動かすのは2026年5月時点では非現実的。Intel公式デモでも対応はSD 1.5止まり。
Whisper音声文字起こし: large-v3, 60分音声
| 構成 | 処理時間 | 電力 |
|---|---|---|
| Snapdragon X Elite NPU | 約4-5分 | 約5W |
| Ryzen AI 9 HX 370 NPU | 約3-4分 | 約8W |
| RTX 5070 Ti | 約1-2分 | 約180W |
速度はGPUが上だが「電池駆動で常時動かす」観点ではNPUが圧勝。会議中ずっとリアルタイム文字起こしを動かす用途では、NPUが本領発揮する領域。
動画AIアップスケール: Topaz Video AI 4K化(1分映像)
| 構成 | 処理時間 | 備考 |
|---|---|---|
| CPU(Ryzen 9 9950X) | 約40-50分 | 非実用 |
| NPU(Topaz未対応) | – | 公式サポート外 |
| RTX 5070 Ti | 約4-5分 | 実用ライン |
| RTX 5090 | 約2-3分 | 業務利用OK |
Topaz Video AIはCUDA最適化が深く、NPU公式対応すらない(2026年5月時点)。動画AIはGPU一択。
NPUが活きる場面・GPUが活きる場面
NPUが活きる場面
- 会議のリアルタイム字幕
- カメラ背景ぼかし
- ノイズ除去(Krisp系)
- Windows Recall(Copilot+)
- 音声文字起こし常時稼働
共通点は「軽いモデルを長時間動かす」。電池持ち命のノートで効く。
GPUが活きる場面
- ローカルLLM 7B以上
- Stable Diffusion XL/FLUX
- 動画AIアップスケール
- LoRA訓練・ファインチューン
- 3D AI生成(Trellis等)
共通点は「巨大モデル一発」。VRAM容量と帯域でしか勝負できない領域。
タイプ別おすすめ診断
用途と予算を選ぶだけで、自分に必要なのがNPUなのかGPUなのか出る診断。30秒で終わる。
🧠 NPU/GPU 最適解診断
2問・30秒であなた向けの構成が分かる
Q1. 主な用途は?
参考購入候補(GPU/NPU内蔵CPU 各1)
商品紹介は最低限。「両方積みたい人」向けの王道構成として下記2点だけ挙げる。
GPU側: GIGABYTE RTX 5070 Ti AERO OC 16GB
1440p/4K AI用途の現実解。16GB GDDR7でLlama 3.1 8B/SDXLが快適に動く最安帯。価格は20万円台前半で、RTX 5090(70万円超)と比べてコスパが圧倒的。AI Playgroundが個人ユーザーの「最初の1枚」として推奨する根拠もここ。
NPU内蔵CPU側: Intel Core Ultra 9 285K
デスクトップ向けNPU内蔵フラッグシップ。NPU 13 TOPSとモバイル版より控えめだが、GPUと組合せる前提なら「動画字幕生成をCPUに逃がす」用途で十分。Arrow Lakeはアイドル時の電力効率も良く、AI常時稼働マシンの土台向き。
よくある質問(FAQ)
用途次第。会議要約・字幕生成・写真整理だけならNPUで完結する。だがローカルLLM 7B以上やSDXLを動かしたい瞬間、NPUは力不足になる。生成AIを触る予定があるならGPUは別途必要。
TOPS数値の単純比較は意味がない(FP4とINT8で2倍違う)。実用速度ではLlama 3.1 8B/4bitで「NPU 8 tok/s vs RTX 5070 Ti 70 tok/s」程度の差が出る。約8-9倍と思って良い。
M4 Max(38 TOPS)+ユニファイドメモリ128GBは、巨大モデルをメモリに載せる用途で独自の強みがある。Llama 3.1 70Bが量子化なしで動く貴重な構成。ただし生成速度はRTX 5090に届かない。用途で選ぶ。
Windows Recall、Live Captions、Photos.appのCocreator、DaVinci ResolveのMagic Mask、Adobe Premiereの自動字幕生成あたりが代表例。Copilot+ PC公式の対応アプリ一覧で随時更新される。
Core Ultra 9/Ryzen AI HX系のNPU内蔵CPU + 外付けGPU(eGPU)が現状の解。ただしThunderbolt帯域がボトルネックでデスクトップRTX 5070 Tiの6-7割しか出ない。本気の生成系をやるならデスクトップを別に組むのが結局安い。
まとめ: 「AI処理」は用途で勝者が真逆になる
- 生成系AI(LLM/SD/動画)はGPU圧勝。NPU比5-15倍の差。
- 常時稼働AI(字幕/Whisper/ノイズ除去)はNPUが本領発揮。電池駆動で勝てるのはNPUだけ。
- TOPS数値の単純比較は意味がない。FP4/INT8/メモリ帯域が絡む。
- デスクトップ最強構成はCore Ultra 9 + RTX 5070 Ti以上の組合せ。
- 「Copilot+ PCあればGPU要らない」は半分嘘。生成AIを触る予定なら必須。
2026年5月時点では、用途を分けてNPUとGPUを併用する構成が一番無駄が出ない。読者の用途と予算で大きく分岐するので、上の診断シミュレーターを試してみて欲しい。
関連記事もどうぞ。
※当サイトの個人的見解です。ベンチマーク数値は2026年5月時点の各社公開仕様・第三者レビュー(Tom’s Hardware/Puget Systems/TechPowerUp/Geekbench AI)を集計したもので、ドライバ・モデルバージョン・冷却環境で変動します。商品の評価は使用環境・個体差により異なります。


