DGX Spark を 2 か月使って見えた「向いている仕事」と「向いていない仕事」

2026.03.24

 はじめにこんにちは、クラスメソッド製造ビジネステクノロジー部の森茂です。
DGX Spark を使い始めてから約 2 か月が経ちました。この間、LLM 推論、ファインチューニング、映像 AI、ロボティクス、画像生成と、思いつく限りのワークロードを動かしてきました。公開した記事はいつの間にか 20 本を超えていました。。。
https://dev.classmethod.jp/articles/nvidia-dgx-spark-first-impressions/
ひと通り触ってみて感じたのは、「128GB は万能ではないけれど、代替が効かない場面が確かにある」ということです。この記事では、実測データと失敗経験をもとに「DGX Spark が得意なこと」と「苦手なこと」を整理してみます。購入を検討している方、すでに持っているけれど使い道を探している方の参考になればうれしいです。
 DGX Spark を一言でいうとDGX Spark の最大の特徴は、128GB の統合メモリ（UMA: Unified Memory Architecture）です。CPU と GPU がメモリを共有しているので、32GB VRAM の RTX 5090 では物理的に載らないモデルが、そのまま動きます。
よく比較される構成と並べてみました。


項目
DGX Spark
Mac Studio M3 Ultra
RTX 4090
RTX 5090


価格
$4,699
$3,999〜（96GB）
$1,599（MSRP）
$1,999（MSRP）

メモリ
128GB LPDDR5x
最大 512GB
24GB GDDR6X
32GB GDDR7

メモリ帯域幅
273 GB/s
819 GB/s
1,008 GB/s
1,792 GB/s

消費電力
170W（TDP）
〜200W
〜450W
〜575W

OS
Ubuntu 24.04 ARM
macOS
Windows/Linux
Windows/Linux

この表で目を引くのはメモリ帯域幅の差ですね。273 GB/s という数値は Mac Studio（819 GB/s）の 3 分の 1、RTX 4090（1,008 GB/s）の 4 分の 1 程度で、RTX 5090（1,792 GB/s）と比べると約 6.5 倍の開きがあります。一方で RTX 5090 でも VRAM は 32GB なので、大きなモデルを載せきれないという制約は変わりません。この帯域幅の差が、後述する「向き・不向き」に直結しています。
ざっくり言うと、DGX Spark の強みは「速さ」ではなく「載ること」。128GB のメモリ空間に大きなモデルをまるごと載せて、ローカルで完結させられるのが最大の価値です。カンファレンスでも AI の利用環境には F1 vs SUV に分類できると比喩していたものがあったのですが、その例えからだと DGX Spark は SUV 側のイメージと言えそうです。
 向いている仕事2 か月使ってみて「これは DGX Spark ならでは」と感じた用途を 5 つ紹介します。
 大きなモデルをまるごと載せる推論RTX 5090 の 32GB では動かせない 70B〜120B クラスのモデルが、DGX Spark なら 1 台で動きます。
Nemotron 3 Super（120B-A12B）を Ollama で動かしたところ、モデルロードに約 87GB のメモリを消費し、JCommonsenseQA（日本語常識推論）で正答率 94.4% を記録しました。同ファミリーの軽量モデル Nano（30B-A3B）は 87.0% だったので、パラメータ数の差が精度にしっかり反映されています。
https://dev.classmethod.jp/articles/dgx-spark-nemotron3-super/
NVIDIA の gpt-oss:120b（アクティブ 5.1B の MoE）も 1 台で動作しましたし、Qwen3-235B-A22B（MoE、アクティブ 22B）も 1 台でギリギリ載りました。「デスクトップ 1 台で 100B 超のモデルが動く」というのは、触ってみるとインパクトがあります。
 30GB を超えるファインチューニングファインチューニングは推論よりもメモリを食います。モデル本体に加えて、勾配やオプティマイザの状態を保持する必要があるためです。RTX 5090 の 32GB ではオフロードやメモリ節約テクニックが必須になるような学習タスクでも、128GB の統合メモリなら余裕を持って回せました。
たとえば FLUX.1（12B）の Dreambooth LoRA ファインチューニングでは、学習中に GPU メモリ 71GB、システムメモリ 96GB を使用しました。LoRA Rank も通常の 8〜64 ではなく 256 に設定でき、品質面でも攻められます。学習時間は 500 ステップで約 3.4 時間でした。
https://dev.classmethod.jp/articles/dgx-spark-flux1-dreambooth-lora/
ロボティクス分野でも、GR00T N1.6 のファインチューニングが 90.8GB / 128GB のメモリ消費で 5 時間 47 分かけて完走しています。128GB をほぼ使い切る水準ですが、OOM にはならずに済みました。
Nemotron 9B-v2-Japanese の RAFT LoRA や、Qwen3.5 4B の日本語キャラクター LoRA、LeRobot ACT の模倣学習なども問題なく動いています。「学習タスクをローカルで完結させたい」という用途には、128GB の統合メモリが効いてきます。
 映像 AI のローカル完結パイプラインNVIDIA VSS（Video Search & Summarization）を使った映像 AI パイプラインは、DGX Spark と相性が良い用途の一つです。
VSS 2.4.x では LLM + VLM + Embedding + Reranker を組み合わせた映像検索エージェントを動かしました。GPU メモリ消費は VLM に約 37GB、LLM に 18GB、NIM（Embedding + Reranker）に 6GB と、合計で約 61GB とそれなりに重い構成でしたが、日本語クエリでの映像検索や要約が動作しています。
https://dev.classmethod.jp/articles/dgx-spark-vss-agent/
より軽量な構成も可能です。Event Reviewer は CV（GroundingDINO）+ VLM（Cosmos-Reason2-8B）の 2 段構成で、コンテナ数は 8 つ、GPU メモリ使用量は 45GB / 128GB（35%）に収まりました。コンベアベルト上の段ボール箱を検出し、VLM で損傷判定を行うユースケースでは、GPU 使用率 1〜37% と余裕のある負荷で動いています。
https://dev.classmethod.jp/articles/dgx-spark-vss-event-reviewer/
映像データをクラウドに出せない環境や、常時稼働の監視用途には、ローカルで完結する DGX Spark の構成が選択肢になりそうです。
 ロボティクスの学習基盤SO-ARM101 というロボットアームの模倣学習（ACT: Action Chunking with Transformers）を DGX Spark で学習させたところ、GPU メモリ 18GB の消費で約 7 時間（100,000 ステップ）で完了しました。
https://dev.classmethod.jp/articles/lerobot-so-arm101-act-training-eval/
興味深かったのは、推論時の FPS が成功率に直結する点です。Mac の MPS（15Hz）では成功率 40% だったのに対し、DGX Spark の CUDA（30Hz）では成功率 90% まで上がりました。ロボティクスのように「学習→推論→実機評価」のサイクルを手元で回す用途では、GPU メモリの余裕と CUDA の安定した推論速度が活きてきます。
 常駐する開発インフラDGX Spark は消費電力が低く（アイドル時 40〜45W、推論時 135〜140W）、ファンレスに近い静音設計です。電源を入れっぱなしにしても気にならない存在感で、開発インフラとして常駐させるのに向いています。
Continue.dev + VS Code でローカル LLM によるコード補完環境を構築したり、Cosmos-Reason2-8B（32GB）を常駐させて映像分析に使ったり、NemoClaw でローカルエージェント環境を立ち上げたりと、「必要なときにすぐ使えるローカル AI」として重宝しています。
https://dev.classmethod.jp/articles/dgx-spark-continue-dev-vscode/
https://dev.classmethod.jp/articles/dgx-spark-nemoclaw-openshell-handson/
クラウド API の従量課金を気にせず、思いついたときに試行錯誤できるのは精神的にも楽ですね。
 向いていない仕事一方で、「これは DGX Spark でやるべきではなかった」と感じた場面もありました。同じことを試そうとしている方の時間を節約できればと思い、正直に共有します。
 トークン生成速度が求められる用途LLM の推論は、大きく 2 つのフェーズに分かれます。プロンプトを一気に読み込む prefill と、トークンを 1 つずつ生成する decode です。
prefill は並列処理が効くので、DGX Spark の計算能力が活きます。Nemotron 3 Super で prompt eval 112.4 tok/s が出ています。しかし decode はメモリ帯域に律速されるため、273 GB/s の DGX Spark では 17.9 tok/s にとどまりました。
「プロンプトを読むのは得意だけれど、文章を書くのは苦手」というのが直感的な理解です。長文のバッチ生成やリアルタイムチャットでレスポンス速度を求める用途では、HBM を搭載したクラウド GPU のほうが快適でしょう。
 128GB を使い切るモデル128GB は大きいですが、上限は上限です。Cosmos Predict 2.5 の 14B モデルに挑戦した際は、モデルロードには成功した（約 51GB）ものの、推論時に中間テンソルが一気にメモリを消費し、システムごとフリーズしました。3 回試して 3 回とも同じ結果です。14B という数字は一見小さく見えますが、動画生成モデルは画像生成モデルよりフレーム分のアクティベーションが大きく、128GB でも足りなくなるケースがあるということですね。
https://dev.classmethod.jp/articles/dgx-spark-cosmos-world-model/
推論時には中間テンソルやアクティベーションでモデルサイズ以上のメモリが必要になるため、「モデルが載る ≠ 推論できる」という点は注意が必要です。実感としては、学習タスクでは 90GB 程度（128GB の 70%）が安全圏で、それを超えると OOM のリスクが高まります。
 2 台クラスタで速度を稼ぐDGX Spark は ConnectX-7（200Gbps）で 2 台を直結できます。メモリ空間を 256GB に拡張して、1 台では載らないモデルを動かせるのは確かです。
https://dev.classmethod.jp/articles/dgx-spark-two-node-clustering/
ただし、速度面の改善は限定的でした。Qwen3-235B-A22B で測定したところ、1 台構成の 15.51 tok/s に対して 2 台構成で 14.57 tok/s と、むしろ若干遅くなっています（RPC のオーバーヘッド）。Dense 123B モデルの Devstral 2 では 2 台構成で decode 2.64 tok/s と、実用的とは言いにくい速度でした。
2 台クラスタの価値は「速くなること」ではなく「より大きなモデルが動くこと」にあります。Qwen3-Coder-480B（168GB）や Llama 4 Maverick（143GB）のように 1 台に収まらないモデルを動かしたい場合には有効ですが、速度向上を期待して 2 台目を買うのはおすすめしません。
なお、2026 年 3 月の NVIDIA 公式ブログでは最大 4 台までのクラスタ構成が紹介されており、512GB のメモリ空間で DeepSeek-R1 671B のようなモデルを動かすシナリオが示されています。自分はまだ 4 台構成を試せていませんが、興味のある方は以下のブログを参照してみてください。
https://developer.nvidia.com/blog/scaling-autonomous-ai-agents-and-workloads-with-nvidia-dgx-spark/
 Claude Code のローカル代替DGX Spark の 128GB があれば Claude Code をローカル LLM で代替できるのではないかと期待して試しましたが、結論としては難しい状況でした。
https://dev.classmethod.jp/articles/dgx-spark-claude-code-local/
gpt-oss の 120B モデルでもツール呼び出しの精度が安定せず、Edit ツールの成功率にばらつきがありました。これはハードウェアの問題というよりモデル側の課題で、120B でもエージェント的なタスクの精度には壁があるようです。ローカル LLM の進化とともに状況が変わる可能性はありますが、現時点ではクラウドの Claude に頼るのが現実的です。
 prefill vs decode を理解するここまで「向き・不向き」の話をしてきましたが、その根底にあるのがメモリ帯域幅の問題です。少しだけ掘り下げます。
LLM の推論が 2 フェーズに分かれることは先ほど触れました。
prefill はプロンプト全体を一括で処理するフェーズです。行列積の並列演算が主体なので、GPU の計算能力（FLOPS）がボトルネックになります。一方の decode はトークンを 1 つずつ生成するフェーズで、毎ステップで全パラメータをメモリから読み出す必要があるため、メモリ帯域幅がボトルネックになります。
DGX Spark の GB10 は計算能力（FP16 推定 ~62 TFLOPS）は十分にありますが、メモリ帯域幅は 273 GB/s と控えめです。そのため prefill は速い（Super で 112.4 tok/s）のに、decode は遅い（同 17.9 tok/s）という非対称な性能特性になります。
この特性を理解しておくと、DGX Spark の使い道が見えてきます。
prefill が重要な用途（大量の入力を読み込んで短い出力を返す）→ DGX Spark が活きる
RAG の検索クエリ処理、映像の VLM 分析、コード補完の提案生成

decode が重要な用途（長い文章を逐次生成する）→ クラウド GPU のほうが快適
ブログ記事の全文生成、翻訳の一括処理、チャットボットのストリーミング応答

 ユースケース判定フローチャート自分の用途に DGX Spark が合うかどうか、簡易的な判定フローを作ってみました。
あくまで目安ですが、判断のとっかかりにはなるかと思います。
 2 か月使って感じたこと最後に、スペックや実測データには現れにくい使用感を少しだけ。
静音性は想像以上です。アイドル時 40〜45W、推論が終われば GPU がすぐにアイドルに戻るので、常時起動していても気になりません。自分はデスク横に置いて開発インフラとして使っていますが、存在を忘れることもあります。
ARM64 環境のハマりポイントは覚悟しておいたほうがいいです。x86 前提でビルドされたコンテナイメージや Python パッケージが動かないケースに何度か遭遇しました。NVIDIA の NIM（Nemotron-Nano-9B-v2）の ARM64 イメージが中身 x86 バイナリだったこともありましたし、vLLM の CUTLASS カーネルが sm_121 に非対応で動かない場面もありました。大抵は回避策が見つかりますが、「すべてがすんなり動く」とは思わないほうがいいですね。
Playbook エコシステムは充実してきています。NVIDIA が公式に提供する Playbook を使えば、TRT-LLM の推論設定や FLUX.1 の学習環境を手順に沿って構築できます。「何から始めればいいかわからない」という方でも、Playbook を起点にすれば手を動かしやすいかなと思います。
https://dev.classmethod.jp/articles/dgx-spark-playbooks-catalog/
 まとめ2 か月間、DGX Spark でさまざまなワークロードを動かしてきました。見えてきたのは、このマシンの本質が「速さ」ではなく「128GB 統合メモリに載ること」にあるということです。
RTX 5090 x 1 では物理的に不可能だった 120B モデルの推論や 70GB 超のファインチューニングが、$4,699 のデスクトップで完結します。一方で、トークン生成速度はメモリ帯域幅に律速されるため、クラウド GPU にはかないません。「載るか載らないかの壁」を突破したい場面で、DGX Spark は代替不可能な選択肢になりました。
この記事で紹介したデータの多くは、個別の検証記事で詳しく扱っています。興味のある分野があれば、以下のリンクからたどってみてください。
 関連記事一覧

カテゴリ
記事


開封・セットアップ
NVIDIA DGX Spark がやってきた

LLM 推論
Nemotron 3 Super を DGX Spark で動かしてみた

クラスタリング
DGX Spark を 2 台つないで大規模モデルの分散推論を試してみた

画像生成
DGX Spark で FLUX.1 を Dreambooth LoRA ファインチューニングしてみた

世界モデル
DGX Spark で NVIDIA Cosmos 世界基盤モデルを動かしてみた

映像 AI
DGX Spark で映像検索 AI エージェントを動かしてみた

映像 AI
VSS の Event Reviewer で映像をリアルタイム監視してみた on DGX Spark

ロボティクス
SO-ARM101 に LeRobot の ACT で模倣学習させてみた

開発環境
Continue.dev で DGX Spark ローカル LLM コード補完環境を構築してみた

開発環境
DGX Spark で Claude Code + Ollama のローカル実行に再挑戦してみた

エージェント
NVIDIA NemoClaw を DGX Spark で動かしてみた

DGX Spark を 2 か月使って見えた「向いている仕事」と「向いていない仕事」

はじめに

DGX Spark を一言でいうと

向いている仕事

大きなモデルをまるごと載せる推論

30GB を超えるファインチューニング

映像 AI のローカル完結パイプライン

ロボティクスの学習基盤

常駐する開発インフラ

向いていない仕事

トークン生成速度が求められる用途

128GB を使い切るモデル

2 台クラスタで速度を稼ぐ

Claude Code のローカル代替

prefill vs decode を理解する

ユースケース判定フローチャート

2 か月使って感じたこと

まとめ

関連記事一覧

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS

項目	DGX Spark	Mac Studio M3 Ultra	RTX 4090	RTX 5090
価格	$4,699	$3,999〜（96GB）	$1,599（MSRP）	$1,999（MSRP）
メモリ	128GB LPDDR5x	最大 512GB	24GB GDDR6X	32GB GDDR7
メモリ帯域幅	273 GB/s	819 GB/s	1,008 GB/s	1,792 GB/s
消費電力	170W（TDP）	〜200W	〜450W	〜575W
OS	Ubuntu 24.04 ARM	macOS	Windows/Linux	Windows/Linux

カテゴリ	記事
開封・セットアップ	NVIDIA DGX Spark がやってきた
LLM 推論	Nemotron 3 Super を DGX Spark で動かしてみた
クラスタリング	DGX Spark を 2 台つないで大規模モデルの分散推論を試してみた
画像生成	DGX Spark で FLUX.1 を Dreambooth LoRA ファインチューニングしてみた
世界モデル	DGX Spark で NVIDIA Cosmos 世界基盤モデルを動かしてみた
映像 AI	DGX Spark で映像検索 AI エージェントを動かしてみた
映像 AI	VSS の Event Reviewer で映像をリアルタイム監視してみた on DGX Spark
ロボティクス	SO-ARM101 に LeRobot の ACT で模倣学習させてみた
開発環境	Continue.dev で DGX Spark ローカル LLM コード補完環境を構築してみた
開発環境	DGX Spark で Claude Code + Ollama のローカル実行に再挑戦してみた
エージェント	NVIDIA NemoClaw を DGX Spark で動かしてみた