NVIDIA が最新オープンモデル Nemotron 3 Super を発表したので Cloudflare Workers AI で試してみた

NVIDIA が最新オープンモデル Nemotron 3 Super を発表したので Cloudflare Workers AI で試してみた

NVIDIA が新たな 1200 億パラメータの Nemotron 3 Super を発表しました。すぐに Cloudflare Workers AI で使用可能になっていたので試してみました。
2026.03.12

ウィスキー、シガー、パイプをこよなく愛する大栗です。

2026年3月11日に NVIDIA が最新のオープンモデル Nemotron 3 Super を発表し、Cloudflare Workers AI でも利用可能になりましたので早速試してみました。

Nemotron 3 Super とは

Nemotron 3 Super は NVIDIA が発表した、マルチエージェント AI システムを念頭に設計されたオープンハイブリッドモデルです。総パラメータ数は 120B ですが、推論時にアクティブになるのは 12B のみという Mixture-of-Experts(MoE)アーキテクチャを採用しています。

ハイブリッド Mamba-Transformer MoE アーキテクチャ

Nemotron 3 Super の最大の特徴は、3つの要素を組み合わせたハイブリッドアーキテクチャです。

スクリーンショット 2026-03-12 13.30.25
NVIDIA Corporation. "Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning". Research at NVIDIA. 2026-03. https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf, (2026-03-12)

レイヤー 役割
Mamba-2 層 線形計算量でのシーケンス処理。長いコンテキストを効率的に扱う
Transformer Attention 層 精密な記憶の想起
MoE(Mixture-of-Experts)層 密な計算なしにパラメータ数をスケールアップ

従来の Transformer モデルは長いシーケンスになるほど計算コストが二乗で増加しますが、Mamba-2 は線形計算量でシーケンスを処理できます。一方で Mamba 単独では精密な記憶の想起が苦手なため、Transformer Attention を組み合わせることで双方の長所を活かしています。

主な特徴

  • Latent MoE
    • 従来の MoE と比較して、同じ計算コストで4倍のエキスパートを持てる Latent MoE を採用しています。エキスパート数を増やすことで、より多様なタスクに対応できるようになっています。
  • Multi-token prediction(MTP)
    • ネイティブな Multi-token prediction により、投機的デコーディング(speculative decoding)を組み込みでサポートしています。コード生成やツール呼び出し等の構造化タスクでは、別途ドラフトモデルを用意することなく最大3倍の実時間高速化を実現します。
  • 1M トークンのコンテキストウィンドウ
    • ネイティブで 1M トークンのコンテキストウィンドウをサポートしています。マルチエージェント環境では「コンテキスト爆発」と呼ばれる問題(通常のチャットの最大15倍のトークンを消費する)が発生しやすいのですが、長大なコンテキストに対応することでエージェントの長期記憶として活用できます。
  • NVFP4 ネイティブ事前学習
    • NVIDIA Blackwell GPU に最適化された NVIDIA の 4 ビット浮動小数点形式 NVFP4 でネイティブ事前学習されています。チェックポイントは NVFP4、FP8、BF16 の各量子化形式で公開されています。
  • マルチ環境強化学習
    • 21 種類の設定(環境)でマルチ環境強化学習を行っています。これにより、様々なエージェントタスクに対応できる汎用的な推論能力を獲得しています。

ベンチマーク

同規模モデルとのスループット・精度比較は以下の通りです(スループットは B200 GPU、vLLM/TRT-LLM で計測、8k 入力 / 64k 出力、Nemotron 3 Super NVFP4 を 1.0 として正規化)。

モデル 量子化 Nemotron 3 Super 比スループット PinchBench 成功率
Nemotron 3 Super NVFP4 —(基準) 85.6%
GPT-OSS-120B MXFP4 2.2倍 54.0%
Qwen3.5-122B BF16 7.5倍 84.5%

1M トークンのコンテキストを使った RULER テストでも、上記両モデルを上回る正解率を出しています。

スクリーンショット 2026-03-12 13.30.03
NVIDIA Corporation. "Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning". Research at NVIDIA. 2026-03. https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf, (2026-03-12)

NVIDIA Nemotron 3 Super の入手

build.nvidia.com、Perplexity、OpenRouter、Hugging Faceからアクセスできます。企業や開発者は複数のパートナーを通じてモデルをデプロイできます。

  • クラウドサービスプロバイダー
    • Google Cloud
    • Oracle Cloud Infrastructure
    • Amazon Web Services と Microsoft Azure は近日中に対応します。
  • NVIDIA クラウドパートナー
  • インファレンスサービスプロバイダー
  • データ プラットフォームとサービス
    • Distyl
    • Dataiku
    • DataRobot
    • Deloitte
    • EY
    • Tata Consultancy Services.

Cloudflare Workers AI での利用

Cloudflare Workers AI では 2026年3月11日より Nemotron 3 Super が利用可能になりました。

項目
モデルID @cf/nvidia/nemotron-3-120b-a12b
コンテキストウィンドウ 32,000 トークン
Function calling 対応
入力料金 $0.50 / 1Mトークン
出力料金 $1.50 / 1Mトークン
ライセンス NVIDIA Nemotron Open Model License

なお、Workers AI では Nemotron 3 Super のネイティブの 1M トークンコンテキストではなく、32,000 トークン での利用となります。Function calling に対応していますので、エージェントのツール呼び出しにも活用できます。

やってみる

LLM Playground で試す

Cloudflare Workers AI には、ブラウザから手軽にモデルを試せる LLM Playground が用意されています。Cloudflare の Workers AI Playground を開きます。ログイン不要です。

スクリーンショット 2026-03-12 13.42.37

モデル一覧から @cf/nvidia/nemotron-3-120b-a12b を選択します。

スクリーンショット 2026-03-12 13.43.19

『NVIDIA Nemotron 3 の特徴を教えて』と聞くと、以下のように回答が返ってきます。

スクリーンショット 2026-03-12 10.31.56

Nemotron 3 Super の回答の全文

NVIDIA Nemotron 3 は、企業向けアプリケーションに特化した高性能かつ効率的な言語モデル群(LLM)で、2024年初頭に NVIDIA が公開しました。主に「Nemotron-3 8B」(80億パラメータ)と「Nemotron-3 22B」(220億パラメータ)の2つのバリエーションがあり、オープンで商用利用可能なライセンス(NVIDIA Model License)の下で提供されています。以下にその主要な特徴を整理します。

🔑 主要な特徴
スケーラブルなモデルサイズとバランスの取れた性能

8B バージョン: 遅延が重視されるエッジデバイスやリアルタイムアプリケーション(例:チャットボット、要約)に適し、小規模ながら高い効率を実現。
22B バージョン: 中規模モデルながら、推論・コード生成・多言語タスクにおいて Llama 3 70B クラスの性能を発揮(例:MMLU で ~75% 前後、HumanEval で ~50% 前後)。
注意点: 現在公開されているのは 8B/22B が中心で、350B 規模のモデルは Nemotron 4 シリーズに属します(誤解を避けるため補足)。
大規模かつ多様な学習データ

約3兆トークンのデータセットで事前学習。ウェブテキスト、書籍、マルチリンガルコード(100+言語対応)、科学論文などを含み、知識の幅とコード理解力を強化。
データは2023年末までをカバー(最新情報はやや遅れありですが、RAG で補完可能)。
長いコンテキストウィンドウ

標準で 32,768 トークン のコンテキスト長をサポート(例:約50ページの日本語ドキュメントを一度に処理可能)。
スライディングウィンドウ注意機構や効率的なメモリ管理により、長文要約や複数ドキュメント分析にも適応。
NVIDIA エコシステムへの最適化

TensorRT-LLM との統合で、FP8 精度量産やTensor Core最適化により、H100/A100 GPU でのスループットを大幅向上(例:22B モデルで Llama 2 70B 比 2~3倍高速化)。
量子化対応(INT4/FP8)により、メモリ使用量を削減し、単一 GPU でも実行可能(例:22B モデルを INT4 で ~13GB VRAM で動作)。
Triton Inference Server や NeMo Framework とシームレスに連携し、本番環境でのデプロイを簡素化。
安全性と信頼性への配慮

人間のフィードバックから学ぶ強化学習(RLHF)と拒否サンプリングを組み合わせたアライメント手法で、有害出力やバイアスを低減。
NeMo Guardrails との親和性が高く、企業向けにトピック制御やポリシー違反検出を組み込みやすい設計。
NVIDIA AI Enterprise サブスクリプション対応で、サポート・セキュリティパッチ・ライセンス保証が付帯。
マルチタスク対応力

ゼロショット/フェワショットで以下のタスクに強み:
自然言語理解(Q&A、要約、感情分析)
コード生成・デバッグ(Python、Java、SQL など対応)
多言語翻訳・クロスリンガル検索
RAG(Retrieval-Augmented Generation)パイプラインでの文脈 grounding
💡 典型的なユースケース
エンタープライズチャットボット: 社内ドキュメントやFAQを参照した正確な応答(例:HR・ITサポート)。
コンテンツ自動化: 市場レポート作成、多言語マーケティング文言生成。
開発者支援: コード補完、バグ修正提案、技術ドキュメント検索(例:GitHub Copilot 風ツールの基盤)。
データ分析補助: SQL生成、データ可視化の指示解釈、レポート作成の下書き。
⚠️ 留意点
マルチモーダル非対応: 画像や音声入力には対応していません(マルチモーダルが必要な場合は Nemotron 4 Vision などを検討)。
カスタマイズコスト: フルファインチューンにはリソースが必要ですが、LoRA や PEFT メソッドで効率的に適応可能(NVIDIA NeMo でサポート)。
知識の鮮度: 学習データのカットオフがあるため、最新事実が必要な場合は RAG やウェブ検索連携が必須。
📌 選ぶ際のポイント
遅延・コスト重視 → 8B バージョン(例:エッジデバイスや低遅延API)。
バランス重視(精度 vs. コスト) → 22B バージョン(ほとんどのエンタープライズタスクでコストパフォーマンスに優れる)。
既に NVIDIA エコシステムを利用中 → TensorRT-LLM や Triton での導入が特にスムーズ。
NVIDIA は「企業が安心してプロダクトに組み込める」ことを重視しており、安全性・効率性・サポート体制という観点で、汎用LLM(Llama 3、Mistral など)と差別化を図っています。詳細については、NVIDIAの公式ページまたは Hugging Face 上の Nemotron-3 8B / Nemotron-3 22B をご確認ください。

他に気になる点があれば、遠慮なくどうぞ! 😊

コーディングが不要で、すぐに動作を確認できるのが LLM Playground の便利なところです。

LLM Chat App Template で試す

Cloudflare 公式の llm-chat-app-template を使うと、SSE ストリーミング対応のチャット UI をすぐに動かせます。なお

1. リポジトリのクローンと依存インストール

$ git clone https://github.com/cloudflare/llm-chat-app-template
$ cd llm-chat-app-template
$ npm install
$ npm run cf-typegen

2. モデルを Nemotron 3 Super に変更

src/index.ts の冒頭にある MODEL_ID 定数を書き換えるだけです。

変更前:

src/index.ts
// Model ID for Workers AI model
// https://developers.cloudflare.com/workers-ai/models/
const MODEL_ID = "@cf/meta/llama-3.1-8b-instruct-fp8";

変更後:

src/index.ts
// Model ID for Workers AI model
// https://developers.cloudflare.com/workers-ai/models/
const MODEL_ID = "@cf/nvidia/nemotron-3-120b-a12b";

変更箇所はここだけです。wrangler.jsonc の AI バインディング設定はそのまま使えます。

3. ローカルで動作確認

$ npm run dev

http://localhost:8787 でチャット UI が起動します。なお、ローカル開発時も Cloudflare アカウントにアクセスするため、Workers AI の利用料金が発生します。

スクリーンショット 2026-03-12 14.08.01

4. デプロイ

Cloudflare Workers にデプロイします。

$ npm run deploy

デプロイコマンドの結果の最後に出てくる URL にアクセスすると以下のようなページが表示されます。

スクリーンショット 2026-03-12 14.11.10のコピー

5. 動かしてみる

以下のように Nemotron 3 Super ベースの回答がされます。

スクリーンショット 2026-03-12 14.25.34

ただし、たまに回答が帰って来ない事がありました。

スクリーンショット 2026-03-12 14.26.28

これはデフォルトだと CPU 時間の制限が設定されておらず、実行時間の制限で落ちているようでした。

スクリーンショット 2026-03-12 14.28.46

wrangler.jsoncLimits の設定を入れて再デプロイするか、ダッシュボードで設定します。ただしダッシュボードの変更では再デプロイ時に消えてしまうので、基本的に wrangler.jsonc を修正してください。

さいごに

Nemotron 3 Super は、Mamba と Transformer、そして MoE を組み合わせたアーキテクチャで、スループットと精度を高いレベルで両立しているのが印象的です。特に、エージェント AI の課題である「コンテキスト爆発」に対して、1M トークンの長大なコンテキストウィンドウとネイティブの投機的デコーディングで対応している点は、実用的なマルチエージェントシステムを構築する上で非常に心強いです。

Cloudflare Workers AI で手軽に利用できるようになったことで、エッジでのエージェント AI 活用の可能性がさらに広がります。まずは LLM Playground で気軽に動作を確認してみて、ユースケースに合うかどうか試してみることをお勧めします。

この記事をシェアする

FacebookHatena blogX

関連記事