NVIDIA が最新オープンモデル Nemotron 3 Super を発表したので Cloudflare Workers AI で試してみた

NVIDIA が新たな 1200 億パラメータの Nemotron 3 Super を発表しました。すぐに Cloudflare Workers AI で使用可能になっていたので試してみました。

2026.03.12

ウィスキー、シガー、パイプをこよなく愛する大栗です。
2026年3月11日に NVIDIA が最新のオープンモデル Nemotron 3 Super を発表し、Cloudflare Workers AI でも利用可能になりましたので早速試してみました。
Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning
Nemotron 3 Super — NVIDIA Research
NVIDIA Nemotron 3 Super Technical Report (PDF)
Cloudflare Changelog: Nemotron 3 Super on Workers AI
Workers AI Model: nemotron-3-120b-a12b
 Nemotron 3 Super とはNemotron 3 Super は NVIDIA が発表した、マルチエージェント AI システムを念頭に設計されたオープンハイブリッドモデルです。総パラメータ数は 120B ですが、推論時にアクティブになるのは 12B のみという Mixture-of-Experts（MoE）アーキテクチャを採用しています。
 ハイブリッド Mamba-Transformer MoE アーキテクチャNemotron 3 Super の最大の特徴は、3つの要素を組み合わせたハイブリッドアーキテクチャです。


NVIDIA Corporation. "Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning". Research at NVIDIA. 2026-03. https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf, (2026-03-12)


レイヤー
役割


Mamba-2 層
線形計算量でのシーケンス処理。長いコンテキストを効率的に扱う

Transformer Attention 層
精密な記憶の想起

MoE（Mixture-of-Experts）層
密な計算なしにパラメータ数をスケールアップ

従来の Transformer モデルは長いシーケンスになるほど計算コストが二乗で増加しますが、Mamba-2 は線形計算量でシーケンスを処理できます。一方で Mamba 単独では精密な記憶の想起が苦手なため、Transformer Attention を組み合わせることで双方の長所を活かしています。
 主な特徴Latent MoE
従来の MoE と比較して、同じ計算コストで4倍のエキスパートを持てる Latent MoE を採用しています。エキスパート数を増やすことで、より多様なタスクに対応できるようになっています。

Multi-token prediction（MTP）
ネイティブな Multi-token prediction により、投機的デコーディング（speculative decoding）を組み込みでサポートしています。コード生成やツール呼び出し等の構造化タスクでは、別途ドラフトモデルを用意することなく最大3倍の実時間高速化を実現します。

1M トークンのコンテキストウィンドウ
ネイティブで 1M トークンのコンテキストウィンドウをサポートしています。マルチエージェント環境では「コンテキスト爆発」と呼ばれる問題（通常のチャットの最大15倍のトークンを消費する）が発生しやすいのですが、長大なコンテキストに対応することでエージェントの長期記憶として活用できます。

NVFP4 ネイティブ事前学習
NVIDIA Blackwell GPU に最適化された NVIDIA の 4 ビット浮動小数点形式 NVFP4 でネイティブ事前学習されています。チェックポイントは NVFP4、FP8、BF16 の各量子化形式で公開されています。

マルチ環境強化学習
21 種類の設定（環境）でマルチ環境強化学習を行っています。これにより、様々なエージェントタスクに対応できる汎用的な推論能力を獲得しています。

 ベンチマーク同規模モデルとのスループット・精度比較は以下の通りです（スループットは B200 GPU、vLLM/TRT-LLM で計測、8k 入力 / 64k 出力、Nemotron 3 Super NVFP4 を 1.0 として正規化）。


モデル
量子化
Nemotron 3 Super 比スループット
PinchBench 成功率


Nemotron 3 Super
NVFP4
—（基準）
85.6%

GPT-OSS-120B
MXFP4
2.2倍
54.0%

Qwen3.5-122B
BF16
7.5倍
84.5%

1M トークンのコンテキストを使った RULER テストでも、上記両モデルを上回る正解率を出しています。


NVIDIA Corporation. "Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning". Research at NVIDIA. 2026-03. https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf, (2026-03-12)
 NVIDIA Nemotron 3 Super の入手build.nvidia.com、Perplexity、OpenRouter、Hugging Faceからアクセスできます。企業や開発者は複数のパートナーを通じてモデルをデプロイできます。
クラウドサービスプロバイダー
Google Cloud
Oracle Cloud Infrastructure
Amazon Web Services と Microsoft Azure は近日中に対応します。

NVIDIA クラウドパートナー
Coreweave
Crusoe
Nebius
Together AI

インファレンスサービスプロバイダー
Baseten
Cloudflare ← 本エントリで利用します。
DeepInfra
Fireworks AI
Inference.net
Lightning AI
Modal
FriendliAI

データ プラットフォームとサービス
Distyl
Dataiku
DataRobot
Deloitte
EY
Tata Consultancy Services.

 Cloudflare Workers AI での利用Cloudflare Workers AI では 2026年3月11日より Nemotron 3 Super が利用可能になりました。


項目
値


モデルID
@cf/nvidia/nemotron-3-120b-a12b

コンテキストウィンドウ
32,000 トークン

Function calling
対応

入力料金
$0.50 / 1Mトークン

出力料金
$1.50 / 1Mトークン

ライセンス
NVIDIA Nemotron Open Model License

なお、Workers AI では Nemotron 3 Super のネイティブの 1M トークンコンテキストではなく、32,000 トークン での利用となります。Function calling に対応していますので、エージェントのツール呼び出しにも活用できます。
 やってみる LLM Playground で試すCloudflare Workers AI には、ブラウザから手軽にモデルを試せる LLM Playground が用意されています。Cloudflare の Workers AI Playground を開きます。ログイン不要です。
モデル一覧から @cf/nvidia/nemotron-3-120b-a12b を選択します。
『NVIDIA Nemotron 3 の特徴を教えて』と聞くと、以下のように回答が返ってきます。
Nemotron 3 Super の回答の全文NVIDIA Nemotron 3 は、企業向けアプリケーションに特化した高性能かつ効率的な言語モデル群（LLM）で、2024年初頭に NVIDIA が公開しました。主に「Nemotron-3 8B」（80億パラメータ）と「Nemotron-3 22B」（220億パラメータ）の2つのバリエーションがあり、オープンで商用利用可能なライセンス（NVIDIA Model License）の下で提供されています。以下にその主要な特徴を整理します。
🔑 主要な特徴

スケーラブルなモデルサイズとバランスの取れた性能
8B バージョン: 遅延が重視されるエッジデバイスやリアルタイムアプリケーション（例：チャットボット、要約）に適し、小規模ながら高い効率を実現。

22B バージョン: 中規模モデルながら、推論・コード生成・多言語タスクにおいて Llama 3 70B クラスの性能を発揮（例：MMLU で ~75% 前後、HumanEval で ~50% 前後）。

注意点: 現在公開されているのは 8B/22B が中心で、350B 規模のモデルは Nemotron 4 シリーズに属します（誤解を避けるため補足）。

大規模かつ多様な学習データ
約3兆トークンのデータセットで事前学習。ウェブテキスト、書籍、マルチリンガルコード（100+言語対応）、科学論文などを含み、知識の幅とコード理解力を強化。

データは2023年末までをカバー（最新情報はやや遅れありですが、RAG で補完可能）。

長いコンテキストウィンドウ
標準で 32,768 トークン のコンテキスト長をサポート（例：約50ページの日本語ドキュメントを一度に処理可能）。

スライディングウィンドウ注意機構や効率的なメモリ管理により、長文要約や複数ドキュメント分析にも適応。

NVIDIA エコシステムへの最適化
TensorRT-LLM との統合で、FP8 精度量産やTensor Core最適化により、H100/A100 GPU でのスループットを大幅向上（例：22B モデルで Llama 2 70B 比 2～3倍高速化）。

量子化対応（INT4/FP8）により、メモリ使用量を削減し、単一 GPU でも実行可能（例：22B モデルを INT4 で ~13GB VRAM で動作）。

Triton Inference Server や NeMo Framework とシームレスに連携し、本番環境でのデプロイを簡素化。

安全性と信頼性への配慮
人間のフィードバックから学ぶ強化学習（RLHF）と拒否サンプリングを組み合わせたアライメント手法で、有害出力やバイアスを低減。

NeMo Guardrails との親和性が高く、企業向けにトピック制御やポリシー違反検出を組み込みやすい設計。

NVIDIA AI Enterprise サブスクリプション対応で、サポート・セキュリティパッチ・ライセンス保証が付帯。

マルチタスク対応力
ゼロショット/フェワショットで以下のタスクに強み：

自然言語理解（Q&A、要約、感情分析）

コード生成・デバッグ（Python、Java、SQL など対応）

多言語翻訳・クロスリンガル検索

RAG（Retrieval-Augmented Generation）パイプラインでの文脈 grounding

💡 典型的なユースケース

エンタープライズチャットボット: 社内ドキュメントやFAQを参照した正確な応答（例：HR・ITサポート）。

コンテンツ自動化: 市場レポート作成、多言語マーケティング文言生成。

開発者支援: コード補完、バグ修正提案、技術ドキュメント検索（例：GitHub Copilot 風ツールの基盤）。

データ分析補助: SQL生成、データ可視化の指示解釈、レポート作成の下書き。

⚠️ 留意点

マルチモーダル非対応: 画像や音声入力には対応していません（マルチモーダルが必要な場合は Nemotron 4 Vision などを検討）。

カスタマイズコスト: フルファインチューンにはリソースが必要ですが、LoRA や PEFT メソッドで効率的に適応可能（NVIDIA NeMo でサポート）。

知識の鮮度: 学習データのカットオフがあるため、最新事実が必要な場合は RAG やウェブ検索連携が必須。

📌 選ぶ際のポイント

遅延・コスト重視 → 8B バージョン（例：エッジデバイスや低遅延API）。

バランス重視（精度 vs. コスト） → 22B バージョン（ほとんどのエンタープライズタスクでコストパフォーマンスに優れる）。

既に NVIDIA エコシステムを利用中 → TensorRT-LLM や Triton での導入が特にスムーズ。

NVIDIA は「企業が安心してプロダクトに組み込める」ことを重視しており、安全性・効率性・サポート体制という観点で、汎用LLM（Llama 3、Mistral など）と差別化を図っています。詳細については、NVIDIAの公式ページまたは Hugging Face 上の Nemotron-3 8B / Nemotron-3 22B をご確認ください。
他に気になる点があれば、遠慮なくどうぞ！ 😊
コーディングが不要で、すぐに動作を確認できるのが LLM Playground の便利なところです。
 LLM Chat App Template で試すCloudflare 公式の llm-chat-app-template を使うと、SSE ストリーミング対応のチャット UI をすぐに動かせます。なお
 1. リポジトリのクローンと依存インストール$ git clone https://github.com/cloudflare/llm-chat-app-template
$ cd llm-chat-app-template
$ npm install
$ npm run cf-typegen
 2. モデルを Nemotron 3 Super に変更src/index.ts の冒頭にある MODEL_ID 定数を書き換えるだけです。
変更前:
src/index.ts
// Model ID for Workers AI model
// https://developers.cloudflare.com/workers-ai/models/
const MODEL_ID = "@cf/meta/llama-3.1-8b-instruct-fp8";
変更後:
src/index.ts
// Model ID for Workers AI model
// https://developers.cloudflare.com/workers-ai/models/
const MODEL_ID = "@cf/nvidia/nemotron-3-120b-a12b";
変更箇所はここだけです。wrangler.jsonc の AI バインディング設定はそのまま使えます。
 3. ローカルで動作確認$ npm run dev
http://localhost:8787 でチャット UI が起動します。なお、ローカル開発時も Cloudflare アカウントにアクセスするため、Workers AI の利用料金が発生します。
 4. デプロイCloudflare Workers にデプロイします。
$ npm run deploy
デプロイコマンドの結果の最後に出てくる URL にアクセスすると以下のようなページが表示されます。
 5. 動かしてみる以下のように Nemotron 3 Super ベースの回答がされます。
ただし、たまに回答が帰って来ない事がありました。
これはデフォルトだと CPU 時間の制限が設定されておらず、実行時間の制限で落ちているようでした。
wrangler.jsonc で Limits の設定を入れて再デプロイするか、ダッシュボードで設定します。ただしダッシュボードの変更では再デプロイ時に消えてしまうので、基本的に wrangler.jsonc を修正してください。
 さいごにNemotron 3 Super は、Mamba と Transformer、そして MoE を組み合わせたアーキテクチャで、スループットと精度を高いレベルで両立しているのが印象的です。特に、エージェント AI の課題である「コンテキスト爆発」に対して、1M トークンの長大なコンテキストウィンドウとネイティブの投機的デコーディングで対応している点は、実用的なマルチエージェントシステムを構築する上で非常に心強いです。
Cloudflare Workers AI で手軽に利用できるようになったことで、エッジでのエージェント AI 活用の可能性がさらに広がります。まずは LLM Playground で気軽に動作を確認してみて、ユースケースに合うかどうか試してみることをお勧めします。

NVIDIA が最新オープンモデル Nemotron 3 Super を発表したので Cloudflare Workers AI で試してみた

Nemotron 3 Super とは

ハイブリッド Mamba-Transformer MoE アーキテクチャ

主な特徴

ベンチマーク

NVIDIA Nemotron 3 Super の入手

Cloudflare Workers AI での利用

やってみる

LLM Playground で試す

LLM Chat App Template で試す

1. リポジトリのクローンと依存インストール

2. モデルを Nemotron 3 Super に変更

3. ローカルで動作確認

4. デプロイ

5. 動かしてみる

さいごに

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS

レイヤー	役割
Mamba-2 層	線形計算量でのシーケンス処理。長いコンテキストを効率的に扱う
Transformer Attention 層	精密な記憶の想起
MoE（Mixture-of-Experts）層	密な計算なしにパラメータ数をスケールアップ

モデル	量子化	Nemotron 3 Super 比スループット	PinchBench 成功率
Nemotron 3 Super	NVFP4	—（基準）	85.6%
GPT-OSS-120B	MXFP4	2.2倍	54.0%
Qwen3.5-122B	BF16	7.5倍	84.5%

項目	値
モデルID	@cf/nvidia/nemotron-3-120b-a12b
コンテキストウィンドウ	32,000 トークン
Function calling	対応
入力料金	$0.50 / 1Mトークン
出力料金	$1.50 / 1Mトークン
ライセンス	NVIDIA Nemotron Open Model License