
Cosmos 3 でアップデートされた NVIDIA Physical AI を工場 AI の三層構造で読み解いてみた
こんにちは、クラスメソッド製造ビジネステクノロジー部の森茂です。
GTC Taipei で Cosmos 3 が公式リリースされたタイミングで、ここまで DGX Spark 連載で点として積み上げてきた記事群を一度俯瞰してみたい、というのが今回の動機です。
時系列基盤モデル連載で Chronos-2 と TimesFM 2.5 の比較、Chronos-2 を PLC 風シミュレータに繋ぐ実験、SKAB データセットでの異常検知と来て、「数値時系列を扱う層」の話はそこそこ手応えが出てきました。一方で映像系の VSS Agent や Cosmos Reason、シミュレーション系の Cosmos Predict、そして Cosmos 3 で統合された omnimodel も同じ DGX Spark 上で動いていて、自分の中では結局これらは工場 AI の何にどう効くのか、という棚卸しがちゃんとできていない状態でした。
GTC Taipei keynote で Cosmos 3 が一般公開されたことで、各レイヤーを担うモデルがほぼ出揃いました。本記事は実機検証ゼロの俯瞰記事として、工場 AI を数値・視覚・シミュレーションの三層構造で読み解き、各層に対応する NVIDIA のモデル群(時系列基盤モデル / Cosmos Reason / 世界モデル)の役割分担と棲み分けを整理します。
3 系統はそもそも何が違うのか
工場 AI で扱う「学習ベースのモデル」を主入力・主出力で切り分けると、自然と 3 系統に分かれます。
| 観点 | 時系列基盤モデル | Cosmos Reason(推論系 VLM) | 世界モデル(Cosmos Predict / Cosmos 3) |
|---|---|---|---|
| 主入力 | 数値時系列 + 共変量 | 画像・動画 + 自然言語プロンプト | 画像・動画 + プロンプト |
| 主出力 | 数値時系列の未来値 / quantile / 異常スコア | 自然言語の状況理解 / bbox / Yes-No 判定 | 動画フレーム生成 / 合成データ |
| 解くレイヤー | 数値レイヤー(センサー値の延長) | 視覚・言語レイヤー(状況の意味付け) | シミュレーションレイヤー(物理現象の生成) |
| レイテンシ | ミリ秒〜数百ミリ秒 | 数秒〜数十秒 | 数十秒〜数十分 |
| メモリ | 100MB 〜 1GB | 数 GB 〜 数十 GB | 数十 GB 〜 100GB+ |
| リアルタイム性 | 制御ループに乗せられる | 助言ループに乗る | バッチ・オフライン専用 |
並べてみると、3 系統は対立しているのではなく、レイテンシ・メモリ・リアルタイム性で役割が違うだけ、というのがわかりやすいと思います。数値層は ms 単位で制御に絡める、視覚層は秒単位で意味解釈を返す、シミュレーション層は分単位で「ありえそうな未来」を映像として作る、という棲み分けです。
レイテンシとメモリの 2 軸で散布させると、3 系統の運用イメージがさらに明確になります。
それぞれの層で何ができるのか、連載で扱ってきた記事を引き合いに次から見ていきます。
数値レイヤー — 時系列基盤モデルの領域
工場の PLC やセンサーから流れてくる温度・流量・圧力・電流などの数値時系列を、直接モデルに食わせて未来値や異常スコアを出す層です。連載では Chronos-2 / TimesFM 2.5 / NV-Tesseract の比較記事で 3 モデルを並べました。
主要な 3 モデルの特徴を順に並べると、Chronos-2 は encoder + 1 forward pass の構造で horizon が伸びてもレイテンシがほぼ不変です(96→720 ステップで 6.5ms → 6.8ms)。28M モデルなら 4ms / 84MB で Jetson クラスのエッジでも動くサイズ感なのが効きどころです。一方の TimesFM 2.5 は autoregressive 構造で horizon に応じて重くなる(h=96→192 で 86→229ms)反面、context スケーリングが効くタイプで、c=512 → 15,360 まで長くすると MASE 1.106 → 0.770 と精度が伸びていきます。NV-Tesseract は GTC 2026 で Cognite × Celanese との連携が発表された産業時系列特化モデルですね。評価ライセンスベースで、現時点では実機検証は別記事の宿題として残しています。
異常検知に振った SKAB 続編記事では、TimesFM mean が Chronos-2 を AUC で +18〜22 ポイント上回る dataset がある一方で、Chronos-2 を多変量化するとレイテンシが 7-8 倍速くなる、という非対称も見えました。エッジで動かしたいなら Chronos-2 28M、精度を取りに行くなら TimesFM 2.5 mean、という棲み分けが現実的なところです。
Chronos-2 を PLC 風シミュレータに繋いだ実験では、72h × 16,177 windows のスパイク検知で AUC 0.999 / F1 0.83 まで出ました。一方で wear+spike モードの緩やかな drift は AUC ≈ 0.51 までしか出せず、ゆっくり進む劣化は数値層単独では拾いにくい、というのも実測で見えています。この穴は次の視覚層やシミュレーション層で補う設計になります。
視覚レイヤー — Cosmos Reason / VSS Agent の領域
監視カメラや製造ラインのカメラ映像、外観検査の静止画から「何が起きているか」を読み取る層です。NVIDIA のスタックではこの層に VLM 単体推論(Cosmos Reason)と Agent ループ込みの映像検索(VSS Agent)の 2 系統があります。
Cosmos Reason 2 や Cosmos 3 Nano の Reasoner Tower は構造化出力 4 機能(2D Grounding / Robot CoT / Embodied Reasoning / Temporal Localization)を持つ VLM で、単発で「この画像で PPE 着用は守られているか」「この動作はどの工程か」を JSON で返す用途に向きます。連載では Cosmos Reason2 の構造化推論を試した記事で 6 機能 + PPE 検出 + 動画ベンチを実測しました。一方の VSS Agent + Skills は NVIDIA Video Search and Summarization Blueprint で、Cosmos Reason を VLM として裏で使いつつ、映像検索 + サマリ + Agent ループ + MCP まで含めた一段大きいパッケージになっています。こちらは VSS 3.1.0 EA の再検証記事と Agents + Skills 時代の VSS を読み物として整理した記事でカバーしました。
棲み分けはシンプルです。単発の VLM 推論で済むなら Cosmos Reason、映像の検索やサマリや Agent ループまで含めて回したいなら VSS、と切り分けます。Cosmos 3 では理解担当の Reasoner Tower が Cosmos Reason 2 と拮抗する性能を出してきているので、今後は VSS の VLM として Cosmos 3 系が乗ってくる流れが自然なところです。詳細は後半の「Cosmos 3 で更新された三層」で改めて触れます。
数値層が「いま値が変か」を秒以下で答えるのに対して、視覚層は「いま見えている状況をどう解釈するか」を数秒で返す層です。数値層のアラートに視覚層が意味づけを添えるような連携が、実プロジェクトでは効きやすい構図になります。
シミュレーションレイヤー — 世界モデルの領域
過去の映像や 1 枚の画像から「次にありえそうな動画」を生成する層です。記事としては Cosmos Predict 2.5 + Reason2 の検証記事で世界基盤モデルを扱いました。
世界モデルが工場 AI で効く場面は主に 3 つあります。合成データ生成では、実機で十分に集められない異常パターンを動画として生成し、視覚層の Cosmos Reason 系を事前学習させる用途に効きます。Sim2Real ブリッジは、ロボットアームの動作データをシミュレーションで増やし、実機 ACT / VLA に転移させる文脈です。そして Digital Twin として、工程の物理現象を映像で再現し、設備変更前の影響予測や教材化に使う用途も視野に入ります。
Cosmos Predict 2.5 は 2B モデルで 1280×704 の動画を 36 ステップ・約 30 分で生成する、という DGX Spark での実測がありました。リアルタイム制御に使う層ではなく、前段でデータを作る・後段でレビュー素材を作るという運用が現実解です。
そして Cosmos 3 では、世界モデルが Cosmos 3 Nano / Super という omnimodel に再構成され、text / image / video / audio / action を 1 モデルで入出力する形に進化しました。
3 系統の連携シナリオ
3 系統を製造業の現場ユースケースに当てはめると、自然と連携パターンが見えてきます。
| シナリオ | 時系列 FM の役割 | Cosmos Reason の役割 | 世界モデルの役割 |
|---|---|---|---|
| A: 統合異常検知 | PLC センサーから即時の異常スコア | 監視カメラ映像から視覚異常を補完判定 | 合成異常映像で事前に Cosmos Reason を学習 |
| B: 品質 Digital Twin | 実測と予測の突き合わせ | 異常時の根拠を自然言語で説明 | 工程の物理現象を動画で再現 |
| C: 新人教育・SOP 遵守 | 設定値の偏差をリアルタイム警告 | 作業者の動きから手順遵守を判定 | 失敗パターンの映像を生成して教材化 |
| D: トレーサビリティ強化 | 製造履歴の数値ログ | 映像ログから工程イベントを抽出 | 過去工程の Digital Twin 再現 |
たとえばシナリオ A の連携を時系列で書くと、こんな流れになります。
3 系統が「同じイベントを別の角度から見ている」という構造が、この時系列を見ると掴みやすいと思います。数値層が即応、視覚層が補完、LLM が言語化、というレイヤード設計です。Cosmos 系の世界モデルはこの直接の運用ループには入りませんが、事前学習段階で異常映像を量産しておくという形で全体の精度を底上げします。
NVIDIA の戦略マップで見る三層
NVIDIA は 3 系統を意図的に補完的に並べていて、GTC 2026 / GTC Taipei で戦略の輪郭がはっきり出てきました。数値センサー予測・異常検知の領域は NV-Tesseract(Cognite × Celanese との連携で打ち出された)が担い、映像系の工場可視化は VSS + Cosmos Reason(Invisible AI / Tulip / Fogsphere / Pegatron 等のパートナー事例で広がっている)が中心、合成データ・Digital Twin・Policy Model の領域は Cosmos Predict から Cosmos 3 omnimodel に再構成された世界モデルが担う、という三本柱の構図です。
GTC Taipei keynote では、Cosmos 3 が Alpamayo 2(自動運転向けの reasoning VLA)、Isaac GR00T(人型ロボットのリファレンス)と並ぶ Physical AI の基盤モデルとして発表されました。NVIDIA は Physical AI を「一般 AI / 自動運転 / 人型」の 3 領域に整理し、それぞれに基盤モデルとリファレンスデザインを用意する形で打ち出しています。工場 AI の文脈で言えば、数値・映像・シミュレーションの三層に NVIDIA が意図的にモデルを当てはめてきた、という読み方ができます。
Cosmos 3 で更新された三層
GTC Taipei keynote で公開された Cosmos 3 によって、視覚層とシミュレーション層がそれぞれ更新されました。要点を整理します。
| 用途 | 前世代(現行) | Cosmos 3(新) |
|---|---|---|
| 外観検査・状態説明 | Cosmos Reason 2-8B | Cosmos 3 Nano の Reasoner Tower(Cosmos Reason 2 と拮抗) |
| 製造前シミュレーション | Cosmos Predict 2.5 | Cosmos 3 Nano(omnimodel、音や工程音も含む 4 モダリティ統合) |
| Policy Model(ロボット連携) | 該当なし | Cosmos 3 Nano(omnimodel、action 生成で SO-101 等との連携) |
Cosmos 3 は Nano(16B)と Super(64B)の omnimodel として公開され、近日 Edge(4B)も加わります。ライセンスは OpenMDW 1.1(Linux Foundation、商用可)です。前世代で別だった理解担当の Reasoner Tower と生成担当の Generator Tower は 1 つの omnimodel に統合され、推論時には Reasoner Tower だけを VLM として切り出せます。各モデルの実機での挙動やベンチ値は、以下の記事も参照ください。
DGX Spark 128GB ユニファイドメモリに乗せるとき、Cosmos Reason 2 と Cosmos 3 Nano、それに Chronos-2 をすべて同居させても 50GB 程度に収まるので、視覚層 + 数値層を 1 台で完結させる構成が現実的になってきました。世界モデルの生成を本格的に回す場合は別タイミングで稼働させる運用が引き続き良さそうです。
製造業 5 層整理 — ルールベース層と学習ベース層
ここまで「3 系統の学習ベースモデル」を中心に並べてきましたが、製造業の現場では PLC / SCADA / MES といった既存のルールベース層の上にこれらが乗る形になります。両者を 5 層で整理すると、AI 側の役割分担がより立体的に見えます。
| レイヤー | 性質 | 例 |
|---|---|---|
| PLC | 設備制御のルール | センサー値が閾値超で停止、バルブ開、モーター回す |
| SCADA | 監視・アラーム・操作のルール | 温度上限超で警報、画面表示、履歴記録 |
| MES | 製造業務・工程管理のルール | このロットはこの工程順で流す、検査結果 NG なら次工程に進めない |
| 予測モデル | 過去・現在のデータから将来の状態や異常の兆しを推定 | この温度・振動・品質傾向なら、数時間後に異常起きる可能性が高い |
| 最適化モデル | 複数の制約条件の中でよりよい打ち手を選ぶ | 品質・歩留まり・納期・電力コストを踏まえて最適条件を提案 |
「ルールベース層 = 既存設備の世界」「学習ベース層 = 今回の三層 + LLM 補助」という対比で見ると、製造業 AI で何を提案する話なのかが整理しやすくなります。
製造業向け品質安定モデルを設計する際に取り込むべき判断材料も、同じ三層 + LLM 補助で整理できます。
| 判断材料 | 内容 | 担当するレイヤー |
|---|---|---|
| 設備信号 | 温度、流量、速度、圧力、電流などの時系列データ | 数値レイヤー(Chronos-2 / TimesFM) |
| 微細な異常兆候 | 勾配、揺らぎ、微差、複数信号の組み合わせ | 数値レイヤー(NV-Tesseract が本領) |
| 画像・映像 | 外観、色むら、欠け、割れ、整列ずれ、作業状態 | 視覚レイヤー(Cosmos Reason) |
| 基準情報・周辺条件 | 原料仕様、品質基準、手順書、温湿度、外気条件 | LLM + RAG(参照系、ナレッジ) |
| 人の知見 | ベテランの見方、補正の順序、立ち上げ時の勘所などの暗黙知 | LLM 形式知化(プロンプト・FT 素材) |
設備信号と微細な異常兆候は数値レイヤー、画像・映像は視覚レイヤー、基準情報と人の知見は LLM 補助、というのが基本のマッピングです。世界モデルはこの 5 項目には直接対応しませんが、設備信号や画像映像の合成データを後付けで生成することで、データ不足を埋める裏方として機能します。
実プロジェクトで「品質安定モデルを作ってください」というオーダーが来た時、こうした 5 項目を一度棚卸しすると、どのレイヤーに何を載せるべきかの議論が進みやすくなる、というのが今回の整理の現場での使いどころです。
まとめ
工場 AI の学習ベース層を 3 系統に分解して、Cosmos 3 公開後の現在地で並べ直してきました。整理した要点は 4 つあります。
ひとつ目は、3 系統はレイテンシ・メモリ・リアルタイム性で役割が違うということ。数値層は ms 単位で制御に絡め、視覚層は秒単位で意味解釈を返し、シミュレーション層は分単位でデータ生成を担う、という構図です。ふたつ目は、3 系統は連携してこそ強い、ということ。数値層の異常スコアに視覚層が意味づけを添え、シミュレーション層は事前学習データを供給する裏方として効きます。3 つ目は Cosmos 3 で視覚層とシミュレーション層が大きく更新された点で、Cosmos 3 Nano の Reasoner Tower は Cosmos Reason 2 と拮抗し、omnimodel としては 4 モダリティ統合と Policy Model で世界モデル領域が大きく前進しました。4 つ目はルールベース層(PLC / SCADA / MES)の上に学習ベース層(予測 / 最適化)が乗る構図で、製造業の品質安定モデルを設計する時の参照軸として使いやすい整理になっています。
参考リンク
時系列基盤モデル連載
- 時系列基盤モデルを DGX Spark で動かして比べてみた
- Chronos-2 で PLC 風時系列データを予測し、Nemotron で保全コメントを生成してみた
- SKAB と時系列基盤モデルで産業センサーの異常検知を試してみた
VSS 関連の記事
Cosmos 関連の記事
- Cosmos-Reason2 で画像と動画の構造化分析を DGX Spark で試してみた
- DGX Spark で NVIDIA Cosmos 3 を動かしてみた
- DGX Spark で NVIDIA Cosmos 3 のファミリー使い分けマップを整理してみた






