NVIDIA VSS + AI Agents + Skills の身近な現場での使いどころを考えてみた

NVIDIA VSS + AI Agents + Skills の身近な現場での使いどころを考えてみた

2026.05.16

はじめに

こんにちは、クラスメソッド製造ビジネステクノロジー部の森茂です。

少し前に下記の記事で、VSS 3.1.0 EA のセットアップ差分とハノーバーメッセ 2026 の製造業事例を整理しました。

https://dev.classmethod.jp/articles/dgx-spark-vss-3-1-revisit/

その記事を出した翌日(2026-05-13)、NVIDIA Developer Blog で続報のような記事が出ています。

https://developer.nvidia.com/blog/transform-video-into-instantly-searchable-actionable-intelligence-with-ai-agents-and-skills/

主題は「VSS を AI Agents + Skills で扱う」という話で、Codex / Claude Code / OpenClaw / NemoClaw の 4 種類のエージェントから VSS を自然言語で呼び出す構成が紹介されています。前作で「VSS は単独プロダクトとしては表に出てこない」と書いた構図の延長で、今度は使う側のインターフェイスが一段身近になった、という流れです。

本記事では、製造業の重厚な事例から少し距離を置いて、小売・受付・小規模倉庫・飲食店といった身近な現場で「VSS Skills がどう刺さりそうか」をユースケースを想定して整理してみます。

VSS が AI Agents + Skills の時代に入った

NVIDIA Developer Blog のメインメッセージは「VSS が AI Agents + Skills で扱えるようになった」というものです。具体的には、agent 側に Skills という単位の機能を配って、agent が自然言語で映像クエリを投げると、Skills が VSS の API を叩いて結果を返してくれます。

Skills の正体は agentskills.io という仕様で定義された「SKILL.md を中心とする小さなフォルダ」で、agent が読み取って実行可能な形で配布されます。VSS の Skills は GitHub の NVIDIA-AI-Blueprints/video-search-and-summarization/tree/main/skills で公開されており、2026 年 5 月時点で 10 個のスキルが揃っています。

Skills カタログ(NVIDIA-AI-Blueprints/video-search-and-summarization 配下)
skills/
├── alerts/              ← 映像ストリームへのアラート追加・管理・監視
├── deploy/              ← VSS profile の docker compose デプロイ・撤去
├── report/              ← /generate エンドポイントで分析レポート生成
├── rt-vlm/              ← リアルタイム VLM(caption / alert / stream / OpenAI 互換)
├── video-analytics/     ← Elasticsearch の映像メトリクスを VA-MCP 経由で問い合わせ
├── video-search/        ← 切り口別の埋め込み + VLM critique で映像検索
├── video-summarization/ ← LVS マイクロサービスで映像要約
├── video-understanding/ ← VLM で映像内容に Q&A
├── vios/                ← Video IO + Storage(録画・タイムライン・クリップ抽出)
└── vss-frag/            ← video_search_frag 拡張で長尺要約・Enterprise RAG・HITL

VSS 本体は「どのワークフローを走らせるか」で 5 つの Developer Profile から選びます。

Profile 主な役割
base 短いクリップ向けの VLM Q&A とレポート生成
alerts (verification) CV パイプライン + Behavior Analytics + VLM 検証の組み合わせ
alerts (VLM) ライブストリームに対する VLM の常時アノマリー検出
search 映像アーカイブを自然言語 + 切り口別の埋め込みで検索
lvs 長尺映像のチャンク要約(Long Video Summarization)

つまり Skills が「使う側のインターフェイス」、Profile が「VSS をどう走らせるか」の 2 層構造です。下図のように、agent から見ると Skills は引き出しの取っ手、VSS Profile は引き出しの中身、という関係になります。

インストールは agent に自然言語プロンプトを 1 つ投げるだけで、Skill のフォルダごとシンボリックリンクで ~/.claude/skills/<name>/~/.codex/skills/<name>/ に張ってくれます。エージェント固有のパスを持たない汎用ホスト向けには agentskills.io 仕様準拠の ~/.agents/skills/<name>/ も用意されていて、シンボリックリンク方式なのでリポジトリ側で git pull すれば全エージェントの Skill が同時に最新化される、といううれしい設計です。

対応エージェント 4 種の立ち位置

公式ブログで「VSS Skills は Codex / Claude Code / OpenClaw / NemoClaw のいずれからでも呼び出せる」と明記されています。同じ Skill フォルダを agent ごとの規約に従って配置するだけで、どの agent からも同じ自然言語インターフェイスで VSS を叩ける作りになっています。

切り口別の埋め込み検索と Agentic Reasoning Layer

search profile の中身を少し掘ると、映像検索エンジンとしての作り込みが見えてきます。公式ブログでは「映像検索は modern information retrieval で最も難しい領域の 1 つ」と前置きしたうえで、2 つのコア機能を挙げています。

1 つ目は切り口別の埋め込みベクトルを組み合わせる方式(公式ブログでの呼称は Multi-Embedding Search)で、オブジェクト・イベント・属性といった切り口ごとに別々の埋め込みインデックスを張り、結果を統合してランキングします。「赤いユニフォームの作業者」「梯子に登っている人」「ヘルメット未着用」のような並列条件を 1 種類のベクトル類似度だけで拾おうとすると、各要素の優先度が衝突しやすくなります。種類ごとにインデックスを分けてから合成すれば、再現率を落とさずに条件のバランスを保てる、という発想ですね。

2 つ目は Agentic Reasoning Layer で、複雑なクエリをサブクエリに分解(Query Decomposition)し、サブクエリごとに検証ループ(Verification Loops)を回して、最後に意味的な重複を排除(Semantic Deduplication)します。下図のような流れになります。

公式ブログに載っている代表例は、倉庫の 10 分動画 3 本に対して OpenClaw に次のように頼むものです。

I have a set of warehouse videos located at ~/warehouse_videos. I need to find any instances of a worker climbing a ladder and verify they are wearing a hardhat and safety vest. Can you do this with the VSS Search profile that is deployed?

OpenClaw は search profile を Skill 経由で叩き、Query Decomposition で「梯子使用」「ヘルメット着用」「安全ベスト着用」の 3 条件を個別のサブクエリとして検証してから、切り口別の埋め込みで候補を拾い、VLM が再確認し、最後に「ladder + 未着用」の重複を整理して 1 本のレポートにまとめます。Verification Loop で「これは作業者ではなく台車では?」のような誤検知を弾いていく動きが地味に効いてくる印象です。

GPU 別のレイテンシも Alert Verification workflow(RT-DETR + Cosmos Reason 2、1 分あたり 1 アラート想定)で公式に出ています。

GPU 構成 最大同時ストリーム数 検証レイテンシ
1x DGX Spark + 1x AGX Thor 14 0.89 秒
1x H100 147 1.01 秒
1x RTX PRO 6000 87 0.82 秒

DGX Spark 単体ではなく AGX Thor との組み合わせなのは、CV パイプライン側(DeepStream + RT-DETR)を AGX Thor に逃がす想定です。身近な現場では 14 ストリームでも十分なシーンが多いはずなので、エンタープライズ向けの H100 構成と比べて見劣りしない位置に DGX Spark が来ているのが嬉しいですね。

身近な現場で何ができそうか

前作で扱った Invisible AI や Pegatron のような大規模事例ではなく、もう少し身近な現場で VSS Skills が刺さりそうな場面を、1 拠点 1-2 カメラの規模感で想像してみました。実機検証は別の機会に回しますが、Developer Profiles の組み合わせと Skill の役割から、ある程度の射程は読めると思っています。

小売店舗で誤陳列や接客動線を振り返ってみる

街中のドラッグストアやコンビニ(1 店舗あたりカメラ 3-4 台規模を想定)で、店内の動線カメラから「赤い棚の前で 3 分以上立ち止まった客」「品出し直後にすぐ欠品が戻った棚」を自然言語クエリで拾えると面白いかなと考えています。search profile に video-search + report の Skill を組み合わせて、Claude Code から「先週の土曜午後、化粧品コーナーで戸惑った様子の客がいた時間帯を抜き出して」と頼むイメージです。POS データだけでは見えない「商品を手に取って戻した」「店員を探したが見つからずに帰った」といった行動が、店員のシフト振り返り資料になりそうですね。

ただしプライバシー観点で、客の顔や個人特定可能な要素は明らかな課題になります。VSS 単体ではマスキング機能までは触れられていないので、現場導入では別途モザイク処理や保存期間の設計が要りそうです。

受付やエントランスで来客の動きを記録する

オフィスや病院の受付エリア(1-2 カメラで十分カバーできる規模)で、alerts (VLM) profile + video-analytics Skill の構成を考えてみます。「予約のない来訪者がカウンターに 5 分以上いた」「20 時以降のエントランスに人影」みたいな条件を VLM がリアルタイム判定して、Elasticsearch にメトリクスとして残す形ですね。

セキュリティ用途というよりも、来客対応の振り返り(来訪者の平均滞在時間、ピーク時間帯の傾向)に使うほうが、現場の合意が取りやすそうな気がします。report Skill で月次レポートを自動生成して、「火曜午前は配達業者が集中するので受付スタッフをもう 1 人配置」みたいな運用判断に繋げる、というような展開ですね。

小規模倉庫で仕分けミスと安全動作を見守る

公式ブログの ladder + PPE 事例を、街の中規模倉庫スケールに引き寄せて考えてみます。巨大 FC ではなく、地域の物流拠点で 1 ラインあたり 1 カメラ(拠点全体でも 5-10 カメラ)、という規模感です。alerts (verification) profile に rt-vlm + alerts Skill を組み合わせて、「梯子作業時のヘルメット未着用を即アラート」「ピッキングカートに 5 個以上同時積み込んだ際に注意喚起」みたいな運用が組めます。

前作で扱った Pegatron の PCB ライン事例は「不良率 67% 削減」という大型成果でしたが、街の倉庫スケールだと「月 1 件のヒヤリハットを 0 件にしたい」「ピッキングミスを週 5 件から 3 件に減らしたい」くらいの目盛りになるはずです。それでも Cosmos Reason 2 の判定精度なら十分カバーできる範囲だと思います。

飲食店の調理場で SOP 遵守を映像で補強する

最後はチェーン飲食店の調理場(1 店舗あたりカメラ 1-2 台、厨房内のみ)の話です。HACCP の自己点検は紙ベースの記録が中心ですが、rt-vlm + video-understanding の組み合わせで「調理前に 15 秒以上手洗い済みか」「冷蔵庫を 3 分以上開けっ放しにしていないか」「生肉を扱った後にまな板を切り替えたか」といった項目を映像から補強できそうです。

カメラ位置は厨房内に限定する前提で、客席や個人特定可能な領域には向けない、という線引きが現場で要ります。SOP 遵守の証跡として映像が残るので、本部から店舗への指導や、新人教育の振り返り素材として使うイメージですね。VLM の判定がたまに揺らいでも、「人間が後から見返すきっかけ」を作れるところに価値がありそうです。

各店舗を本部に集約すれば一気にエンタープライズ感が出る

ここまでは 1 拠点単位の話でしたが、複数店舗・複数拠点でカメラ映像を本部にクラウド経由で集約してまとめて解析する構成にすると、一気にエンタープライズ規模に化けます。たとえばチェーン展開している小売や飲食店で、各店舗のエッジ側に Jetson Orin Nano Super や AGX Thor を置いてリアルタイム判定と一次絞り込みを担当させ、本部側の DGX Spark や H100 で search profile + lvs profile を使った横断分析を回す、という Edge-to-Cloud の二段構えになります。

前作で紹介した Fogsphere の Edge-to-Fog-to-Cloud アーキテクチャや Invisible AI の自動車メーカー 6 社展開も、突き詰めればこの構造です。「赤い棚で迷っていた客」を全店舗横断で集計したり、「手洗い未実施が多発する店舗」を本部ダッシュボードで可視化したり、といった分析が report Skill 1 つで自然言語から呼び出せるようになります。VSS Skills は単店舗向けにも本部集約向けにも同じインターフェイスで使えるので、PoC から本番展開へのスケールアップが地続きになるのが嬉しいポイントですね。

まとめ

ここまで、VSS の AI Agents + Skills 化が何をもたらすかを、身近な現場の使いどころと合わせて読み解いてみました。

連載文脈で一番大きいのは、身近なコーディングエージェントから VSS を扱える距離感が一段縮まった ことです。前作で書いた「VSS は単独プロダクトとしては表に出てこない」という構図はそのままに、使う側のインターフェイスだけが一段身近になった、と捉えるのが正確かなと思っています。

身近な現場 4 シナリオ(小売・受付・小規模倉庫・飲食店)は、いずれも 1 拠点 1-2 カメラの規模感を前提にしました。DGX Spark + AGX Thor の Alert Verification 14 ストリームというベンチ値は、こうした小規模現場では十分すぎる余裕があります。製造業の重厚な事例から距離を取って、町中のお店や事務所で VSS Skills が動く光景を考えるのは、現実感もあってワクワクしますね。

参考リンク


生成AI活用はクラスメソッドにお任せ

過去に支援してきた生成AIの支援実績100+を元にホワイトペーパーを作成しました。御社が抱えている課題のうち、どれが解決できて、どのようなサービスが受けられるのか?4つのフェーズに分けてまとめています。どうぞお気軽にご覧ください。

生成AI資料イメージ

無料でダウンロードする

この記事をシェアする

関連記事