[レポート]Cortex Agentsを安心して本番運用するためのSnowflakeにおけるLLMOps入門

[レポート]Cortex Agentsを安心して本番運用するためのSnowflakeにおけるLLMOps入門

2026.03.18

2026年3月17日に、「Snowflake Tech Fast Track」が開催されました。

https://www.snowflake.com/snowflake-tech-fast-track/

本記事はセッション「Cortex Agentsを安心して本番運用するためのSnowflakeにおけるLLMOps入門」のレポートブログとなります。

登壇者

  • Snowflake合同会社 ソリューションエンジニアリング統括本部 パートナーソリューションエンジニア 宮川 大司 氏

セッション内容

Snowflake Cortex AI のスタック

Snowflake Cortex AI の強みは、単一のプラットフォームで様々なモデルを使える点。主な機能として以下がある。

  • AI 機能を SQL でラップした AI SQL 関数
  • Text to SQL 機能(Cortex Analyst)
  • RAG 機能(Cortex Search)
  • 上記をオーケストレーションする Agent 機能

IMG_8467

Cortex Agents とは

  • Snowflake 上で動作するマネージドな AI エージェント機能
  • 構造化・非構造化データの両方を扱える点が特徴

IMG_8468

エージェントのオーケストレーションは、質問がくると計画を立て、実行後に振り返りの仕組みをもつ。この振り返りにより精度の高い回答を実現している。

一方で、便利である反面、回答の品質担保やガバナンスも重要。これに答えるための考え方が LLMOps(学習済みモデルを前提に、本番で安心して運用するための設計手法)。

IMG_8469

以降で、LLMOps を以下の5つの観点で整理する。

  • データ品質
  • 安全性
  • モニタリングと評価
  • コスト管理
  • ガバナンス

IMG_8470

データ品質:セマンティックビュー

データ品質の観点は、セマンティックビューが担う。

IMG_8471

  • セマンティックレイヤーにより、AI にビジネスロジックとデータを教えるレイヤーを提供する
    • 本来 Agent 自身はどのデータを使うべきかわからないが、セマンティックレイヤーを介することで、適切なデータにアクセスできるよう構成できる

IMG_8473

  • 構築時にはセマンティックオートパイロット機能が用意されており、セマンティックビューの作成を支援してくれる

IMG_8474

安全性:3つの指示レベル

Agent の振る舞いは、3つの指示レベルで制御できる。

  • システム指示
  • オーケストレーション指示
  • レスポンス指示

IMG_8475

モニタリングと評価:Cortex Agent Evaluations

エージェントの評価には、出力だけを評価すると、エージェントの振る舞いに関して見逃す要素があるため、ユーザーの質問・Agent の回答・検索コンテキストの3要素を組み合わせて見る RAG Triad という考え方がある。

IMG_8476

また Snowflake Research が発表した GPA というフレームワークがある。このフレームワークでは、5つのメトリクスで Agent を評価する。

IMG_8477

この GPA の考えをネイティブに Snowflake で実装できる機能として Cortex Agent Evaluations がある。

  • 組み込みのメトリクスを利用できるほか、ユーザー独自の評価軸も定義できる

IMG_8478

Cortex Agent Evaluations のデモ

SNOWRETAIL という小売りデータを参照するエージェントを題材に、Cortex Agent Evaluations のデモが行われました。

  • 評価メトリクスの設定
    • デフォルトの回答正確性+振る舞いに加え、YAML で以下のカスタムメトリクスを定義
      • 日本語としての丁寧さ
      • ユーザーの質問に対して網羅的に回答しているかという指標
    • 評価には評価用データセットを用意する
  • 評価結果の確認
    • 各質問に対して、指標ごとのスコアを確認できる
  • 改善サイクル
    • 評価結果を受けてオーケストレーション指示を追加
    • その結果、全体的な精度向上が見込めた

コスト管理:Resource Budgets

  • エージェントにタグを付与することで、エージェント単位でコストを追跡できる

ガバナンス

  • RBAC に完全に統合されており、エージェント経由での問い合わせでもダイナミックデータマスキングや行レベルセキュリティが機能する

IMG_8481

モニタリング:利用状況の可視化

外部のオブザーバビリティツールは不要で、Snowflake 上にモニタリング基盤が組み込まれている。

  • 定量分析:CORTEX_AGENT_USAGE_HISTORY ビューにリクエスト履歴が自動で蓄積され、利用状況の分析が可能
  • Snowsight Monitoring:会話ログや推論の各ステップを表示できる
  • フィードバック機能:メトリクススコアでは見えないユーザーの満足度を収集し、評価サイクルのインプットとして活用できる

さいごに

Snowflake Cortex Agents の概要から LLMOps の5つの観点まで、デモを交えてご紹介いただいたセッションでした。

個人的に印象的だったのは、GPA フレームワークと、それに基づく Cortex Agent Evaluations による評価・改善サイクルの考え方でした。
Cortex Agents の本番運用にあたっては、その評価をどのように行うかが難しい点と思っていましたが、この部分を継続的に支えるための仕組みも整ってきており、実際の導入検討にあたっての参考になりました。

参考

https://www.snowflake.com/en/engineering-blog/benchmarking-LLM-as-a-judge-RAG-triad-metrics/

https://www.snowflake.com/en/engineering-blog/ai-agent-evaluation-gpa-framework/

この記事をシェアする

FacebookHatena blogX

関連記事