[レポート]Cortex Agentsを安心して本番運用するためのSnowflakeにおけるLLMOps入門
2026年3月17日に、「Snowflake Tech Fast Track」が開催されました。
本記事はセッション「Cortex Agentsを安心して本番運用するためのSnowflakeにおけるLLMOps入門」のレポートブログとなります。
登壇者
- Snowflake合同会社 ソリューションエンジニアリング統括本部 パートナーソリューションエンジニア 宮川 大司 氏
セッション内容
Snowflake Cortex AI のスタック
Snowflake Cortex AI の強みは、単一のプラットフォームで様々なモデルを使える点。主な機能として以下がある。
- AI 機能を SQL でラップした AI SQL 関数
- Text to SQL 機能(Cortex Analyst)
- RAG 機能(Cortex Search)
- 上記をオーケストレーションする Agent 機能

Cortex Agents とは
- Snowflake 上で動作するマネージドな AI エージェント機能
- 構造化・非構造化データの両方を扱える点が特徴

エージェントのオーケストレーションは、質問がくると計画を立て、実行後に振り返りの仕組みをもつ。この振り返りにより精度の高い回答を実現している。
一方で、便利である反面、回答の品質担保やガバナンスも重要。これに答えるための考え方が LLMOps(学習済みモデルを前提に、本番で安心して運用するための設計手法)。

以降で、LLMOps を以下の5つの観点で整理する。
- データ品質
- 安全性
- モニタリングと評価
- コスト管理
- ガバナンス

データ品質:セマンティックビュー
データ品質の観点は、セマンティックビューが担う。

- セマンティックレイヤーにより、AI にビジネスロジックとデータを教えるレイヤーを提供する
- 本来 Agent 自身はどのデータを使うべきかわからないが、セマンティックレイヤーを介することで、適切なデータにアクセスできるよう構成できる

- 構築時にはセマンティックオートパイロット機能が用意されており、セマンティックビューの作成を支援してくれる

安全性:3つの指示レベル
Agent の振る舞いは、3つの指示レベルで制御できる。
- システム指示
- オーケストレーション指示
- レスポンス指示

モニタリングと評価:Cortex Agent Evaluations
エージェントの評価には、出力だけを評価すると、エージェントの振る舞いに関して見逃す要素があるため、ユーザーの質問・Agent の回答・検索コンテキストの3要素を組み合わせて見る RAG Triad という考え方がある。

また Snowflake Research が発表した GPA というフレームワークがある。このフレームワークでは、5つのメトリクスで Agent を評価する。

この GPA の考えをネイティブに Snowflake で実装できる機能として Cortex Agent Evaluations がある。
- 組み込みのメトリクスを利用できるほか、ユーザー独自の評価軸も定義できる

Cortex Agent Evaluations のデモ
SNOWRETAIL という小売りデータを参照するエージェントを題材に、Cortex Agent Evaluations のデモが行われました。
- 評価メトリクスの設定
- デフォルトの回答正確性+振る舞いに加え、YAML で以下のカスタムメトリクスを定義
- 日本語としての丁寧さ
- ユーザーの質問に対して網羅的に回答しているかという指標
- 評価には評価用データセットを用意する
- デフォルトの回答正確性+振る舞いに加え、YAML で以下のカスタムメトリクスを定義
- 評価結果の確認
- 各質問に対して、指標ごとのスコアを確認できる
- 改善サイクル
- 評価結果を受けてオーケストレーション指示を追加
- その結果、全体的な精度向上が見込めた
コスト管理:Resource Budgets
- エージェントにタグを付与することで、エージェント単位でコストを追跡できる
ガバナンス
- RBAC に完全に統合されており、エージェント経由での問い合わせでもダイナミックデータマスキングや行レベルセキュリティが機能する

モニタリング:利用状況の可視化
外部のオブザーバビリティツールは不要で、Snowflake 上にモニタリング基盤が組み込まれている。
- 定量分析:CORTEX_AGENT_USAGE_HISTORY ビューにリクエスト履歴が自動で蓄積され、利用状況の分析が可能
- Snowsight Monitoring:会話ログや推論の各ステップを表示できる
- フィードバック機能:メトリクススコアでは見えないユーザーの満足度を収集し、評価サイクルのインプットとして活用できる
さいごに
Snowflake Cortex Agents の概要から LLMOps の5つの観点まで、デモを交えてご紹介いただいたセッションでした。
個人的に印象的だったのは、GPA フレームワークと、それに基づく Cortex Agent Evaluations による評価・改善サイクルの考え方でした。
Cortex Agents の本番運用にあたっては、その評価をどのように行うかが難しい点と思っていましたが、この部分を継続的に支えるための仕組みも整ってきており、実際の導入検討にあたっての参考になりました。
参考








