[レポート]Cortex Agentsを安心して本番運用するためのSnowflakeにおけるLLMOps入門

2026.03.18

2026年3月17日に、「Snowflake Tech Fast Track」が開催されました。
https://www.snowflake.com/snowflake-tech-fast-track/
本記事はセッション「Cortex Agentsを安心して本番運用するためのSnowflakeにおけるLLMOps入門」のレポートブログとなります。
 登壇者Snowflake合同会社 ソリューションエンジニアリング統括本部 パートナーソリューションエンジニア 宮川 大司 氏
 セッション内容 Snowflake Cortex AI のスタックSnowflake Cortex AI の強みは、単一のプラットフォームで様々なモデルを使える点。主な機能として以下がある。
AI 機能を SQL でラップした AI SQL 関数
Text to SQL 機能（Cortex Analyst）
RAG 機能（Cortex Search）
上記をオーケストレーションする Agent 機能
 Cortex Agents とはSnowflake 上で動作するマネージドな AI エージェント機能
構造化・非構造化データの両方を扱える点が特徴
エージェントのオーケストレーションは、質問がくると計画を立て、実行後に振り返りの仕組みをもつ。この振り返りにより精度の高い回答を実現している。
一方で、便利である反面、回答の品質担保やガバナンスも重要。これに答えるための考え方が LLMOps（学習済みモデルを前提に、本番で安心して運用するための設計手法）。
以降で、LLMOps を以下の5つの観点で整理する。
データ品質
安全性
モニタリングと評価
コスト管理
ガバナンス
 データ品質：セマンティックビューデータ品質の観点は、セマンティックビューが担う。
セマンティックレイヤーにより、AI にビジネスロジックとデータを教えるレイヤーを提供する
本来 Agent 自身はどのデータを使うべきかわからないが、セマンティックレイヤーを介することで、適切なデータにアクセスできるよう構成できる

構築時にはセマンティックオートパイロット機能が用意されており、セマンティックビューの作成を支援してくれる
 安全性：3つの指示レベルAgent の振る舞いは、3つの指示レベルで制御できる。
システム指示
オーケストレーション指示
レスポンス指示
 モニタリングと評価：Cortex Agent Evaluationsエージェントの評価には、出力だけを評価すると、エージェントの振る舞いに関して見逃す要素があるため、ユーザーの質問・Agent の回答・検索コンテキストの3要素を組み合わせて見る RAG Triad という考え方がある。
また Snowflake Research が発表した GPA というフレームワークがある。このフレームワークでは、5つのメトリクスで Agent を評価する。
この GPA の考えをネイティブに Snowflake で実装できる機能として Cortex Agent Evaluations がある。
組み込みのメトリクスを利用できるほか、ユーザー独自の評価軸も定義できる
 Cortex Agent Evaluations のデモSNOWRETAIL という小売りデータを参照するエージェントを題材に、Cortex Agent Evaluations のデモが行われました。
評価メトリクスの設定
デフォルトの回答正確性＋振る舞いに加え、YAML で以下のカスタムメトリクスを定義
日本語としての丁寧さ
ユーザーの質問に対して網羅的に回答しているかという指標

評価には評価用データセットを用意する

評価結果の確認
各質問に対して、指標ごとのスコアを確認できる

改善サイクル
評価結果を受けてオーケストレーション指示を追加
その結果、全体的な精度向上が見込めた

 コスト管理：Resource Budgetsエージェントにタグを付与することで、エージェント単位でコストを追跡できる
 ガバナンスRBAC に完全に統合されており、エージェント経由での問い合わせでもダイナミックデータマスキングや行レベルセキュリティが機能する
モニタリング：利用状況の可視化
外部のオブザーバビリティツールは不要で、Snowflake 上にモニタリング基盤が組み込まれている。
定量分析：CORTEX_AGENT_USAGE_HISTORY ビューにリクエスト履歴が自動で蓄積され、利用状況の分析が可能
Snowsight Monitoring：会話ログや推論の各ステップを表示できる
フィードバック機能：メトリクススコアでは見えないユーザーの満足度を収集し、評価サイクルのインプットとして活用できる
 さいごにSnowflake Cortex Agents の概要から LLMOps の5つの観点まで、デモを交えてご紹介いただいたセッションでした。
個人的に印象的だったのは、GPA フレームワークと、それに基づく Cortex Agent Evaluations による評価・改善サイクルの考え方でした。

Cortex Agents の本番運用にあたっては、その評価をどのように行うかが難しい点と思っていましたが、この部分を継続的に支えるための仕組みも整ってきており、実際の導入検討にあたっての参考になりました。
 参考https://www.snowflake.com/en/engineering-blog/benchmarking-LLM-as-a-judge-RAG-triad-metrics/
https://www.snowflake.com/en/engineering-blog/ai-agent-evaluation-gpa-framework/