総務省発表 「AI のセキュリティ確保のための 技術的対策に係るガイドライン」 非技術者の目線で読んでみた!

総務省発表 「AI のセキュリティ確保のための 技術的対策に係るガイドライン」 非技術者の目線で読んでみた!

2026.03.31

こんにちは!営業統括本部公共営業部の深田です。
本日は2026年3月27日に総務省が公表した「AIのセキュリティ確保のための技術的対策に係るガイドライン」(案)に対する意見募集の結果及びガイドラインを読んでいきます。
この時代、要約や用語の解説はAIがやってくれるので、私の目線で印象に残ったところ・要点を中心に書いていきます。

想定読者

想定読者は、AI 事業者ガイドラインが定義するAI開発者及びAI提供者です。

AI事業者ガイドラインで定められるAI開発者及びAI提供者とは

  • AI 開発者(AI Developer)
    • AI システムを開発する事業者(AI を研究開発する事業者を含む)
    • AI モデル・アルゴリズムの開発、データ収集(購⼊を含む)、前処理、AI モデル学習及び検証を通してAI モデル、AI モデルのシステム基盤、⼊出⼒機能等を含む AI システムを構築する役割を担う。
  • AI 提供者(AI Provider)
    • AI システムをアプリケーション、製品、既存のシステム、ビジネスプロセス等に組み込んだサービスとして AI利⽤者(AI Business User)、場合によっては業務外利⽤者に提供する事業者
    • AI システム検証、AI システムの他システムとの連携の実装、AI システム・サービスの提供、正常稼働のための AI システムにおける AI 利⽤者(AI Business User)側の運⽤サポート⼜は AI サービスの運⽤⾃体を担う。AI サービスの提供に伴い、様々なステークホルダーとのコミュニケーションが求められることもある。

想定される脅威

プロンプトインジェクション攻撃

原因となる行動:LLM に細工をした入力を行う
結果として発生する事象①:本来は出力すべきではない、RAG 用のデータストア(ベクトルデータベースやファイ
ルシステム等)の内容、LLM の内部設定が記載されたシステムプロンプトを含む出力をさせる
結果として発生する事象②:連携するシステムを不正操作するコード(SQL クエリやシステムコマンド等)を LLM
に生成させ、これを連携するシステム上で実行させることで、データベースやシステムからの機密情報の漏えいや、データの改ざん・削除等を行う
結果として発生する事象②:ユーザがLLMを利用する目的が果たされなくなるような誤った内容を出力させる

①と②が情報漏えい、データ改ざんなどの危険性がある事象、③がユーザの生成AI活用を阻害する事象と言えます。

また、プロンプトインジェクション攻撃は直接間接の2通りがあります。
直接プロンプトインジェクション攻撃:攻撃者が細⼯をしたプロンプトを⼊⼒する場合。AIシステムの利用者が攻撃者
間接プロンプトインジェクション攻撃:細工したファイルをWeb上で読み込んだり、細工した電子メールをLLM参照する事で不正な出力を誘発させる場合。AIシステムの利用者は悪意のないユーザであり、参照するデータを攻撃者は提供します。

脅威への対策:AI開発者における対策と、AI提供者における対策に分けて記載されています。

  • AI開発者における対策
    • 安全基準等の学習による不正な指示への耐性の向上
  • AI 提供者における対策
    • システムプロンプトによる不正な指示への耐性の向上
    • ガードレール等による入出力や外部参照データの検証
      • 入力プロンプトの検証
      • 外部参照データの検証 ※直接プロンプトインジェクション攻撃の場合は該当なし
      • 出力の検証
    • オーケストレータやRAG 等の権限管理

DoS 攻撃(サービス拒否攻撃)

原因となる行動:攻撃者がAI システムが膨大な処理を必要とするプロンプト入力を行う
結果として発生する事象:AI システムへの想定以上の計算負荷や、経済的な損失を生じさせ、AI システムの応答の遅延・停止を引き起したり、サービスの継続性を損なわせる

脅威への対策:AI開発者における対策と、AI提供者における対策に分けて記載されています。

  • AI開発者における対策
    • 安全基準等の学習による不正な指示への耐性の向上
  • AI 提供者における対策
    • システムプロンプトによる不正な指示への耐性の向上
    • ガードレール等による入出力や外部参照データの検証
      • 入力プロンプトの検証

そのほかの攻撃

単純なプロンプト入力ではなく、予めデータを汚染させるなど攻撃に一定の前提条件が必要となるものや、攻撃に当たってLLM への執拗なアクセスが必要となるものとして以下3つの攻撃が挙げられています。

  • データポイズニング攻撃
    • 概要:基盤モデルや LLM が学習するデータに細工をし、LLMに不正な出力をさせる攻撃。攻撃者は、細工をしたデータを用意し、これを何らかの手段によって、事前学習データやファインチューニングデータに入れ込むことで、LLMが特定のプロンプト入力に対して不正な回答を出力するようにしてしまう。
    • 対策: AI 開発者における安全基準等の学習による不正な指⽰への耐性の向上や、AI 提供者におけるガードレール等による出⼒の検証のほか、AI 開発者及び AI 提供者における AI が学習するデータの信頼性の確認などが対策に資すると考えられる。
  • 細工をしたモデルの導入を通じた攻撃
    • 概要:細工をした LLM を AI システムに組み込ませ、LLM に不正な動作をさせる攻撃である。攻撃者は、細工をした LLM を用意し、これを外部に提供することで、細工をした LLM を AI システムに組み込ませ、AI システムが不正な動作をするようにしてしまう。
    • 対策: AI 提供者における導⼊する基盤モデルの信頼性の確認などが対策に資すると考えられる。
  • モデル抽出攻撃
    • 概要:LLM に繰り返しアクセスし、LLM が出力する各単語とその出現確率を分析することで、当該 LLM と類似の LLM を複製する攻撃である。これにより、当該LLM に係る競争上の地位低下や、当該 LLM に含まれる機密情報の窃取などにつながる。
    • 対策:AI 提供者における、単語の出現確率等の無⽤な出⼒を⾏わない設定のほかレートリミットの導⼊などが対策に資すると考えられる。※レートリミット:一定時間内にユーザーやシステムが実行できるAPIリクエストや操作の回数を制限する仕組み。

想定事例

本資料では、実際のユースケースに沿って脅威の解説がされています。

内部向けチャットボット(RAG 利用)による脅威

システム構成とデータの流れ

  • 「組織内のユーザ」からプロンプトを受け取る
  • 内部の RAG 用データストアから回答に必要なデータを取得
  • これをもとにLLMが回答を生成してユーザに応答
  • 外部から基盤モデルの提供を受ける運用を仮定

想定される攻撃シナリオ
ユーザ(攻撃者)が不正なプロンプトを入力することで、直接プロンプトインジェクション攻撃(RAG 用データストアからのデータ窃取等)や間接プロンプトインジェクション攻撃(RAG 用データストアのファイルを経由した攻撃)

想定される対策

  • 安全基準等の学習による不正な指示への耐性の向上
  • システムプロンプトによる不正な指示への耐性の向上
  • ガードレール等による入出力や外部参照データの検証
  • オーケストレータや RAG 等の権限管理

外部向けチャットボット(外部連携利用)

システム構成とデータの流れ

  • 「組織外のユーザ」からプロンプトを受け取る
  • 外部システムから回答に必要なデータ(インターネット公開情報)を取得
  • これをもとに LLM が回答を生成してユーザに応答する
  • 外部から基盤モデルの提供を受ける運用を仮定

想定される攻撃シナリオ
ユーザ(攻撃者)が不正なプロンプトを入力することで実施される直接プロンプトインジェクション攻撃(システムプロ
ンプトの窃取等)や DoS 攻撃(サービス拒否攻撃)のほか、外部連携先を経由して実施される間接プロンプトインジェクション攻撃(Web ページに隠された指示による意図しない不正な出力等)

想定される対策

  • 安全基準等の学習による不正な指示への耐性の向上
  • システムプロンプトによる不正な指示への耐性の向上
  • ガードレール等による入出力や外部参照データの検証

補足:画像識別 AI(CNN)における脅威と対策

こちらは、「AI のセキュリティ確保のための技術的対策に係るガイドライン(令和8年3⽉ 総務省)」で⽰す対策について、対策の具体例その他の詳細を⽰すこと等を⽬的として作成した別添資料に記載されていました。特徴的でしたので特筆して紹介します。

CNNとは

「畳み込み(Convolution)」という特徴抽出⼿法を⽤いたニューラルネットワークの総称である。画像識別 AI においては、⼊⼒画像を複数のニューラルネットワークの層(レイヤ)に通すことで処理する。初期のレイヤではエッジや線などの単純な特徴を識別し、より深いレイヤではより複雑なパターン、形状、最終的にはオブジェクト全体を認識する。特徴を階層的に抽出することで、画像認識やその他のコンピュータビジョンタスクを効果的に処理できる。

→こちら解説が少しむずかしかったので自身が利用しているClaudeにわかりやすく説明するようお願いしたところ「画像の特徴(エッジ、色、形状)を自動的に抽出・学習し、高精度に物体分類や位置特定を行うディープラーニング技術です。」とのことです。

想定される攻撃と概要、その対策

入力により実施が可能な攻撃

  • 敵対的サンプル (回避攻撃)
    • 概要:⼊⼒画像に微⼩なノイズを加え、画像識別 AI(CNN)が捉える特徴を別の物体の特徴へと上書きすることで誤識別を誘発させる攻撃
    • 対策①:敵対的学習により誤分類を抑制する
    • 対策②:⼊⼒画像のカラービット深度を低減した画像と元画像のそれぞれに対する画像識別 AI(CNN)の出⼒の差をもとに敵対的サンプルを検知する など
  • DoS 攻撃(サービス拒否攻撃)
    • 概要:画像識別 AI(CNN)に対して処理負荷が⾼まるように細⼯をした画像を⼊⼒することで、想定以上の計算負荷を⽣じさせ、画像識別 AI(CNN)の応答の遅延や停⽌を引き起こす攻撃
    • 対策①:通常の⼊⼒の処理に必要な時間をもとに閾値を設定し、フィルタリングを⾏う
    • 対策②AI システムにおいて、平均ケースだけでなく、計算負荷がかかった場合の最⼤遅延・最⼤消費を設計に織り込む など

予めデータを汚染させるなど⼀定の前提条件が必要となる攻撃

  • データポイズニング攻撃
    • 概要:画像識別 AI(CNN)の学習データを汚染し、画像の誤認識を誘発させる攻撃
    • 対策:画像識別 AI(CNN)が学習するデータの信頼性の確認 など
  • 細⼯をしたモデルの導⼊を通じた攻撃
    • 概要:細⼯をした画像識別 AI(CNN)を⽤意し、これを外部に提供することで、細⼯をした画像識別 AI(CNN)をAIシステムに組み込ませ、当該 AI システムに画像の誤認識を誘発させる攻撃
    • 対策:導⼊する画像識別 AI(CNN)の信頼性の確認 など

⼊出⼒の分析を通じて⾏われる攻撃

  • モデル抽出攻撃
    • 概要:画像識別 AI(CNN)の挙動を観察して、類似の画像識別 AI(CNN)を複製する攻撃
    • 対策①:出⼒される信頼度のスコアを丸める
    • 対策②:レートリミットの導⼊ など
  • メンバーシップ推論攻撃
    • 概要:画像識別 AI(CNN)への画像⼊⼒に対する出⼒を分析することで学習に使われたデータセットが推測され、情報漏洩につながる攻撃
    • 対策①:出⼒される信頼度のスコアを丸める
    • 対策②:モデルの過学習を抑えてデータセットに含まれるメンバーと⾮メンバーでのモデルの振る舞いの差を⼩さくする など
  • モデル反転攻撃
    • 概要:画像識別 AI(CNN)の出⼒(確信度等)を利⽤して、学習に使われた画像データを逆算し、元データに近い画像を復元する攻撃
    • 対策①:出⼒される信頼度のスコアを丸める
    • 対策②:識別時のモデル内部情報の出⼒を制限する など

画像識別 AI(CNN)について、用いられる単語は難しいですが、基本的な脅威・対策の考え方はガイドライン本編で記載されているものと通じるように感じました。

まとめ

本ブログでは省略しますが、AI開発者・AI提供者が行うべき対策についてより詳しく記載されています。
さらに、情報システムのセキュリティ確保に必要とされる基本的な対策を行うことが重要であることも改めて述べられています。
例えば、監査ログの保存によるトレーサビリティの確保や、システムへの膨大なアクセスによる攻撃を抑制するためのレートリミットの導入、開発環境における開発者の適切な権限管理、システムの構成要素のセキュリティに係る信頼性の確認などが該当します。

AIの活用や、今流行りのClaude Codeの活用について、悩む事がありましたら是非クラスメソッドにご相談ください!お問い合わせはこちら

この記事をシェアする

FacebookHatena blogX

関連記事