[レポート][PwCコンサルティング合同会社]AIレッドチーム: 生成AIサービスにおけるセキュリティリスクに対する取り組み - CODE BLUE 2024 #codeblue_jp

[レポート][PwCコンサルティング合同会社]AIレッドチーム: 生成AIサービスにおけるセキュリティリスクに対する取り組み - CODE BLUE 2024 #codeblue_jp

CODE BLUE 2024で行われた「[PwCコンサルティング合同会社]AIレッドチーム: 生成AIサービスにおけるセキュリティリスクに対する取り組み」というセッションのレポートです。
Clock Icon2024.11.14

こんにちは、AWS事業本部@福岡オフィスのべこみん(@beco_minn)です。

今回はCODE BLUE 2024で行われた以下のセッションのレポートです。

[PwCコンサルティング合同会社]AIレッドチーム: 生成AIサービスにおけるセキュリティリスクに対する取り組み

近年の自然言語による生成AIサービスの台頭により、AIの利用用途が専門的なタスクだけではなく身近なタスクにも波及している。それに伴い、AIのビジネス活用も急速に広がっており、誤った情報を元として生成するハルシネーションなど生成AI特有のリスクへの対処が迫られている。 本講演では、生成AIにおけるセキュリティリスクについてデモを用いて解説し、脆弱性やビジネスリスクを特定するための活動であるAIレッドチームについて紹介する。

Speakers:
Naohide Waguri(和栗 直英) シニアマネージャー
Barry O’callaghan(オカラハン バリー) シニアマネージャー

レポート

  • PwCコンサルティング合同会社のAIレッドチームの取り組み

  • AIは専門職が使っていたが、最近は幅広い職の人が使うようになっている。

  • AIの3つのリスク

    • 技術的
    • 法的
    • 倫理的
  • 具体的なAIのリスク

    • 自動運転でのリスク
    • 医療でのリスク
    • 物品購入やWeb閲覧など、パーソナライズ化された情報へのリスク
  • セキュリティ上の課題

    • 悪意のあるデータの学習
    • AIを活用したマルウェアの作成
    • フィッシングメールの高度化(文面に違和感がなくなる)
    • プロンプトインジェクション
  • AIの利用者に対して被害が出る

    • AIサービスを提供する企業にも訴訟リスクなどが発生
  • AIレッドチームについて

    • 軍事訓練やサイバー訓練などの戦略の一つ
    • LLMやAIのモデルの堅牢性や公平性などのリスクをテストする
    • AIサービスは新しいものだがセキュリティ上完璧ではない
    • レッドチームでテストや評価をすることでサービスのセキュリティを強化していく
  • LLMはAIの技術の1つでしかないが、非常に強力なもの

    • ただ、悪用可能な弱点も比較的よく知られている
  • AIレッドチームのやることは今までのレッドチームとやることの流れは変わらない

    • 上述の3つのリスクのどのスコープについて見るのかを決める
    • 情報収集
    • 攻撃の計画
      • 異常な入力などのシナリオを考える
    • 攻撃の実行
    • 結果の分析、レポート
  • プロンプトインジェクションについて

    • 無害に見えるプロンプトの中に悪意のあるメッセージを混入させる
    • 結果、LLMは悪意のあるメッセージに応答してしまう
    • 基本的なプロンプトインジェクションの流れ
      • 不正な動きになってしまう入力を考える
      • 自然言語ではない特殊な文字を使う
      • 既知のLLM解析メカニズムを悪用
      • 外部リソースにアクセスするようなサービスの場合、その外部リソースそのものに細工をする
  • プロンプトインジェクションのデモ

    • PwCのレッドチームが作ったチャットボット
    • レッドチームの注文を追跡するようなもの
    • LLMは受け取った自然言語をもとにデータベースにクエリして、結果をユーザーに返す
    • アプリにログインすると、ユーザーIDに紐づいたトランザクションと注文のみを表示できるような仕組み
    • ただ、チャットボットにUserIDのカラムやデータベースの構造を聞くと、答えてくれる
    • プロンプトインジェクションについての知識も聞いてみる
    • 自分のものとは異なるユーザーIDの情報を表示するようなプロンプトインジェクションを実行すると成功
  • プロンプトインジェクションへの対策

    • サニタイズ
    • プロンプトエンジニアリング
      • AIの役割、制限を設ける
      • 特定の出力を避けるようなトレーニングをAIにさせる
    • アクセス制限
      • ユーザー認証
    • モニタリングと監査
      • 対策というより、対策を行うためにモニタリングは必要
      • ユーザーインタラクションのログとAIの応答ログを記録しておくこと
    • 敵対的なトレーニング
      • 敵対的なプロンプトでトレーニングすることで、悪意のあるプロンプトへの耐性を上げる
  • まとめ

    • AIに対する攻撃は日々高度化しているし、AIサービスも増えている
    • 今回紹介した以外にも、バックドア攻撃やモデルの盗用などといった攻撃もある
    • AIレッドチームとしても、今後のAIを使ってAIの脆弱性を特定するといった使い方の発展を望んでいる
    • 戦略的なセキュリティ評価として、レッドチームのような取り組みは有効な対策になると考えている
    • 今回紹介したレッドチームのガイドラインなどを公開することで、業界全体のベースラインの底上げになると考えている

質疑応答

  • AIレッドチームのサービス展開はしているか?展開している場合、話せる事例などあるか?
    • PwCはAIレッドチームのサービスは顧客に展開している
    • ただ社内外問わず、現在社外に話せる事例などは無い
  • AIモデルの認証と認可に関する対策はあるか?どのようなものか?
    • 多くのホワイトリスト、一部のブラックリストを用いて行なっている

感想

AI専門のレッドチームの話ということで、非常に興味深い話でした。

今回はプロンプトインジェクションにフォーカスを当てた話でしたが、実際にレッドチームとしてAIサービスを評価する際に3つのリスクのいずれかからスコープを決めて行うという話は勉強になりました。
デモはPwCレッドチーム製のチャットボットを使った簡単なものでしたが、サニタイズなどプロンプトインジェクションへの対策を行なっていないと簡単に個人的な情報が抜かれてしまうという分かりやすいもので良かったです。

質疑応答の中で現在はまだ具体的に話せる事例が無いとのことでしたので、今後どこかでそのようなお話も聞けることを心待ちにしています。

以上、べこみんでした。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.