[レポート]Agentic AIによる実践的ペネトレーションテスト自動化 - CODE BLUE 2025 #codeblue_jp #codeblue2025

[レポート]Agentic AIによる実践的ペネトレーションテスト自動化 - CODE BLUE 2025 #codeblue_jp #codeblue2025

CODE BLUE 2025で行われた「Agentic AIによる実践的ペネトレーションテスト自動化」というセッションのレポートです。
2025.11.18

こんにちは、臼田です。

みなさん、セキュリティ対策してますか?(挨拶

今回はCODE BLUE 2025で行われた以下のセッションのレポートです。

Agentic AIによる実践的ペネトレーションテスト自動化

既存のLLMベースのペネトレーションテスト研究は、自律的な思考と行動を組み合わせたマルチエージェントシステムの設計により、一定の成果を挙げています。しかし、多くは仮想ラボ環境での検証に留まり、実務環境への適用や、偵察からレポート生成までの全フェーズ自動化に関する定量的な評価は十分とは言えません。
本研究は、偵察・脆弱性分析・エクスプロイト・レポート生成までを含めた実務レベルのペネトレーションテスト自動化の実現を目的としています。昨年度実施した明治大学高木研究室との共同研究(arXiv:2502.15506v1)で得られた知見をベースに、モダンなAgentic AIによるマルチエージェントシステムを構築しました。評価系には、現場経験の豊富なペネトレーションテスターと連携し、実務に即した環境を用意しました。
本講演では、AIによるペネトレーションテスト自動化の最新動向と、具体的な導入効果を提示します。まず、LLMが登場した2023年以降の研究の流れを概説し、メインパートでは、構築したシステムを従来型のツールや人手による診断と比較した性能評価を報告します。評価にはHackTheBoxに加え実務を模した環境を用い、再現性・カバレッジ・効率化の度合いを定量的に比較します。また、ローカルLLMによる自動化の可能性にも触れます。 この講演を通じて、参加者はAIエージェント導入の効果と課題を深く理解し、自社のセキュリティ診断に応用するための具体的な指針を得られるでしょう。

Speakers
豊⽥ 宏明

レポート

  • 大規模言語モデル登場以前からAIに付いて研究していた
  • 本格的にこの分野に関わったのは今回から
  • ペネトレーションテストの自動化について
    • 近年非常に注目されているテーマ
    • 特にAgentic AI二注目する
    • ペンテストに必要な計画やセキュリティの知識、ツールなど組み合わせる
    • ペンテストに特化したAgentic AIを構築することは明確な強みがある
    • LAC社内には専門のペンテストチームがあるため彼らの協力についても話す
  • はじめにLLM支援のペンテストについて
    • ペネトレーションテスト全体の流れ
      • 問題を見つけて改善する許可されたテスト
      • 調査・分析・エクスプロイト・レポート
      • 様々な攻撃を組み合わせる
    • 主要な課題
      • 多くの作業が手作業
      • 専門性が色々必要
      • ツールや情報が分散している
      • 試行錯誤も多い
      • 同じ結果を安定して再現が難しい
      • レポート作成も時間がかかる
      • LLMを活用した自動化・効率化が必要
    • 近年のLLMにより自動化研究が活発
      • 最近はツール実行など自律的な動きもする
      • PentestGPTなど専門の研究が行われている
      • 現在では推論強化やOSS登場などでより活発に
    • PentestGPT
      • 2023年8月に登場
      • LLM活用ペンテストの初期の研究
      • 3段階のモジュールで当時新しい
      • 初期研究の限界もあった
        • GPT-3.5のため実行が手動
        • 段階ごとの要約も必要
        • 外部知識が求められるものは正確性に限界があった
    • PenHeal
      • 2024年7月
      • 大きく進歩したのはコマンドの実行や結果の取得が自動か荒れた
      • RAGを利用して結果収集までできるように
      • バッチ生成のRemidiationモジュールも搭載
      • 課題
        • データベース依存が強い
        • ゼロデイや環境特有のものは難しい
        • 現実的な柔軟性が限られる
    • PentestAgent
      • 2024年11月
      • マルチエージェント
      • 役割ごとにエージェントを連携させてワークフロー全体を自律的に実行
      • 推論強化や2段階RAG
      • 知識ベースを継続的に充実させる
      • 課題
        • 複数の脆弱性を組み合わせてエクスプロイトチェーン構築は難しい
    • 研究した内容
      • PenHealを利用して拡張したもの
      • Hack The BoxのBoardLightをターゲットにした
      • どのようにコマンド実行生成ができたか?
        • 主要なタスクな自動作成されたコマンドで問題なく実行できた
        • 安定してコマンド生成できた
        • 難しかったのは機密情報の収集
          • ディレクトリパスの指定はLLMが苦手とする分野だと考えられる
    • Agentic AIと従来のAIの違い
      • 高度な処理のため自律的に計画を立て実行する
      • 単一エージェントでの動作ではなく複数を組みわせてメモリを共有するなど
      • これらはペンテストに役に立つ
      • 対策案の提案まで一貫性を持って実行できる
    • 研究
      • 一連の流れを実行する
      • ガバナンスを持つ
      • マルチエージェントで連携できるワークフローの実装
  • 実装とフレームワーク
    • 要件
      • ペンテストの計画実行レポートまで一貫して扱えるE2Eでできるように
    • アーキテクチャ
      • Planner/Executor/Verifierというメインのエージェント
      • Analyst/Guardianというサブエージェント
    • n8nを活用している
      • 強力なローコードツール
      • Agentic AIとの組み合わせがよい
      • セルフホストできるので安心して使える
      • ビジュアルワークフローで扱いやすい
      • 開発ペースが非常に早くAgent構築向けのものが増えている
    • Schema-Driven Context Management
      • アウトプットの固定
      • 進捗管理を計画的に
    • Analyst(Agentic RAG)
      • 複数のステップでマルチホップ推論を行う
      • 実装ではn8nでベクターDBと連携
      • 攻撃情報を参照してWebSearchも行う
      • 回答が不十分なら再度実行する
    • Guardian(安全とガバナンス)
      • 実行される全てのshellコマンドを評価する
      • スコープが適切か、破壊的な操作がないかなどがチェックされる
      • 現在はシンプルな実装
        • LLMの判断とルールベース
  • CTFで評価
    • 実務のペンテストとCTFでのペンテストは大きく違うのであくまで参考例
    • AutoPenBench
      • 33種類のシナリオ
      • オープンソース
    • 2つのKPIを参照
      • Success Rate
      • Progress Rate
        • どこまでできたか
    • タスクカテゴリ
      • Network
      • AccessControl
      • Web
      • Crypto
    • 今回はWebに絞っている
      • Webが実際の業務に一番使うため
    • 実行結果
      • ディレクトリトラバーサルは明確に苦手な分野
      • ベンチマークの問題というより現時点の実装だとこうなる
      • RCEはファイルアップロードやペイロード指定などはLLMがガイダンスなしだと難しい
  • 実環境での実行
    • CTFとは異なり設定も複雑で真価が問われる
    • どれほど異なるか?
      • 実務は契約があり対象範囲も限定的
      • ゼロデイや破壊的な操作はできない
    • ADの権限昇格に焦点を当てる
      • 一度侵入を許したあとのADの確認をしていくのは意義がある
      • 初期調査、水平移行、権限昇格を再現できる
      • 3つのシナリオ
        • 共有フォルダ設定ミス
        • GPP cpassword悪用
        • NTLM RelayRBCD Abuse組み合わせの権限昇格
      • バランスの良い検証セットだと考える
    • AutomatedLabを活用
      • IaCもあり簡単に作って壊せる
    • 最初のシナリオ
      • 共有フォルダの設定ミス
      • ペンテストと呼べるレベルではないが実務では非常に問題になる
      • 共有フォルダの中に設定ファイルやオフィス文章などを含んでいてドメインユーザーなら誰でも読める
      • 本当に危ない情報が普通に共有フォルダにあるもの
      • 結果は想定通りでLLMが得意とするもの
        • ファイル名やちょっとのテキストでどれが危険なものであるかすぐに見つけてくれる
        • そしてファイル数が多くても永遠と調査ができる
        • 実務ではこういったファイルの優先順位付けは非常に重要
        • ノイズだらけの状態から順位付けは時間短縮につながる
    • 2つめのシナリオ
      • GPPにあるcpasswordを使う
      • MS14-025で対処したが実際には古いGPOが残っていてファイルを読み取れる環境が少なくない
      • 今でも現実的にこの攻撃経路が存在する
      • このシナリオも想定通りに進行した
        • 公開されているAES Keyを使う
        • あらかじめどのツールを使えばいいかをモデルが判断できた
        • 問題解決というよりチェックリスト通りの動作
    • 最後のシナリオ
      • NTLM経由のRBCD Abuseで権限昇格
      • 手動で実行は大変
      • LLMで複数のシェルを並行して動かすのは大変だった
      • 攻撃チェーン自体はすべて成功した
      • 完全自動化にあと一歩届かなかったが手法自体の限界ではないと考えている
    • Agentic AIの導入の実効性を示せたと考える
  • discussion
    • 推論の性能は十分
    • 課題は実行について
    • モデル性能よりはソフトウェアエンジニアの課題に近い
    • 調整のロジックが重要
  • 将来
    • ローカルLLMの活用などを強化していきたい
    • MCPの活用
    • BloodHound-MCP-AI

感想

ペネトレーションにおけるAIの活用ではLLM自体の性能というより、全体の調整などのほうが問題になるというのは非常に面白い状態ですね。うまく活用していきたいですね。

この記事をシェアする

FacebookHatena blogX

関連記事