[レポート]Agentic AIによる実践的ペネトレーションテスト自動化 - CODE BLUE 2025 #codeblue_jp #codeblue2025

CODE BLUE 2025で行われた「Agentic AIによる実践的ペネトレーションテスト自動化」というセッションのレポートです。
CODE BLUE 2025
2025.11.18
こんにちは、臼田です。
みなさん、セキュリティ対策してますか？(挨拶
今回はCODE BLUE 2025で行われた以下のセッションのレポートです。
Agentic AIによる実践的ペネトレーションテスト自動化
既存のLLMベースのペネトレーションテスト研究は、自律的な思考と行動を組み合わせたマルチエージェントシステムの設計により、一定の成果を挙げています。しかし、多くは仮想ラボ環境での検証に留まり、実務環境への適用や、偵察からレポート生成までの全フェーズ自動化に関する定量的な評価は十分とは言えません。

本研究は、偵察・脆弱性分析・エクスプロイト・レポート生成までを含めた実務レベルのペネトレーションテスト自動化の実現を目的としています。昨年度実施した明治大学高木研究室との共同研究（arXiv:2502.15506v1）で得られた知見をベースに、モダンなAgentic AIによるマルチエージェントシステムを構築しました。評価系には、現場経験の豊富なペネトレーションテスターと連携し、実務に即した環境を用意しました。

本講演では、AIによるペネトレーションテスト自動化の最新動向と、具体的な導入効果を提示します。まず、LLMが登場した2023年以降の研究の流れを概説し、メインパートでは、構築したシステムを従来型のツールや人手による診断と比較した性能評価を報告します。評価にはHackTheBoxに加え実務を模した環境を用い、再現性・カバレッジ・効率化の度合いを定量的に比較します。また、ローカルLLMによる自動化の可能性にも触れます。 この講演を通じて、参加者はAIエージェント導入の効果と課題を深く理解し、自社のセキュリティ診断に応用するための具体的な指針を得られるでしょう。
Speakers

豊⽥ 宏明
 レポート大規模言語モデル登場以前からAIに付いて研究していた
本格的にこの分野に関わったのは今回から
ペネトレーションテストの自動化について
近年非常に注目されているテーマ
特にAgentic AI二注目する
ペンテストに必要な計画やセキュリティの知識、ツールなど組み合わせる
ペンテストに特化したAgentic AIを構築することは明確な強みがある
LAC社内には専門のペンテストチームがあるため彼らの協力についても話す

はじめにLLM支援のペンテストについて
ペネトレーションテスト全体の流れ
問題を見つけて改善する許可されたテスト
調査・分析・エクスプロイト・レポート
様々な攻撃を組み合わせる

主要な課題
多くの作業が手作業
専門性が色々必要
ツールや情報が分散している
試行錯誤も多い
同じ結果を安定して再現が難しい
レポート作成も時間がかかる
LLMを活用した自動化・効率化が必要

近年のLLMにより自動化研究が活発
最近はツール実行など自律的な動きもする
PentestGPTなど専門の研究が行われている
現在では推論強化やOSS登場などでより活発に

PentestGPT
2023年8月に登場
LLM活用ペンテストの初期の研究
3段階のモジュールで当時新しい
初期研究の限界もあった
GPT-3.5のため実行が手動
段階ごとの要約も必要
外部知識が求められるものは正確性に限界があった


PenHeal
2024年7月
大きく進歩したのはコマンドの実行や結果の取得が自動か荒れた
RAGを利用して結果収集までできるように
バッチ生成のRemidiationモジュールも搭載
課題
データベース依存が強い
ゼロデイや環境特有のものは難しい
現実的な柔軟性が限られる


PentestAgent
2024年11月
マルチエージェント
役割ごとにエージェントを連携させてワークフロー全体を自律的に実行
推論強化や2段階RAG
知識ベースを継続的に充実させる
課題
複数の脆弱性を組み合わせてエクスプロイトチェーン構築は難しい


研究した内容
PenHealを利用して拡張したもの
Hack The BoxのBoardLightをターゲットにした
どのようにコマンド実行生成ができたか？
主要なタスクな自動作成されたコマンドで問題なく実行できた
安定してコマンド生成できた
難しかったのは機密情報の収集
ディレクトリパスの指定はLLMが苦手とする分野だと考えられる



Agentic AIと従来のAIの違い
高度な処理のため自律的に計画を立て実行する
単一エージェントでの動作ではなく複数を組みわせてメモリを共有するなど
これらはペンテストに役に立つ
対策案の提案まで一貫性を持って実行できる

研究
一連の流れを実行する
ガバナンスを持つ
マルチエージェントで連携できるワークフローの実装


実装とフレームワーク
要件
ペンテストの計画実行レポートまで一貫して扱えるE2Eでできるように

アーキテクチャ
Planner/Executor/Verifierというメインのエージェント
Analyst/Guardianというサブエージェント

n8nを活用している
強力なローコードツール
Agentic AIとの組み合わせがよい
セルフホストできるので安心して使える
ビジュアルワークフローで扱いやすい
開発ペースが非常に早くAgent構築向けのものが増えている

Schema-Driven Context Management
アウトプットの固定
進捗管理を計画的に

Analyst(Agentic RAG)
複数のステップでマルチホップ推論を行う
実装ではn8nでベクターDBと連携
攻撃情報を参照してWebSearchも行う
回答が不十分なら再度実行する

Guardian(安全とガバナンス)
実行される全てのshellコマンドを評価する
スコープが適切か、破壊的な操作がないかなどがチェックされる
現在はシンプルな実装
LLMの判断とルールベース



CTFで評価
実務のペンテストとCTFでのペンテストは大きく違うのであくまで参考例
AutoPenBench
33種類のシナリオ
オープンソース

2つのKPIを参照
Success Rate
Progress Rate
どこまでできたか


タスクカテゴリ
Network
AccessControl
Web
Crypto

今回はWebに絞っている
Webが実際の業務に一番使うため

実行結果
ディレクトリトラバーサルは明確に苦手な分野
ベンチマークの問題というより現時点の実装だとこうなる
RCEはファイルアップロードやペイロード指定などはLLMがガイダンスなしだと難しい


実環境での実行
CTFとは異なり設定も複雑で真価が問われる
どれほど異なるか？
実務は契約があり対象範囲も限定的
ゼロデイや破壊的な操作はできない

ADの権限昇格に焦点を当てる
一度侵入を許したあとのADの確認をしていくのは意義がある
初期調査、水平移行、権限昇格を再現できる
3つのシナリオ
共有フォルダ設定ミス
GPP cpassword悪用
NTLM RelayRBCD Abuse組み合わせの権限昇格

バランスの良い検証セットだと考える

AutomatedLabを活用
IaCもあり簡単に作って壊せる

最初のシナリオ
共有フォルダの設定ミス
ペンテストと呼べるレベルではないが実務では非常に問題になる
共有フォルダの中に設定ファイルやオフィス文章などを含んでいてドメインユーザーなら誰でも読める
本当に危ない情報が普通に共有フォルダにあるもの
結果は想定通りでLLMが得意とするもの
ファイル名やちょっとのテキストでどれが危険なものであるかすぐに見つけてくれる
そしてファイル数が多くても永遠と調査ができる
実務ではこういったファイルの優先順位付けは非常に重要
ノイズだらけの状態から順位付けは時間短縮につながる


2つめのシナリオ
GPPにあるcpasswordを使う
MS14-025で対処したが実際には古いGPOが残っていてファイルを読み取れる環境が少なくない
今でも現実的にこの攻撃経路が存在する
このシナリオも想定通りに進行した
公開されているAES Keyを使う
あらかじめどのツールを使えばいいかをモデルが判断できた
問題解決というよりチェックリスト通りの動作


最後のシナリオ
NTLM経由のRBCD Abuseで権限昇格
手動で実行は大変
LLMで複数のシェルを並行して動かすのは大変だった
攻撃チェーン自体はすべて成功した
完全自動化にあと一歩届かなかったが手法自体の限界ではないと考えている

Agentic AIの導入の実効性を示せたと考える

discussion
推論の性能は十分
課題は実行について
モデル性能よりはソフトウェアエンジニアの課題に近い
調整のロジックが重要

将来
ローカルLLMの活用などを強化していきたい
MCPの活用
BloodHound-MCP-AI

 感想ペネトレーションにおけるAIの活用ではLLM自体の性能というより、全体の調整などのほうが問題になるというのは非常に面白い状態ですね。うまく活用していきたいですね。
[レポート]Agentic AIによる実践的ペネトレーションテスト自動化 - CODE BLUE 2025 #codeblue_jp #codeblue2025

レポート

感想

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS