[CODE BLUE 2019]DDIR: ダークウェブの研究を目的としたオープンソースデータセット[レポート] #codeblue_jp

CODE BLUE 2019「DDIR: ダークウェブの研究を目的としたオープンソースデータセット」についての参加レポートです。非常に参考になるデータセットが公開されているのでぜひ活用されてほしいです！

CODE BLUE

#セキュリティ

#CODE BLUE

臼田佳祐

2019.10.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、臼田です。

『世界トップクラスのセキュリティ専門家による日本発の情報セキュリティ国際会議』でありますCODE BLUE 2019に参加していますのでレポートします。

このブログは下記セッションについてのレポートです。

DDIR: ダークウェブの研究を目的としたオープンソースデータセット Presented by 新井悠

この10年、機械学習の世界では、データセットを利活用することで数多くの成果があがっている。実際に国際的な学会では、データセットの引用数が急激に増えつつあることからその成果は明らかである。しかし、セキュリティ領域におけるコミュニティの中では、そのようなデータセットが公開されることはこれまであまりなかった。この講演では、ダークウェブと呼ばれるオーバーレイネットワークをクローリングした結果に対して、違法物品の取引サイトについてラベリングしたオープンソースデータセットを紹介する。このオープンソースデータセットによって、警察といった法執行機関や研究者が機械学習を使った対策などを開発することに対して貢献することができるだろう。

レポート

(立ち見だったため断片的なメモレベルであることをご了承くださいm(_ _)m)

DDIRはダークウェブ Researchのオープンソースデータセット
背景
- ダークウェブには本当になんでも売っている
- 攻撃するSaaSもある
- 違法取引をするサイトもある
- 危険性が訴えられるようになったが、統計的なデータなどがなくわからない
ダークウェブはエコシステム
- silk roadは違法取引のサイト
- 最初の運営者が検挙されてすぐに2.0が立ち上がる
  - 次がリローデッド
  - 2017から3.1
- 無くならない
- どうするか
- 監視網を強くする
  - 人がずっとやるのは非効率
- 自動化が必要
- 違法取引サイトを機械学習で自動検知するためのデータセットを作ったのでその話をする
データセットの話
- 機械学習の成果を作るためにはデータセットが必要
  - まずはデータがないと機械学習出来ない
  - 機械学習を行う上での１つの障壁
  - カンファレンストップレベルのイベントでのデータセットの引用数の相関がある
- MNISTは有名なデータセット
  - 一番重要なのはMNISTがオープンで誰でも使えるところが重要
- セキュリティ業界ではemberが有名
  - PEファイルのデータ
- 他にもSQLiやTwitterボットのデータセットなどもある
- DDIRはこういったものと同系列
DDIRの特徴
- 2GB
- csv形式
- 違法サイトのラベル付け
- 4340の.onion sitesをクロール
- 41%ぐらい違法サイトがあった
- 102136の特徴 TF-IDF
- MITで提供
ラベリングの基準
- 不正な薬物
- サイバー攻撃請負
- 偽のクレカ
- 児童ポルノ
- 海賊版販売
- 犯罪行為(マネロンなど)
ベクトル化したデータなのは機械で扱いやすいように
google colabでデモ
- ノートブックもGithubに上げてある
- そのまま使って91%ぐらいの精度が出る
注意
- 永遠に検出できるわけではない
- エコシステムで変わっていくので
- 特徴はコンスタントにメンテナンスされるべき
- 研究者や捜査官がモチベーションを持って取り組んでほしい
- 特徴量減らして軽量にするなどの応用もできる
Githubのリポジトリ
- https://github.com/nenaiko-dareda/DDIR