【レポート】ML Security on AWS #AWSSummit

AWS Summit Tokyo 2019

2019.06.13

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、Mr.Moです。
2019年 6月 12日(水) 〜 14日(金) 幕張メッセにてAWSに関する情報交換やコラボレーション、学習を行うことができる日本最大級のカンファレンス AWS Summit Tokyo 2019が開催されています。

AWS Summit Tokyo 2019

本記事では、セキュリティを考慮した機械学習の開発・運用プロセスについて語られるセッション『ML Security on AWS』についてレポートしたいと思います。

セッション概要

機械学習を活用するシステムが増えるにつれ、セキュリティを考慮した形で機械学習の開発・運用プロセスを回すかというのが、さまざまな組織で課題となってきつつあります。本セッションでは、機械学習でもちいるデータの権限管理、プライバシーを考慮したデータの持ち方、またデータのラベリング・学習・推論を AWS 上でセキュアに実施するための方法についてご紹介します。

スピーカー

アマゾンウェブサービスジャパン株式会社
技術統括本部
ソリューションアーキテクト

志村誠

セッションレポート

機械学習プロセスにおけるセキュリティのポイント

考慮すべき５個のセキュリティ。セキュリティの担保だけを考えるのではなく生産性もいかにあげられるかがポイント。

通信＆保存のデータ暗号化

暗号化した形で通信を行うことはもちろん、データの置き場所に関してもそれぞれのサービス毎に多彩なセキュリティの仕組みを持っている。実際の暗号化の際にはKMS(鍵管理サービス)による鍵管理が行われる。KMSでは外部から持ってきた鍵をインポートして管理することも可能。

保存のデータ暗号化でS3に関しては、SSE-KMSを使って鍵管理をするのがおすすめ。暗号化の場所はクライアントサイド、サーバーサイトの２択あるが、サーバーサイドで管理しておけば大量のデータがあった際でもサーバーサイドで必要なデータのみ絞り込むことが可能。鍵の管理方法は３種類、S3のビルトイン機能による鍵管理はセキュリティ的に少し弱いS3へのアクセスができてしまえば復号が可能なため、CSE-KMSやSSE-KMSであればS3のビルトイン機能と２段構えの鍵管理の構成を実現できていることに。CSE-KMSはKMSの基盤管理がユーザに発生するので負担は増える。

権限管理

データに対する最小権限の原則。やりたいことに対して必要最小限の権限をあたえる。あたらしく権限が必要なさいには最小限の追加を行う。さらに定期的な権限の適正チェックを実施する。

同じアカウント内で細かく権限を制御するのは管理者の負荷があがる問題がある。そもそもアカウントを分けることで管理者の負荷をあげずにすむ。その後は必要なデータにのみアクセスできる仕組みを導入すれば良い。

データを管理する際のもう１つの切り口として、データの中身に注目するというのがある。リスクがあるデータとそうでないデータがあり、特にリスクが高いのはパーソナルデータ。そういった観点でデータを分類すると対応すべきデータと対応する必要のないデータが見えてくる。

閉域に閉じた環境

VPCでクローズドなネットワークを構築する。クローズドなネットワークからエンドポイント経由でアクセスできるようにできるので、この構成であればパブリックなインターネットを一切通らずにVPCとS3通信を実現できる。ただしなんでもかんでも閉域網に閉じてしまうと運用コストはあがるのでトレードオフを考える必要はある。