[レポート] ディープフェイク、オーディオフェイク、そしてメディアの未来 #MLS210-5 #reinvent
オペレーション部 江口です。
みなさんはディープフェイクという言葉をご存知でしょうか。ディープラーニングなどの機械学習の技術を用いて、まるで本物のようなフェイク画像・映像を作成するような技術を指します。また、同様に偽の音声データを生成する「オーディオフェイク」も現れはじめています。
情報が拡散しやすいSNSの普及も相まって、こうしたフェイクコンテンツによる誤った情報がすぐに人々の間に拡散してしまう、という問題が近年深刻となってきています。
本記事は、re:Invent2019におけるこの問題についてのセッション「Deepfakes, audiofakes, and the future of media (MLS210-5)」のレポートです。
スピーカーはAI FoundationのVP・Delip Rao氏で、ディープフェイク/オーディオフェイクの課題、それに対する同社およびそのパートナー企業の取り組みについての解説が主な内容でした。以後、内容のご紹介です。
概要
ディープフェイク、すなわちAIで生成された画像は、最近までアーティストとスタジオでしか行えなかったような画像およびビデオの加工を行なって、多くの人の想像力を捕らえてきました。ディープフェイク、そのオーディオ版であるオーディオフェイクには、現実を現実と思わせず、フェイクなものを現実のものとして見せる「情報障害」を引き起こす可能性があります。この講演では、誤った情報をマルチメディアで広めるフェイクを文脈化し、ディープフェイクとオーディオフェイクを検出するための最新のソリューションを検討します。
講演者
Delip Rao氏(Vice President of Research, AI Foundation)
動画
内容
ディープフェイク/オーディオフェイクによる信用の危機
- ソーシャルメディアでは誤った情報の流布が問題になっている
- 今日、ディープフェイクは広範な問題となってきており、どんなビデオコンテンツが偽のものでも驚かない(見分けがつかなくなっている)
- 見るものを信用できなくなっている
- 聞くものにしても同様に信用できない。オーディオを加工して偽の音声を作成するAudioFakeが登場している
- これらにより、信用の危機が生じている。信用の危機は2つの側面がある。
- フェイクが現実に見えてしまう
- 現実が現実と見えなくなってしまう
- ある情報を見て「これはフェイクだ」と考えたとしても、どう反論すればいいのだろうか?それが課題
フェイクの歴史
- (画像を加工するような)フェイクは、実際のところ新しいものではない。
- 上の画像のうち、左のリンカーンの絵は(アメリカの)学校ではよく見られるが、もとはリンカーンを描いた絵ではなかった。
- リンカーンの立っている全身像を飾りたいと考えた人たちが絵を探したが、リンカーンのそのような姿を描いた絵を見つけられなかった
- そこで、右にある(欲しいポーズを取っていた)ジョン・カルフーンの絵から顔だけをリンカーンに入れ替えて左の絵を作成した(参考)
- 近年ではPhotoshopの登場により画像の加工は容易になった
-
さらに、画像を一から生成する技術もここ数年で大きく進化している
- 2013年:白黒の画像、低解像度であまり詳細に顔を生成することができなかった
- 年々進化し、今はかなりリアルに人の顔を生成することができるようになっている
SNSの課題
- SNSにより情報が一気に拡散されるようになった
- 情報を入手することも、シェアすることも容易
教育の欠落
- インターネット上のメディアをどう消費すべきかを教えるような教育を我々は受けてきていない
誤報のシンギュラリティ
- 画像の生成技術の急激な進化、SNSの台頭、情報の消費についての教育の欠落、これらの要素が合わさって大きな問題を引き起こしている
- これを自分(Delip氏)は「誤報のシンギュラリティ(Misinformation singularity)」と呼んでいる
- 見るものを何も信用できない状態
AI Foundationの取り組み
- 2020年のアメリカ大統領選挙に備えたReality Defender 2020を立ち上げ
- 選挙に関する映像/音声などのフェイクを検知する
- ゴール
- 最新のAI/フォレンジック技術を本番環境に持ち込む
- 学術機関、テック企業、政府、メディア/エンターテイメント企業など、多分野と連携する
- どんな人でもアクセスできる/セルフサービスで利用できるツールを提供する
- 誤報についての先進的な研究のためのデータセット/リソースを提供する
FaceForensics
https://github.com/ondyari/faceforensics
- ディープフェイク画像を検知するための画像情報のデータセット
- 1400万の画像を収録
- Raw, High, Lowの3種類の画質を提供
- 143人の参加者を利用して学習
- フェイク画像を検知するだけでなく、元画像から加工された箇所の特定にも取り組んでいる
ForensicTransfer
- 未知の対抗策(=新たなフェイク)に対処する
- 検知技術に対抗して新たなフェイクコンテンツの生成方法が現れる
- 学習したモデルを未知の技術に適用できるよう「転移学習」のアプローチを行なっており、これを「ForensicTransfer」と呼んでいる
- 上記の画像はForensicTransferの簡単な例。インテリアに興味があり森など画像を探している人をターゲットとしてミスリードを行う、自然の公園のフェイク画像が生成されているとする。これは新しいフェイクの例。それをいちはやく検知するために、顔のフェイク検知用学習モデルを自然の画像に簡単に適用できるようにする。
その他のアプローチ
- 動画から人物が喋っているときの発話の音と頭の動きの傾向・相関を学習する
- 頭の動きが傾向、発話の音が異なる場合に、別人物の動画で顔を差し替えている可能性がある、と推定できる
- 人物のそれぞれの表情を学習するアプローチも行なっている
オーディオフェイクの検知
- 畳み込みネットワークを利用し、マルチタスクの学習、転移学習を行なってオーディオの加工を検知
- オーディオフェイク検知用データセット
- 50万の音声例
- 2.6万人の音声を収録
- 年代、性別、(英語の)アクセントの異なる多様な層のデータ
- 12月に公開予定
メディア消費に対する教育
- 技術はパズルの1ピースにすぎない
- パズルの他のピースは教育とポリシー
- 先に話したように、メディアをどう消費すべきかを教えるような教育を自分は受けていない
- しかしこれからそのような教育コンテンツを作ることはできる
- そのコンテンツの元のソースはどこかを確認する
- 特定のバイアスがかかっていないかを見定める
- その記事について、他のソース/他のサイトではどのように書いているのかを比較する
- 輝かしい教育コースの例として『Calling Bullshit』が挙げられる
- ワシントン大学の教授が立ち上げたコンテンツ
- 高校レベル、大学レベルなどさまざまなレベルの多様な(デマを見破るための)情報教育の教材を提供している
- 誤った情報を自分で特定できるようになることがこうした教育のゴール
ポリシー
- 情報の安全性をどうすれば確保できるか?
- (フェイク情報を流さないことを)強制することはできるのか?
- 誤った情報の流布に対する法律/ポリシーの整備について、専門家たちが取り組みを行なっている
- しかし、偽ニュースに対して過剰に反応しすぎることは危険が伴う
- 未知の、一般には理解されないような情報がその時は「嘘だ」と思われても、数年後にテクノロジーの進化で実現されることもある
- そのため過剰な反応はイノベーションの阻害につながる可能性もある
最後に
- ディープフェイクは今ここにある課題である
- 普通の馬の走る動画をシマウマに加工したり、昼の画像を夜にしたり、人物が話すリアルな映像を一から生成したり、といった技術がAIのプロジェクトの一環として開発されている
- インターネットでこうした技術を利用するアプリケーションを公開すれば、それはこうした技術が教育やエンターテイメントに影響を与えることは想像できる
- そのため、我々は自己満足せず、責任をもって行動しなければならない
感想
ディープフェイクとそれに関連してのSNSなどの課題、それについてどう取り組むか、という点についてよくまとまったセッションだと感じました。 刺激的な情報であるほど拡散しやすい現状では、刺激的なフェイクニュースの発生を抑えることは難しいと思いますが、しかし放っておいて良い問題でもありません。セッション内の指摘の通り、技術だけでなく教育やポリシーの整備なども推進して、社会全体でこの問題について取り組んでいくことの重要性を改めて感じました。
以上、ディープフェイクに関するセッションのご紹介でした。