[レポート] Responsible AI: From theory to practice (2/2) – Google Cloud Next ’20: OnAir #GoogleCloudNext

Mr.Mo

2020.09.23

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、Mr.Moです。

現在、2020年7月14日から9月8日までの数週間にわたってGoogle Cloudのデジタルイベント『Google Cloud Next ’20: OnAir』が開催されています。

当エントリでは、その中から「Cloud AI」シリーズのセッションとして公開された『Responsible AI: From theory to practice』の内容をまとめてみたいと思います。（独自の解釈なども含まれると思いますのであらかじめご了承ください）

なお、このセッションのレポートは内容が長くなったので２つに分けました。前半は下記をご参照ください。

Responsible AI(責任あるAI)のケースステディ

Responsible AI(責任あるAI)のケースステディ
有害となる可能性のある使用事例がある製品への対応

ここからはGoogleが実際に顔認識で発生したケーススタディから問題が発生した際に、原則を運用するために導入したレビュープロセスを通じて、どのようなアプローチをしてきたかを見ていきます。

Celebrity recognition が利用可能に
2020年、他テクノロジー企業にも見られる顔認識に対する制限や撤退の動き(有識者の功績による)
クラウドと顔認識においてGoogleが実践したAIの原理(内部レビュー、外部ベンチマーク、専門家の意見、影響を受けた人々の意見、正確性を評価)

2019年秋にローンチされたCelebrity recognitionを例に見ていきます。これは人気俳優やスポーツ選手を特定することができるものですが、2016年初頭需要があったにも関わらず顔認識をCloud Vision APIで提供することを見送っています。2017年に顔認識はGoogleの不公平性の定義において、潜在的に不公平なバイアスの懸念があるとしました。そして、2018年には汎用の顔認識APIを当面は提供しないことを宣言しています。2020年にいたっては他テクノロジー企業も顔認識に対して制限や撤退の動きをみせています。ではGoogleがCelebrity recognitionをローンチするまでに何をしていたかというと、顔認識技術の綿密なレビューを行っていました。このレビュープロセスは社会的背景すら考慮した幅の広い内容で、内部の有識者だけでは足りないことに気づいた時には外部の有識者も取り込んで、様々な有識者のもとあらゆる視点でのチェックプロセスを実施していたのです。また、影響を受ける人々がいるということ、その意見を取り入れること。全てのステップでこういったことを考慮することがAIの原則に沿った意思決定を行うためには必要だとGoogleは言っています。

社会的コンテキストが重要(2015,2016年の映画における有色人種の出演はごくわずか、2017年に白人主演映画より60%以上の総収入を記録)
人権デューディリジェンス
人権影響評価(HRIA)

国連を通じた普遍的な人権宣言を尊重し、Googleは人権デューディリジェンスこそもっとも行わなければならないものの１つと位置づけています。さらに、この評価を行うために外部の声を求めたいとも考えていました。そこでGoogleはBSR(Business for Social Responsibility)という組織を通じて人権影響評価(HRIA)と呼ばれるプロセスに参加しました。BSRが公開しているレポートによりテストと公平性分析を行う必要がある場所、ソリューションに追加の監督が必要な箇所が明らかになり、汎用的な顔認識APIを提供しないという決定を検証することができたのです。BSRによって、提供する製品を大幅に改善することができたと言っています。

3回に渡って実施された公平性・テスト
肌の色ラベルの正確性
時間の経過とともに不足していたギャラリーデータセットの画像

3回実施された公平性・テストの詳細を見ていきます。この結果、トレーニングデータセットに矛盾があることがわかり、徹底的に調査を行っています。肌の色ラベルの正確性に疑いがでてきました。そこで皮膚科学的なアプローチも用いて肌の色を３つに分類しカテゴリの変更を行うなどすることで誤差を小さくしていきました。さらに調査を進めていくと少数の俳優においてほぼ100%の誤認識があることが発見され、ここでも詳細にギャラリーとテストセットを1つずつ見て何が問題なのかを見ていきました。すると、大人の俳優が何年も前に演じた若いキャラクターだと認識できていなかったことがわかり、手でラベリングすることでこの問題を修正しています。

人の性別を外見から推測することはできない
外見から判断することによる不当な偏見を助長する可能性
Googleが取った行動、APIから性別ラベルの削除

ただし、先程の例は年齢の問題に注目して欲しいのでは無く、実際に何が重要なのかを示す一例だったということです。AIの責任ある開発、倫理的なAIについて、一般的に利用可能な製品であるGoogle Cloud Vision APIの2つの問題にGoogleがどのように対応したか見ていきます。とあるGoogle社員がAPIで自分自身の画像を実行したところ、性別を間違えた結果が返ってきました。Google社員はこの問題を製品チームに報告し、問題の調査が開始されました。すると、このような性別の誤認識は人間やモデルがその人の外見から性別を推測できないために起きたのだと、外見は性別を評価する際の決定要因では無いことに行き着きます。さらに、こうした事象は男性や女性に見えない人、またはジェンダー不適合者を制限したり、害したりする不公平な思い込みを悪化させたり、作り出したりする悪影響を及ぼす可能性があります。そのため、Googleでは人の性別を外見から推測することはできないという決定を下し、Cloud Vision API から男性と女性のラベルを削除する対応にいたっています。

社会的なコンテキストを理解することがいかに重要か

次は最後の例です。2020年にGoogleのVision APIがエスカレートした結果で社会的なコンテキストを理解することがいかに重要であるかを示しています。ここには、黒人と体温計が銃器のラベルを返している画像とアジア人と体温計が電子機器のラベルを返している画像があります。また、体温計を持った黒人の写真を意図的に肌が薄く見えるように操作し、銃から道具へとラベルを変えたものもあり、これも深く心を痛める結果となり、社会的コンテキストの一部を強調しているといえます。黒人男性は白人男性の6倍近く投獄される可能性があり、2001年に生まれた黒人の少年の3人に1人、ラテン系の少年の6人に1人が刑務所か刑務所に入ると予測されている情報もあります。人種的正義、人種的暴力、制度的人種差別のこの現実を技術的分析から切り離すことはできません。この時GoogleではExplanations AI(説明可能なAI)を使ってこの問題の根本原因を詳細に評価し、ラベルをより正確に返すように信頼度のしきい値を調整することで、将来的にこのようなことが起こる可能性を大幅に減らしました。この例では、結果が有害だったからといってモデルの精度や安定性だけが問題であるというのでは不十分であり、もっと広いコンテキストの中に問題は潜んでいるということでした。