[ワークショップレポート] 責任あるAIの推進 – バイアスの評価と透明性について #reinvent #AIM342

2022.12.03

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

せーのでございます。

このブログでは2022/11/28(現地)より行われておりますAWS最大のカンファレンス「re:Invent 2022」よりワークショップ

Advancing responsible AI: Bias assesment and transparency

の様子をレポートいたします。

レポート

形式としては手書き文字の学習を通じて「バイアス」がどの程度存在しているかをみんなで話し合う、という内容でした。

まずは座学です。

  • AIは製品として、また組織内のツールとしてますます普及している
  • そこで一歩下がって「責任あるAI」について話している理由はこれが統計の話だから
  • 統計は一般のソフトウェアと違い、なれるためにアダプトする必要がある
  • アダプト、つまりこの形に適応するためにはこのAIというものを責任を持って使う方法を探さなくてはいけない
  • これについて世界中で議論が起こっていることは認識している

Dimentions of Responsible AI

  • プライバシーとセキュリティ: データやモデルが外部に流出しないこと
  • 公平性とバイアス: AIシステムが異なるカテゴリの人たちにどれくらい影響を与えるか
  • 説明性: AIシステムのメカニズムについて理解し評価していること
  • 頑健性: AIシステムを確実に稼働させる仕組みを持つこと
  • 透明性: AIシステムに関する情報を利害関係者が充分に得た上で選択できるようにすること
    • 透明性は技術的なものであり上4つとは異なる
  • ガバナンス: 責任あるAIの実践を定義し、実施するプロセスを持つこと。組織の特性

  • 今日は公平性とバイアスに焦点をあてる

    • 実際にはバイアスについて、になるだろう
  • 技術的観点以前に「公平性とはなにか」を知っておく必要がある

  • 平等と公平については有名なイラストがある
  • 平等の例ではそれぞれに同じ大きさの箱を与えた
    • ある定義では公平だが一番小さい人は見ることができない
  • 公平の例ではそれぞれに「見ること」を許可し、それに必要な大きさの箱を与えた
    • これも公平の一形態
  • どのような指標を選ぶか、を考えていくとこの問題にぶつかる

  • AIシステムのパフォーマンスについて

  • 「AIシステムのパフォーマンス」というものはない
  • あるのは「特定の評価データセットにおけるAIシステムのパフォーマンス」だけだ
  • この違いは非常に重要
  • あるグループと別のグループでシステムがうまく動かない場合、それを解決するのに価値があるのか
  • もし問題が見つかったらその格差の根本的な原因は何なのか、をどう切り分けるか
    • 評価データセットの問題か
    • AIシステムの問題か

ワークショップ内容

  • 手書きの数字がある
  • この数字には様々な属性がある
    • 数字の種類
    • 色など
    • 曲線か、直線か
  • この数字が人だと仮定する
  • シナリオ
    • あなたはAIシステムのマネージャーです
    • ライブラリへのアクセスを許可することを目的としている
    • 番号は人である
    • 番号自身が自撮りした写真を元にアクセスするかどうかを決める
  • 個々の番号はライブラリへのアクセスを制限するような望ましくないバイアスを受けるのか
  • 人を数字に置き換えた事によりできるようになったこと
    • これらの数字を機械学習で訓練できる
    • 人間の問題のように感情的にならないので客観的な議論ができる
  • 不要なバイアスとは何をさすか
    • 格差があること(異なるグループの間でのシステムの性能にさがある)
    • 偏っている、と主張するには格差、性能、AIシステムを「定義」しなくてはいけない
  • 手順
    • ベースラインとなるデータセットで訓練を行う
    • それぞれの数字の正解率を見る
    • MAXスコアとMINスコアの差を測って「偏り」を定義する
    • 別なデータセットで同じモデルを評価して「偏り」は本当にあるかを確かめる
    • 別なデータセットで再訓練を行い偏りをなくす

考察

つまりこの実験は数字を人に見立てて、その属性(1,2,3,4などの分類、オレンジか青か、直線的か曲線的か)を人種や性別などのカテゴリグループに見立てて、機械学習のモデルが「公平に」結果を導くにはどう考えたらよいか、という思考実験です。

例えばこのまま与えられたデータセットでベーストレーニングを行うとこうなりました。

評価データは各属性、全て平等に揃っていることを確認しているのですが、結果「0」と「1」のスコアが高く「3」と「5」のスコアが低いです。

これを先程のシナリオに当てはめると「0さんと1さんはすんなりアクセスできるライブラリに3さんと5さんはなぜかアクセスを拒否されることが多い」となります。

ここでマネージャーとしてこれは「公平性」を欠いているのか、つまりバイアスがかかっているのか、を検討する、というワークショップになります。

まとめ

答えがでないことは事前に告知されていましたが、その中でも一定の成果は導き出すことができ、ほっとしています。

またこういったバイアスについての考え方は非常に重要で合理的だと思いました。偏りがあるから、じゃあ駄目なのか、と言う前に、その偏りを「定義」するところからはじめると思考がクリアになる、という経験をしました。非常に有意義なワークショップでした。