
論文が示す生成AIの開発業務への影響力「The Effects of Generative AI on High-Skilled Work」の紹介
はじめに
今回は生成AIを使ったコーディングエージェントに関して約5000人に対する大規模評価実験を行った「The Effects of Generative AI on High-Skilled Work: Evidence from Three Field Experiments with Software Developers」という論文についてご紹介します。
生成AIツールとしてGitHub CopilotやCursor、Clineなどの導入が叫ばれる中、なかなか導入に踏み切れていない企業もあると考えます。導入にあたって上司や上層部へ費用対効果の説明を要求されることもあります。そこで、定量的な評価の情報として使えそうな論文があったので今回ご紹介します。
論文概要
タイトル:The Effects of Generative AI on High-Skilled Work: Evidence from Three Field Experiments with Software Developers
日本語訳:生成AIが高度なスキルを要する業務に与える影響:ソフトウェア開発者を対象とした3つのフィールド実験からの知見
以下は概要の意訳です。
この研究は、Microsoft、Accenture、および匿名のフォーチュン100企業におけるランダム化比較試験を通じて、生成AIがソフトウェア開発者の生産性に与える影響を評価したものです。これらの企業が通常の業務の一環として実施したフィールド実験では、開発者の中からランダムに選ばれたグループに、インテリジェントなコード補完を提案するAIベースのコーディングアシスタントが提供されました。個々の実験にはノイズがあるものの、3つの実験と4,867人の開発者から得られたデータを組み合わせた分析により、AIツールを使用した開発者の間でタスク完了数が26.08%増加(標準誤差:10.3%)したことが明らかになりました。特筆すべきは、経験の浅い開発者ほどCopilot利用率が高く、生産性の向上も大きかったという点です。
この論文ではCopilotの導入でタスクの完了数が約26%上昇したことを示しています。これは単純計算だと4人の開発者がいる場合、Copilotの導入だけで5人分の生産性が発揮されることを意味しています。ここからは具体的にどんな実験を行ったのか深掘っていきます。
本編
ここからは論文でどんな内容が研究されたのか以下の項目で確認します。調査フォーマットはこちらを参考にしています。
- 先行研究と比べてどこがすごい
- どうやって有効だと検証した?
先行研究と比べてどこがすごい
生成AIのいくつかの応用はすでに成熟し、既存の業務フローやコーディングに組み込まれてきています。ただ生産性向上に関して定量的な評価でなく、定性的評価が中心でした。この論文ではソフトウェア開発者を例として、生成AIが知識労働者の生産性にどのように影響するかを約5000人という大規模な対象について調査しています。また実験室などで固定化された課題を解くのではなく実務の中で評価されているのが注目すべき点です。
どうやって有効だと検証した?
実験では、GitHub Copilotへのアクセス権をMicrosoft、Accenture、および匿名のフォーチュン100企業の約5000人の開発者に付与して、2~8ヶ月の期間で実験は行われました。実験は処理群(Treatment)と対照群(Control)に分けて、それぞれの群に偏りがないかPull Request作成数やビルド数などの平均と標準偏差で確認し、最後にCopilotを利用した処理群と対照群のPull Request数、Commit数、ビルド数、ビルド失敗数を比較し有効性を確認しています。それぞれの実験結果のサマリは以下にまとめています。実験結果のサマリには重み付き操作変数(W-IV)の結果についてのみ書いています。
Microsoftでの実験
- 実験期間:2022年9月第1週から2023年5月3日までの約8ヶ月間
- 実験内容:主に米国の1746人のうち50.4%がCopilotのアクセス権を付与
- 実験結果サマリ:PR作成数が27.38%、Commit数が18.32%、ビルド数が23.19%上昇。ビルド成功率が-1.34%とわずかに減少
Accentureでの実験
- 実験期間:2023年7月最終週から2023年12月の約4ヶ月
- 実験内容:320人の内61.3%がCopilotへのアクセス権を付与
- 実験結果サマリ:PR作成数が17.94%、ビルド数が92.40%上昇。Commit数が-4.48%、ビルド成功率が-17.40%減少
匿名企業での実験
- 実験期間:2023年10月から約2ヶ月間
- 実験内容:3,054人に対してランダムな日付でCopilotのアクセス権を付与
- 実験結果サマリ:PR作成数が54.03%上昇
総合的な結果
- PR作成数が26.08%、Commit数が13.55%、ビルド数が38.38%上昇。ビルド成功率が-5.53%とわずかに減少
考察と所感
AIベースのコーディングアシスタントはおそらくCopilotで、実験時期的には、おそらくGPT3.5相当のモデルが提供された際の結果と考えられます。GPT3.5の時点で約26%の生産性の向上が見れたということになります。現在はるかに性能が高いGPT-4oやClaude Sonnet 3.5/3.7などを利用可能なので、さらなる生産性の向上が期待できます。気になる方は是非論文本体を読んでみてください!
もしGitHub Copilotなどの導入に悩まれる方がいたら参考になれば幸いです。