ChatGPT APIリリースに伴ってOpenAIのAPIデータ利用ポリシーが改定されたので読んでみた

ChatGPT APIのリリースと同じタイミングでOpenAIのAPIデータ利用ポリシーが改定されました。この記事では、このOpenAIのポリシーを読み込んでご紹介したいと思います。
2023.03.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

危機管理室 江口です。

ChatGPT APIがリリースされて話題ですね。料金も従来のGPT-3のAPIに比べて安くなっているようで、ChatGPTをよりプログラムで利用しやすくなるかと思います。

さて、このリリースとタイミングを併せるように、2023年3月1日付けでOpenAIのAPIでのデータ利用ポリシーが改定されました。

この記事では、OpenAIのデータ利用ポリシーについてちょっと解説していきたいと思います。 なお、ChatGPT API自体の概要については、DA事業本部中村による記事がすでに上がっていますので、そちらをご参照くださいませ。

まとめ

  • OpenAIのAPIを利用する場合、オプトインしない限りユーザーが送信したデータが学習に利用されることはない、と改定されました。
  • いっぽう、Web上でのChatGPTについては、(2023年3月2日現在は)引き続きオプトアウトしない限り入力データは学習に利用される可能性がある仕様なので、この点は留意が必要です。
  • また、学習に利用されなくとも30日間は送ったデータは不正利用などの監視・調査を目的としてOpenAI内で保持されます(悪用の可能性が低いユースケースの場合はオプトアウト可能とのこと)。この点にも留意しましょう。
  • APIの利用についてはDPA(Data Processing Addendum / データ処理補遺)の締結が可能です。ただしOpenAI側の書式に従う必要があるようです。

OpenAI APIデータ利用ポリシー改定の概要

冒頭に挙げたOpenAI APIのData usage policyのページでは、2022年3月2日現在、上記のページでは以下の情報が冒頭に表示されています。

Starting on March 1, 2023, we are making two changes to our data usage and retention policies: OpenAI will not use data submitted by customers via our API to train or improve our models, unless you explicitly decide to share your data with us for this purpose. You can opt-in to share data. Any data sent through the API will be retained for abuse and misuse monitoring purposes for a maximum of 30 days, after which it will be deleted (unless otherwise required by law).

ざっくり要約すると、APIを経由して顧客から送られたデータ について以下のように取り扱われるようです。

  • 送られたデータは原則として学習に利用しない(学習のデータを共有してもいい、という場合はオプトイン)
  • 不正利用などの監視のため、30日間は送られたデータを保持する(その後は削除。ただし法律で義務付けられている場合を除く)

オプトインしない限りは入力した内容がトレーニングに使われない、というのは業務利用を考えているユーザーにとっては安心できる情報ですね。 とはいえ、APIを経由して顧客から送られたデータ(data submitted by customers via our API)と書かれている点が気になりました。API経由ではない場合、どうなるのでしょう? また、変更の2つ目で「送信データは30日間は保持する」と記載されている点も気になる方がいるかもしれません。 以下、この2つの点についてもう少し掘り下げてみたいと思います。

送信データの学習への利用

API経由ではない場合のデータの扱いはどうなるのか?という点については、ポリシーのページを少し読んでいくと答えが書いてありました。

Note that this data policy does not apply to OpenAI's Non-API consumer services like ChatGPT or DALL·E Labs. You can learn more about these policies in our data usage for consumer services FAQ.

ChatGPT / DALL-E labsのような非APIのコンシューマサービスにはデータポリシー、すなわち上に挙げた「オプトインしなければ学習しない」「30日データを保持するがその後削除する」といったポリシーは適用されない、ということですね。こういたコンシューマーサービスでのデータ利用のポリシーについては、文章内で紹介されている「Consumer services FAQ」に記載しているようです。

上記のページでは、以下のFAQが掲載されてました。

Does OpenAI train on my content to improve model performance?

For non-API consumer products like ChatGPT and DALL-E, we may use content such as prompts, responses, uploaded images, and generated images to improve our services. Please refer to this article to understand how this content may be used to improve model performance and how you can opt-out. You can request to opt out of having your content used to improve our services at any time by filling out this form. This opt out will apply on a going-forward basis only.

ざっと訳すと、「ChatGPTやDALL-Eのような非APIのコンシューマサービスでのコンテンツ(入力プロンプトやその応答、アップロードした画像や生成した画像)はサービスの向上のために利用するかもしれないよ、利用されたくない場合はフォームから申請してオプトアウトできるよ」ということのようです。 なおこの記事からさらにリンクされている記事 を読むと、個人識別情報(PII)は削除したうえで学習に利用されること、サンプリングされた少量のデータのみ学習することなども記載されています。

We remove any personally identifiable information from data we intend to use to improve model performance. We also only use a small sampling of data per customer for our efforts to improve model performance. We take great care to use appropriate technical and process controls to secure your data.

送信データの保持

「送信データは30日間は保持する」という情報の詳細も確認してみたいと思います。Data usage policyでは以下のように説明されています。

OpenAI retains API data for 30 days for abuse and misuse monitoring purposes. A limited number of authorized OpenAI employees, as well as specialized third-party contractors that are subject to confidentiality and security obligations, can access this data solely to investigate and verify suspected abuse. Enterprise customers deploying use cases with low likelihood of misuse may request to not have API data stored at all , including for safety monitoring and prevention. OpenAI may still have content classifiers flag when data is suspected to contain platform abuse.

ざっくり訳すと以下となります。

  • 不正利用や誤った利用のモニタリングのためAPIデータを30日保持する
  • 許可された限定的なOpenAIの従業員、専門の第三者請負業者は、不正使用の疑いを調査および検証する場合だけにこのデータにアクセスできる
  • 悪用の可能性が低いユースケースを展開する企業顧客であれば、APIデータを全く保存しないことを要求できる

APIを提供する以上不正利用の可能性はあり、その調査のためには基本的にはデータをしばらく残しておく必要がある、ということですね。

なお、データの処理についてより厳密な取り決めが必要な場合、「顧客ごとの個別調整はしない」(=OpenAI側の書式に従う、ということだと思います)という条件は付きますがDPA(Data Processing Addendum / データ処理補遺)の締結も可能とポリシー内のFAQ内に記載されています。そのほかHIPAA(Health Insurance Portability and Accountability Act / アメリカにおける医療情報のプライバシー保護などを定めた法律)のワークロードでの利用の場合も、コンプライアンスの遵守のため業務提携契約を行うことができるようです。必要に応じて検討してください。

おわりに

以上、ざっとではありますがOpenAIのデータ利用ポリシーの紹介でした。

昨今のAIサービスの盛り上がりは素晴らしく、さまざまな可能性を秘めています。 ただ、そのサービスを利用するにあたっては、提供したデータはどのように利用される可能性があるかを正しく把握する必要があると思います。 この記事がChatGPT(というかOpenAIのサービス全般)の理解、利用の検討への一助になれば幸いです。 ではでは。