[Google論文]Imagenの論文で気になった単語まとめてみた[読んでみた]

Googleが提案しているImagenの論文を読みました。単語レベルで分かると読みやすくなるであろうものについて簡単に説明しています。

クルトン

2022.07.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

皆さん、こんにちは。 hotoke_nekoです。

Googleが提案しているImagenという機械学習モデルについて書かれている論文を読みました。今回は、皆さんが論文を読むときの一助になればと思い、論文中で使われている単語で気になったものをまとめてみます。

文中で使われている単語

diffusion model

日本語では拡散モデルとも言います。
元のデータにノイズを加えます。その後モデルには、ノイズを除去していく過程を学習させます。

つまり画像生成のプロセスを学習させているので、画像が生成できるようになります！

Frozen Model

論文中ではメモリ節約ができ、テキストの処理できる量を増やすために使用しているようです。その理由を筆者らは次のように言っています。

  我々の研究ではテキストエンコーダーサイズを大きくする事で、テキストから画像を生成する時の質に寄与していることを確信している。 

classifier-free guidance

予測時にキャプションで重みづけをしたものと、重みをつけないもの二つの予測結果から画像生成するモデルです。

T5

Text-to-Text Transfer Transformerの略です。
論文中では、4.6B parametersのものを使用しています。
自然言処理で入出力がテキストのさまざまなタスクを解けるように作られた事前学習モデルです。

下記にあるT5の元論文におけるイメージはこちらのようになっています。 T5-image

zero-shot learning

学習に使ったラベルに出てこないラベルを推論時に出力するように学習させる事です。
関連事項
- zero-shot transfer
  - 学習済みモデルをファインチューニングなどせずに、そのままタスクに転用させます。

FID score

FIDはFréchet inception distanceの略です。
日本語ではフレシェ開始距離と言います。
画像の品質を確かめるために使用します。
学習データと検証データといった分布2種類の差を求めるために使います。
- 値が小さいほど差は小さい(学習結果の精度が高い)です。

CLIP

OpenAIという団体が作成した画像識別のモデルです。
WEB上にある4億枚もの画像とそれらの画像に対応するテキストデータを使って学習しています。
- 転移学習といった再学習がなくとも、物体識別などのタスクをお手持ちのデータで可能です。

U-Net

画像の中の物体位置を識別するために作られたモデルです。
画像を畳み込み処理して特徴を抽出したのちに、逆畳み込みで画像の物体を識別した結果を取得します。

下記にあるU-Netの元論文におけるイメージ図は次のようなもので、確かに左から右にかけての処理でUの形（対称な形）をしています。 u-net image

super-resolution models

画像を高画質に変換するタスクをしているモデルです。

終わりに

Imagenの参考文献を見てみると84つもの文献を参照しています。そのため、論文を読むときにそれらの前提知識が必要となる箇所もあります。

今回は簡単にですが、気になった単語をまとめてみました。もしこの論文を読む必要が出てきた方がいらっしゃいましたら、こちらの記事を参考にして理解の一助になれば幸いです。

今回はここまで。

それでは、また！

[Google論文]Imagenの論文で気になった単語まとめてみた[読んでみた]

文中で使われている単語

diffusion model

Frozen Model

classifier-free guidance

T5

zero-shot learning

FID score

CLIP

U-Net

super-resolution models

終わりに

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS