YOLOv7の実装を理解する（YOLOv7のコードを読んでみた）

nokomoro3

2022.08.09

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんちには。

データアナリティクス事業本部機械学習チームの中村です。

先日、YOLOv7に関するブログを２つ投稿しました。

今回はこの続編でソースコードを読んでみましたので、その内容について投稿します。

ソースコードは以下のリンクです。

ソースコード基本構成

YOLOv7のソースコードは、PyTorchで実装されています。

モデルサイズとしては7種類あり、それぞれがconfigファイルで定義されています。

またconfigファイルには前バージョン(YOLORやYOLOv4など)のもあり比較実行が可能です。

configファイルのモデル定義部分のフォーマットは以下となっています。

backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [32, 3, 1]],  # 0

   [-1, 1, Conv, [64, 3, 2]],  # 1-P1/2      
   [-1, 1, Conv, [64, 3, 1]],

   [-1, 1, Conv, [128, 3, 2]],  # 3-P2/4  
   [-1, 1, Conv, [64, 1, 1]],
   [-2, 1, Conv, [64, 1, 1]],
   [-1, 1, Conv, [64, 3, 1]],
   [-1, 1, Conv, [64, 3, 1]],
   [-1, 1, Conv, [64, 3, 1]],
   [-1, 1, Conv, [64, 3, 1]],
   [[-1, -3, -5, -6], 1, Concat, [1]],
   # ...
  ]

各行のルールは、["from(接続)", "number(繰り返し数)", "module(モジュール名), args("モジュールのパラメータ")]という形で記述していきます。

from(接続)は、相対的なインデックスと絶対的なインデックスで指定することが可能です。

各モジュールの定義は以下などに記述されています。

models/common.py
models/yolo.py

PyTorchが理解できていれば、コードリーディングは問題なく行えそうな印象です。

通常のGPU向け

モデルサイズは7種類がありますが、用途に応じてベースラインが３パターンありますので、それぞれのベースライン毎に仕様を確認していきます。

YOLOv7

通常のGPU向けには、YOLOv7がベースラインモデルとなります。

こちらが最も標準的な実装となり、以下の特徴があります。

アーキテクチャはELANで構成
ELANのconcat数は4つ
検出に使用する特徴量マップの解像度は1/8, 1/16, 1/32の３レベル
終盤の畳み込みにRepConvを使用
検出部はAuxiliary lossを使用しない
活性化関数はSiLUを使用

YOLOv7-X

YOLOv7-Xは、YOLOv7を提案手法でスケーリングしたものとなります。

YOLOv7と比較して以下の特徴があります。

ELANのconcat数(depth)は5つに増加
ELAN以外のconvのチャンネル数(width)は1.2倍に増加
RepConvは使用しない

エッジGPU向け

YOLOv7-tiny

YOLOv7-tinyはエッジGPU向けのベースラインモデルとなります。

YOLOv7と比較して以下の特徴があります。

ELANが通常と異なり簡易構成である
活性化関数も高速化のため、LeakyReLUに変更
全体的なノード数が少なく調整されている

簡易構成について補足します。通常のELANは以下の通りですが、、、

YOLOv7-tinyでは以下のように簡略化されています。

具体的に言うと、computation blockがそれぞれの接続で2層から1層に減っています。

これにより、よりエッジ処理に向けた高速化を実現しているようです。

エッジGPU向けはこのYOLOv7-tinyのみとなります。

クラウドGPU向け

YOLOv7-W6

YOLOv7-W6はクラウドGPU向け((サーバー向け？)のベースラインモデルとなります。

YOLOv7と比較して以下の特徴があります。

特徴量マップの解像度が1/8, 1/16, 1/32, 1/64の４レベルに増加
検出部にAuxiliary lossを使用する
RepConvは使用しない
最初の畳み込み処理がReOrgに変更
その他、widthやdepthはYOLOv7と同じ

ReOrgについて補足します。

ReOrgはYOLORでも実装されていましたが、縦横ピクセルを1つ飛ばしに取得して、チャンネル方向に重ね合わせることによりdownsampleする方法になります。

イメージ図としては以下のようになります。

YOLOv7-E6

YOLOv7-E6は、YOLOv7-W6を提案手法でスケーリングしたものとなります。

YOLOv7-W6と比較して以下の特徴があります。

ELANのconcat数(depth)は5つに増加
ELAN以外のconvのチャンネル数(width)は1.2倍に増加

YOLOv7-D6

YOLOv7-D6は、YOLOv7-W6を提案手法で2段階スケーリングしたものとなります。

YOLOv7-W6と比較して以下の特徴があります。

ELANのconcat数(depth)は6つに増加
ELAN以外のconvのチャンネル数(width)は1.44倍に増加

YOLOv7-E6E

YOLOv7-E6Eは、YOLOv7-E6に対して、E-ELANを適用したものとなります。

それ以外は、YOLOv7-E6と同じです。

これらを表にまとめると

サイズ	説明	基本構造	活性化関数	ELANのconcat数	ノード数	特徴マップ解像度	ReOrg有無	RepConv有無	Auxiliary loss
YOLOv7-tiny	エッジGPU向け	簡易ELAN	LeakyReLU	4	全体的に少ない	1/8, 1/16, 1/32	なし	なし	未使用
YOLOv7	通常GPU向け	ELAN	SiLU	4	基準	1/8, 1/16, 1/32	なし	あり	未使用
YOLOv7-X	通常GPU向け	ELAN	SiLU	5	YOLOv7に対して1.2倍	1/8, 1/16, 1/32	なし	なし	未使用
YOLOv7-W6	クラウドGPU向け	ELAN	SiLU	4	YOLOv7と同じ	1/8, 1/16, 1/32, 1/64	あり	なし	使用
YOLOv7-E6	クラウドGPU向け	ELAN	SiLU	5	YOLOv7に対して1.2倍	1/8, 1/16, 1/32, 1/64	あり	なし	使用
YOLOv7-D6	クラウドGPU向け	ELAN	SiLU	6	YOLOv7に対して1.44倍	1/8, 1/16, 1/32, 1/64	あり	なし	使用
YOLOv7-E6E	クラウドGPU向け	E-ELAN	SiLU	5	YOLOv7に対して1.2倍	1/8, 1/16, 1/32, 1/64	あり	なし	使用

まとめ

いかがでしたでしょうか。論文に記載がない点もまとめられたので理解が深まりました。

本記事でYOLOv7についてはひとまず終わりですが、また記事にしたいものがあれば投稿したいと思います。

本記事が物体検出の理解の助けになれば幸いです。

YOLOv7の実装を理解する（YOLOv7のコードを読んでみた）

ソースコード基本構成

通常のGPU向け

YOLOv7

YOLOv7-X

エッジGPU向け

YOLOv7-tiny

クラウドGPU向け

YOLOv7-W6

YOLOv7-E6

YOLOv7-D6

YOLOv7-E6E

これらを表にまとめると

まとめ

関連記事

主なカテゴリ

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

お問い合わせ

運営会社