DeepComposerのCompositionで自己回帰CNN（畳み込みニューラルネットワーク）モデルが選択できるようになりました

suto

2020.06.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

どーもsutoです。

2020/6/3にDeepComposerでComposition（作曲）する際、CNN（畳み込みニューラルネットワーク）を利用した学習モデルを選択できるようになりました。

サービスリリースからこれまではGenerative Adversarial Network（GAN）によるモデル生成とConpositionのみでしたが、新たな学習アルゴリズムとモデルによる学習能力を試すことができます。

CNN（畳み込みニューラルネットワーク）とは

CNNは深層学習（ディープラーニング）のネットワークモデルの１種で、主に画像認識の分野で成果をあげています。このネットワークは中間層に「畳み込み層」や「プーリング層」などの幾つかの特徴的な機能を持った層を積み上げることで構成されています。

仕組みや特徴をおおまかに知りたい方は以下のリンクを参考にしてみると良いでしょう。

数学的なモデルの仕組みについてより詳しく知りたい方はこちらの論文をご参照してみてかいかがでしょうか。（英語）

インプットに使う曲はサンプルの「Ode to Joy」とします。DeepComposerメニューのMusic studioの画面から

を選択し4つのハイパーパラメータを決定し「Enhance input melody」ボタンを押します。

4つのハイパーパラメータを以下表の数値で生成し、違いを比較してみます。

パラメータ／モデル名	CNN-test1	CNN-test2	CNN-test3	CNN-test4
Maximum input notes to remove	100	100	50	100
Maximum notes to add	350	400	400	800
Sampling iterations	100	100	100	100
Creative risk	1	5	1	1

結果はこちら

すべてのパラメータをデフォルト値で生成したものです。GANでは追加のメロディーにおいて生成モデルごとに別の楽器を当ててアレンジしましたが、CNNでは原本のピアノメロディーに追加するかたちとなっていました。（よってMIDIファイルのみダウンロード可でした）

Creative riskを上げることで本来のメロディーとは違ったリズムやメロディを掛け合わせる部分が多くなりました。サブメロディーとしてうまく噛み合ってくれたのかな。

８秒子以下の演奏部分が減りました。どちらかというと伴奏側にアレンジを加えたような結果となりました。

ピアノ単体のため判りにくいですが、他の3曲と比べると和音数が増えています。

生成されたメロディは各ハイパーパラメータの名前どおりの特徴が現れた結果でしたね。これなら機械学習のパラメータ調整に関して知識やチューニング技術を熟知していなくても直感で調整していける代物になっていそう。まさにこのサービスの狙いがよく出ていますね。

エンジニアとしてはSagemakerで作成したモデルをDeepcomposerで使えるようになると盛り上がってくるでしょうから、その時がくる可能性を信じて自分もさらに機械学習の勉強を頑張っていくつもりです。