[レポート][M35]強化学習を使った協調型ロボット制御

こんにちは、小澤です。

現地時間6/4-7の日程でAmazon re:MARSがラスベガスにて開催されました。 今回は、「Reinforcement Learning for Robos」セッションレポートを書かせていただきます。

セッション概要

当セッションの概要は以下の通りです。

セッションタイトル:
 Reinforcement Learning for Robots
 (強化学習によるロボットの制御)

登壇者:
Jonathan How Richard C. Maclaurin Professor of Aeronautics and Astronautics , Massachusetts Institute of Technology

セッション概要:
How do you train a team of robots to learn and work together? This is a fundamental challenge to making robots work in unfamiliar environments such as natural disaster areas in rescue and recovery. Hear how robotics researchers from MIT are focusing on reinforcement learning to tackle this problem.
(あなたはどのようにして一緒に学び、共に働くようにロボットのチームを訓練しますか? これは、自然災害地域のようななじみのない環境でロボットを救助や復興に従事させるための基本的な課題です。 MITのロボット研究者が、この問題に取り組むために強化学習にどのように焦点を合わせているかを聞いてください。)

セッションレポート

背景・目的

発表者は宅配などの領域において、AI+ロボティクスを使った自動化のための仕組みを研究開発しています。

本セッションで研究領域として扱っているものとして紹介されたのが、宅配サービスです。

この研究は、町中を走るロボットが家まで荷物を宅配するようなタスクを実現する仕組みに関するものとなっています。 上記画像のように、この仕組みでは複数のロボットが町中を走りそれぞれが目的の家へと荷物を宅配します。

複数のロボットが動いている環境の中で、それぞれが強化学習によって動きます。 それぞれのロボットがエージェントとして環境に対して行動を行いその結果の報酬を受け取るところまでは通常の強化学習ですね。 この研究では、最大化すべき報酬として、すべてロボットが得られた報酬の合計値としています。

個々のロボットの学習はそれぞれが行います。 目的はすべてのロボットが得られる報酬を最大化する、ということなので 個々のロボットが自分の報酬を最大化するためだけに好き勝手やるのではなく、あるロボットがイレギュラーな状態に対して適切な行動をできていない状況ではすでにその状況を学習済みの別なロボットが適切な行動を教えるという仕組みを実現するのがこの研究の趣旨となっています。

実現するシステム

エージェント同士が協調しあうシステムを以下のような仕組みで実現します。

左側のエージェントは遠回りなルートを選ぼうとしています。 ここで右側のエージェントにより適切なルートが無いかを質問します。 右のエージェントは自信が持っている情報を伝えてその結果左のエージェントは最短ルートをたどることが可能となります。

このようないつどのような質問をするかの「Ask policy」と聞かれたときに何を教えるかという情報の「Teacher policy」をすべてのエージェントが持つことによって互いに協調しあう仕組みを実現します。

エージェントは自信の持っている最新のポリシーに基づいて行動した場合と、協調して教えあった場合とで全体としてより多くの報酬をもらえるようなサイクルを繰り返しながら学習していきます。

評価と実際の動き

実際に協調させたときとそうでない時の精度の差は以下のようになりました。 実験対象は対象はボールをゴールまで運ぶものとなります。

手法を変えることでの大幅な性能アップが最も効いていますが、複数のエージェントを強調させたことによってそこからさらに多くの報酬が得られていることが確認できます。

実際の動きをみると協調させた方がより効率的に動けていることがわかります(発表中では動画で動いていました)

おわりに

re:MARSのセッション「Reinforcement Learning for Robos」のレポートでした。 AWSの強化学習といえばDeepReacerが何かと話題ですが、このように複数のエージェントがいる環境というのもより実践的で面白いですね。