[レポート][M35]強化学習を使った協調型ロボット制御

Amazon re:MARS 2019

AWS イベントレポート機械学習

じょんすみす

2019.06.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、小澤です。

現地時間6/4-7の日程でAmazon re:MARSがラスベガスにて開催されました。今回は、「Reinforcement Learning for Robos」セッションレポートを書かせていただきます。

セッション概要

当セッションの概要は以下の通りです。

セッションタイトル： Reinforcement Learning for Robots (強化学習によるロボットの制御)登壇者： Jonathan How Richard C. Maclaurin Professor of Aeronautics and Astronautics , Massachusetts Institute of Technology

セッション概要： How do you train a team of robots to learn and work together? This is a fundamental challenge to making robots work in unfamiliar environments such as natural disaster areas in rescue and recovery. Hear how robotics researchers from MIT are focusing on reinforcement learning to tackle this problem. (あなたはどのようにして一緒に学び、共に働くようにロボットのチームを訓練しますか？これは、自然災害地域のようななじみのない環境でロボットを救助や復興に従事させるための基本的な課題です。 MITのロボット研究者が、この問題に取り組むために強化学習にどのように焦点を合わせているかを聞いてください。)

セッションレポート

背景・目的

発表者は宅配などの領域において、AI+ロボティクスを使った自動化のための仕組みを研究開発しています。

本セッションで研究領域として扱っているものとして紹介されたのが、宅配サービスです。

この研究は、町中を走るロボットが家まで荷物を宅配するようなタスクを実現する仕組みに関するものとなっています。上記画像のように、この仕組みでは複数のロボットが町中を走りそれぞれが目的の家へと荷物を宅配します。

複数のロボットが動いている環境の中で、それぞれが強化学習によって動きます。それぞれのロボットがエージェントとして環境に対して行動を行いその結果の報酬を受け取るところまでは通常の強化学習ですね。この研究では、最大化すべき報酬として、すべてロボットが得られた報酬の合計値としています。

個々のロボットの学習はそれぞれが行います。目的はすべてのロボットが得られる報酬を最大化する、ということなので個々のロボットが自分の報酬を最大化するためだけに好き勝手やるのではなく、あるロボットがイレギュラーな状態に対して適切な行動をできていない状況ではすでにその状況を学習済みの別なロボットが適切な行動を教えるという仕組みを実現するのがこの研究の趣旨となっています。