強化学習でボールを自由に動かす　～ネズミを追いかけるボール～　Part 3

Posted on 2018年6月26日2018年11月3日 by fujita

実際の機材を使用した強化学習（事例・応用例）　こんにちは。　Part 1では「強化学習の概要」を紹介し、Part 2では「ボールの自動転がし」について、シミュレーション上で行った様子を紹介しました。　いよいよ今回のPart 3では、実際の機材を使用して、強化学習を用いたボールコントロールを行ってみたいと思います。　前回のおさらいとなりますが、図１は「ボールの自動転がし」に使用する実際の機材構成です。カメラでボールの位置を捕捉し、ステージの下にある高さセンサーで、ステージの状態をとらえています。　２個のサーボモータを回転させてステージを上下させることにより、ボールを「円」や「８の字」に転がそうとしています。仮想の（見えない）ネズミをボールが追いかけるように（強化学習で）学習を行っています。図１　ボール転がし機の全体像　１　実機を使用した再学習（Fine-tuning）　コンピュータで使用する強化学習のモデルは、前回　Part 2　の「シミュレータを使用して学習したモデル」を使用します。このモデルは仮想の（見えない）ネズミをボールが追いかけるように学習していますが、実際の機材とシミュレータではボールの動きが若干異なることや、実機ではリアルタ...

強化学習でボールを自由に動かす　～ネズミを追いかけるボール～　Part 2

Posted on 2018年5月31日2018年11月3日 by fujita

疑似シミュレータで強化学習（事例・応用例）こんにちは。前回のPart 1では強化学習の概要についてお話をしました。今回は強化学習の事例を紹介したいと思います。～関連ブログ～　「強化学習でボールを自由に動かす　～ネズミを追いかけるボール～　Part 3 実際の機材を使用した強化学習（事例・応用例）」１　ボールの自動転がし　ここで紹介する事例は、「ボールの自動転がし」です（図１）。図１　工事用一輪車（手押し車）　図１のように、工事用の一輪車に平らな板を載せ、その板の上にボールを置きます。この一輪車を左右の手で上下させることにより、板の上のボールを自由自在に転がそうというものです。ボールを板の上でピタッと静止させたり、「８の字」の形にボールを転がしたいと考えています。　ここでは本物の一輪車は使いません。図２のような機材を用います。人の眼をカメラに、人の手をサーボモータに置き換えて、ステージの上のボールを自動的に、自在にコントロールすることを目標にしています。図２　ボール転がし機　このような技術はシステム制御工学の「フィードバック制御」と呼ばれる中の一つのようですが、ここでは強化学習を用いてボールの...

強化学習でボールを自由に動かす　～ネズミを追いかけるボール～　Part 1

Posted on 2018年3月1日2018年7月6日 by fujita

強化学習の概要こんにちは。前回は「倒立振り子」を例に、強化学習を用いた自動操作について紹介しました。今回は強化学習と自動操作について、もう少し深くお話しをしたいと思います。しかしその前に、このPart 1では強化学習の概要を紹介します。～関連ブログ～　「強化学習でボールを自由に動かす　～ネズミを追いかけるボール～　Part 2 疑似シミュレータで強化学習（事例・応用例）」　「強化学習でボールを自由に動かす　～ネズミを追いかけるボール～　Part 3 実際の機材を使用した強化学習（事例・応用例）」 Deep Learning(深層学習)を用いた強化学習としてはDQN が有名ですが、最近では次のように様々なアルゴリズムが提案されています。 DQN　（Deep Q Learning） DDQN　（Double DQN） DDPG　（Deep Deterministic Policy Gradient） NAF　　（Continuous DQN （CDQN ）） CEM　　（Cross-Entropy Method） Dueling DQN　（Dueling network DQN） Deep SARSA A3C　　（Asynchronous Advantage Actor-Criti...