ラットの学習促進実験

これまでの実験において,私たちはラットのレバー押し行動をロボットとのインタラクション1つとして計測を行ってきました.しかし動物にとって,先天的に備わっていない新たな行動を獲得するのは非常に困難と考えられます.私たちの実験ではこれまで,実験者がラットにレバー押し行動を教授していました.そこで,このレバー押し行動をロボット自身によって教授させることを試みました.

ラットが「ロボット上のレバーを押す」という新たな行動を獲得することは,ラットがロボットの機能を学習するということになります.そこで,ロボットがその動作パターンを自律的に変化させ,自らの機能をラットに示唆することで,ラットの学習を意図した方向へ促進することができるではないかと考えました.そして,これを実現するために学習促進アルゴリズムを開発しました.

学習促進アルゴリズム

難易度の高い行動を学習させる場合,学習過程を小さなLevelに分割し,徐々にそのLevelを上昇させることで効果的な学習促進が得られるとされています.これをシェイピングといいます.学習促進アルゴリズムはこのシェイピングの概念にもとづいて,ロボットおよび実験装置の動作生成を行うアルゴリズムです.

ラットがロボット上のレバーを押して餌を取得する行動を学習するまでの過程を3つのLevelに分割しました.各Levelではラットに学習させる目標行動を明確に定義し,その行動が出現するよう実験装置およびロボットの動作パターンを作成しました.

Level 1;行動モチベーションの強化

Fig. 1 Providing a food

初めて実験フィールドにラットを入れますと,新たな環境への恐怖と緊張から行動が萎縮し,すぐにうずくまって動かなくなります.
そこでLevel1では,ラットの行動全般に対する動機を強化することを目的としました.このLevelではラットに定期的に餌を提示し,実験環境と餌取得の関連性を学習させます.この結果,ラットには餌を求めて実験フィールドを探索する行動が出現すると予想されます.そして,ラットの累積移動距離が一定値を超えたとき,ラットの行動モチベーションは十分に強化されたもとのみなし,Level2へ移行します.

Level 2:ロボットへの接近行動形成

Fig. 2 Detection of the rat's approach

Level2では,ラットの興味をロボットに向かせ,ロボットへの接近行動を学習させることを目的としました.このLevelでは定期的にロボットを餌場へ移動させ,それに同期してラットに餌を提示します.これにより,ラットにロボットと餌提示の関連性を学習させます.この結果,ラットの興味はロボットに向き,ロボットへの接近行動が出現すると予想されます.

ラットにロボットへの接近行動が出現したとき,ロボットはそれをトリガとして餌場へ移動します.そして,ロボットが餌場に到着したとき,同期して餌を提示することで,ラットのロボットへの接近行動を強化します.
ラットのロボットへの接近行動の検知は画像処理によって行い,その接近行動回数が一定値を超えたとき,ラットがロボットへの接近行動を十分に学習したとみなし,Level3へ移行します.

Level 3:レバー押し行動形成

Fig. 3 Narrowing the

Level3では,ラットのレバー押し行動を学習させることを目的としました.まずラットにロボットへの接近行動を十分に定着させるため,Level2と同様の方法でラットの接近行動を強化します.その後漸次的にラットの接近行動を検知する範囲を狭めます.このことにより,ラットがより近くまでロボットに接近することが予想されます.この結果,ラットがロボット上のレバーを押す可能性が増大します.

ラットがロボット上のレバーを押したとき,ロボットはそれをトリガとして餌場へ移動します.そして接近行動を強化したときと同様に,ロボットが餌場に到着したとき,同期して餌を提示することで,ラットのロボット上のレバーを押す行動を強化します.ラットのレバー押し行動が定着したとき,ラットに「ロボット上のレバーを押す」という新たな行動を獲得させること成功したといえます.

評価実験

学習促進アルゴリズムの効果を確認するために実験を行いました.被験体には実験経験の無いウィスター・アルビノ系♂5匹を用い,3匹の被験体には学習促進アルゴリズムを適用して実験を行い(実験体;Rat1~3),残りの2匹の被験体には適用せずに行いました(対照体;Rat4,5).実験は各被験体を実験フィールドに入れた瞬間から開始し,レバー押し行動が学習された時点で実験を終了するものとしました.

実験結果

実験では実験体3匹すべてにレバーを押して餌を取得する行動を学習させることに成功しました.実験体3匹の学習過程をFig.10~12に示します.これらのグラフは実験中にラットに出現した移動距離の累積値,ロボットへの接近行動回数の累積値,レバー押し回数の累積値を表しています.

対照体2匹についてはレバー押し行動が出現せず,行動傾向にも変化が見られませんでした.
この結果より,学習促進アルゴリズムを適用することで,ラットに「ロボット上のレバーを押す」という新たな行動を獲得させることに成功したといえます.このロボットが自らの機能を教授する能力は,生物との共生を目指したロボットにとって,重要な要素の1つだと考えています.

Fig.4 Cumulative Record of Rat 1

Fig.5 Cumulative Record of Rat 2

Fig.6 Cumulative Record of Rat 3