Learning Potential in Subgoal-Based Reward Shaping

by Seiji Yamada · 2023-02-16

奥戸嵩登 Takato Okudo (総研大 SOKENDAI)，山田誠二 Seiji Yamada（NII/SOKENDAI）

人間の知識は，強化学習において学習に必要な反復回数を減らすことができる．最も一般的なアプローチは軌跡を用いるものであるが，ドメインによっては軌跡を取得することが困難な場合がある．そこで，軌跡の代わりに中間状態であるサブゴールが研究されている．サブゴールに基づく報酬整形は，環境報酬にサブゴールの並びで報酬を追加する手法である．サブゴールベースのリワードシェーピングの構成要素であるポテンシャル関数は，その出力を制御するハイパーパラメータによって形作られる．しかし，ハイパーパラメータの適切な値は環境の報酬関数に依存し，報酬関数は未知であるがその出力は利用できるため，ハイパーパラメータの選択は容易でない．そこで，ハイパーパラメータをパラメータ化し，学習によってそのポテンシャルを獲得する学習ポテンシャルを提案する．学習済みポテンシャルとは，エージェントが現在の状態から政策に従った場合に期待される累積報酬であり，報酬関数と強く関連している．学習したポテンシャルを用いて，サブゴールの列を持つ状態の上位表現である抽象状態空間を構築し，抽象状態に対する値をポテンシャルとして用いることで，値の学習を加速させる．Nステップの時間差分(TD)法は，抽象的な状態上の値を学習する．学習したポテンシャルの有効性を評価するために実験を行った結果，ベースラインの強化学習アルゴリズムや複数の報酬形成アルゴリズムと比較して有効であることが示された．また，学習済みポテンシャルを用いてランダムに生成されたサブゴールよりも，参加者のサブゴールの方が優れていることが示された．学習済みポテンシャルに適したサブゴールの数，部分的に順序付けられたサブゴールは学習済みポテンシャルにとって有用であること，学習済みポテンシャルはステップペナルティ付き報酬において学習を効率化できないこと，正負混合報酬において学習済みポテンシャルは非学習済みポテンシャルよりも優れていることを議論する．