強化学習パラメータ感度分析実験結果
Actor-Criticの学習パラメータ割引率γを変えて,学習にどのような影響を与えるか実験を行った。
基本的に,割引率γ値が大きいほど収束が早くなる。
縦軸が資産評価額(初期値は1千万円)、横軸が2004年と2005年の2年間の学習を一回としたときの、繰り返し学習を行った回数である。
上の銘柄コード8253では、γが0.1から大きくなるほど早い段階で収束していることがわかる。追加実験として150まで行い、0.9の場合が0.6を上回るか実験する。
次に9432であるが、8253とは違い0.3がもっともいい成績を示している。0.9はまだ学習が進むと考えられるが、0.6は0.1よりも小さな値で収束してしまっている。こちらは0.9のみで追加実験を行い。0.3を上回るのか確認する。
設定をコピペしておく
#test.properties #Fri Jan 11 12:14:30 JST 2008 gamma=0.9 code=8253 repeat=200 alpha=0.3 stateType=10 codelist=0105testlist.txt mainProgram=SMARCIRoboGammaTest change=gamma