強化学習パラメータ感度分析実験結果

Actor-Criticの学習パラメータ割引率γを変えて,学習にどのような影響を与えるか実験を行った。
基本的に,割引率γ値が大きいほど収束が早くなる。
縦軸が資産評価額(初期値は1千万円)、横軸が2004年と2005年の2年間の学習を一回としたときの、繰り返し学習を行った回数である。

上の銘柄コード8253では、γが0.1から大きくなるほど早い段階で収束していることがわかる。追加実験として150まで行い、0.9の場合が0.6を上回るか実験する。

次に9432であるが、8253とは違い0.3がもっともいい成績を示している。0.9はまだ学習が進むと考えられるが、0.6は0.1よりも小さな値で収束してしまっている。こちらは0.9のみで追加実験を行い。0.3を上回るのか確認する。

設定をコピペしておく

#test.properties
#Fri Jan 11 12:14:30 JST 2008
gamma=0.9
code=8253
repeat=200
alpha=0.3
stateType=10
codelist=0105testlist.txt
mainProgram=SMARCIRoboGammaTest
change=gamma