2007-11-20 状態RSIで報酬はtanh関数を用いた学習結果 カブロボ 実験結果 強化学習の設定 強化学習方法:Actor-Critic 状態:RSI(相対力指数)を0〜100で1区切りずつ(計100個) 報酬:資産評価額の前日比を求めた値をxとし、tanh(1000*x)を報酬とする。 取引銘柄:新日本製鐵[5401] 取引期間 開始日: 2005-01-05 終了日: 2006-12-29 学習回数:上記の取引期間を112回繰り返し 実験結果のグラフ もう、学習が停止しているっぽい...。状態を変えてみるか。