状態RSIで報酬はtanh関数を用いた学習結果

強化学習の設定

  • 強化学習方法:Actor-Critic
  • 状態:RSI(相対力指数)を0〜100で1区切りずつ(計100個)
  • 報酬:資産評価額の前日比を求めた値をxとし、tanh(1000*x)を報酬とする。
  • 取引銘柄:新日本製鐵[5401]
  • 取引期間
    • 開始日: 2005-01-05
    • 終了日: 2006-12-29
  • 学習回数:上記の取引期間を112回繰り返し

実験結果のグラフ


もう、学習が停止しているっぽい...。状態を変えてみるか。