2年間を218回繰り返した強化学習結果

大学に行っている間に上記の学習をさせていたので、その結果を書いておく

強化学習の設定

  • 強化学習方法:Actor-Critic
  • 状態:RSI(相対力指数)を0〜100で1区切りずつ(計100個)
  • 報酬
    • 買:買ったその日の終値が高ければ+1、そうでなければ-1
    • 売:打ったその日の終値が低ければ+1、そうでなければ-1
  • 取引銘柄:新日本製鐵[5401]
  • 取引期間
    • 開始日: 2005-01-05
    • 終了日: 2006-12-29
  • 学習回数(エピソード数?ちがうか…):上記の取引期間を218回繰り返し

実験結果のグラフ

訂正:x軸は日ではなくて回数です。トレード数のグラフのy軸は「%」ではなくて、総トレード数は「回数」、平均期間は「日数」です。

資産評価額は多少上がった感じはあるものの、50回目あたりを越えたあたりから変化なく5100万〜5200万をうろちょろ。行動選択が確率的なので平均を取らないと正確なことはわからないけれど、これ以上の改善は望めそうもないことはひしひしと感じますw。


それに比べてトレード平均期間のグラフは変化が明らかです。最初は株を買ってから2,3日たったら売っていたのが、「勝ちトレード平均期間」に関しては最終的に200日ぐらいは持つようになっています。「負けトレード」の場合はバラバラですねぇ。そして、保有期間の上昇と共に総トレード数が激減しています。学習結果の希望としては、勝ちトレード平均期間が60日ぐらいで収まってくれると、程よい保有期間かなと思っています。

勝率も分かりやすい変化です。平均を取ったら、よりいっそうきれいに上がっているの確認できるのではないでしょうか。ただ望みとしては、勝率はそれほど上げる必要はないかな。

結果を受けて

TODO

  1. 報酬をなんとかしないといかん
  2. 状態をRSI1刻みから10刻み5刻み等に変えて結果を見てみる(今日寝る前に実行させる)
  3. 他の銘柄でも確認してみる
  4. 学習の仕方を改善してみる(報酬とたぶんかぶる)

以上のことをやらないかんな、ということを改めて思いました。