13回実験を繰り返して学習を進めた結果

1回目の学習結果

終了時資産評価額:50331213
勝ちトレードの純損益%:1.7739999999999998
負けトレードの順損失%:-0.848
最大負けトレード%:-8.49056603773585
最大勝ちトレード%:11.838790931989925
勝率%:61.05263157894737
総トレード数:95
全トレード平均期間(日):4
負けトレード平均期間(日):3
勝ちトレード平均期間(日):4
総実行時間(ミリ秒): 61953

13回目の学習結果

終了時資産評価額:51117504
勝ちトレードの純損益%:3.466
負けトレードの順損失%:-0.954
最大負けトレード%:-7.5396825396825395
最大勝ちトレード%:13.77702416278084
勝率%:64.51612903225806
総トレード数:62
全トレード平均期間(日):9
負けトレード平均期間(日):8
勝ちトレード平均期間(日):10
総実行時間(ミリ秒): 62735

ちゃんと学習してました。いやー長かった、ようやく強化学習っぽくなってきた。
資産評価額はもちろんだけど、トレード平均期間の変化が面白い。下手に小刻みに売るより、ある程度持っていたほうがいいと学習したわけですな、えらいえらい。
ただ、やはり学習速度がよろしくない。これぐらいの速度が出ればいいっていう指標みたいなものはないけれど、駄目駄目だなーという印象。
と言うわけで、明日からのTODOをここに書いときます。

  1. 同じ期間の学習を繰り返すことが出来るようにする。(例:2005年を100回繰り返して学習)
    1. 手動で繰り返し→出来た!
    2. 自動で何回も繰り返し実行できるようにする。→まだ!
  2. 報酬を改善する(現状:翌日上がったら1、下がったらー1)

カブロボの開発は、とりあえず今日はここまでにしよう。