実験結果
昨日の評価期間とは打って変わって、売買量学習エージェントの圧勝。 よかった、よかった。
正直、よくない結果だ…。 うーん、どうしたもんだか。 今日はコレの考察をして、新規銘柄の学習を開始してから寝よう。
上がα0.1での実験結果 下がα0.3での結果
上が今回学習率αを0.1に固定して行った実験の結果。 そして、下が昨日の日記にも載せたα0.3の結果 やっぱりαを0.3にして正解だったなぁ。γの値を変えてもα=0.3の結果の方がいい結果が出ています。ただ、まだ収束していない可能性大なので、今日の徹夜で朝ま…
前回のエントリで言及していた追加実験の結果。 まずは8253 うーん、実験を続けても0.9が0.6を上回りませんでした。どうしよ。収束しないのは非マルコフだからなんだろうけど、学習が行き詰るとは…。何度か最初からやれば上回るかも知れないけれど、そういう…
Actor-Criticの学習パラメータ割引率γを変えて,学習にどのような影響を与えるか実験を行った。 基本的に,割引率γ値が大きいほど収束が早くなる。 縦軸が資産評価額(初期値は1千万円)、横軸が2004年と2005年の2年間の学習を一回としたときの、繰り返し学…
強化学習の設定 強化学習方法:Actor-Critic 状態:RSI(相対力指数)を0〜100で1区切りずつ(計100個) 報酬:資産評価額の前日比を求めた値をxとし、tanh(1000*x)を報酬とする。 取引銘柄:新日本製鐵[5401] 取引期間 開始日: 2005-01-05 終了日: 2006-12…
昨日寝る前に朝まで学習させようと思ったけれど、すぐに収束したので止めた結果のグラフ。 繰り返し4回目でBuy&Hold教に入信したらしく、総トレード数がほぼ1になっています。状態数を減らすとただでさえ酷い学習に磨きがかかりますね。ただ、資産評価額の…
大学に行っている間に上記の学習をさせていたので、その結果を書いておく 強化学習の設定 強化学習方法:Actor-Critic 状態:RSI(相対力指数)を0〜100で1区切りずつ(計100個) 報酬 買:買ったその日の終値が高ければ+1、そうでなければ-1 売:打ったその…