実験結果

学習期間の成績グラフ

昨日の評価期間とは打って変わって、売買量学習エージェントの圧勝。 よかった、よかった。

売買量固定と学習の評価

正直、よくない結果だ…。 うーん、どうしたもんだか。 今日はコレの考察をして、新規銘柄の学習を開始してから寝よう。

SMARCIRobo割引率γの感度分析。α=0.1固定、銘柄9423

上がα0.1での実験結果 下がα0.3での結果

SMARCIRoboを用いた割引率γの感度分析。α=0.1固定

上が今回学習率αを0.1に固定して行った実験の結果。 そして、下が昨日の日記にも載せたα0.3の結果 やっぱりαを0.3にして正解だったなぁ。γの値を変えてもα=0.3の結果の方がいい結果が出ています。ただ、まだ収束していない可能性大なので、今日の徹夜で朝ま…

学習パラメータγ感度分析追加実験

前回のエントリで言及していた追加実験の結果。 まずは8253 うーん、実験を続けても0.9が0.6を上回りませんでした。どうしよ。収束しないのは非マルコフだからなんだろうけど、学習が行き詰るとは…。何度か最初からやれば上回るかも知れないけれど、そういう…

強化学習パラメータ感度分析実験結果

Actor-Criticの学習パラメータ割引率γを変えて,学習にどのような影響を与えるか実験を行った。 基本的に,割引率γ値が大きいほど収束が早くなる。 縦軸が資産評価額(初期値は1千万円)、横軸が2004年と2005年の2年間の学習を一回としたときの、繰り返し学…

状態RSIで報酬はtanh関数を用いた学習結果

強化学習の設定 強化学習方法:Actor-Critic 状態:RSI(相対力指数)を0〜100で1区切りずつ(計100個) 報酬:資産評価額の前日比を求めた値をxとし、tanh(1000*x)を報酬とする。 取引銘柄:新日本製鐵[5401] 取引期間 開始日: 2005-01-05 終了日: 2006-12…

RSI10刻み(状態数10)での学習結果

昨日寝る前に朝まで学習させようと思ったけれど、すぐに収束したので止めた結果のグラフ。 繰り返し4回目でBuy&Hold教に入信したらしく、総トレード数がほぼ1になっています。状態数を減らすとただでさえ酷い学習に磨きがかかりますね。ただ、資産評価額の…

2年間を218回繰り返した強化学習結果

大学に行っている間に上記の学習をさせていたので、その結果を書いておく 強化学習の設定 強化学習方法:Actor-Critic 状態:RSI(相対力指数)を0〜100で1区切りずつ(計100個) 報酬 買:買ったその日の終値が高ければ+1、そうでなければ-1 売:打ったその…