SMARCIRoboを用いた割引率γの感度分析。α=0.1固定


上が今回学習率αを0.1に固定して行った実験の結果。
そして、下が昨日の日記にも載せたα0.3の結果

やっぱりαを0.3にして正解だったなぁ。γの値を変えてもα=0.3の結果の方がいい結果が出ています。ただ、まだ収束していない可能性大なので、今日の徹夜で朝まで実験は+50回の追加で決まり!

と思ったけどやっぱり9432でも同じ設定でやってみることに