前回のエントリで言及していた追加実験の結果。 まずは8253 うーん、実験を続けても0.9が0.6を上回りませんでした。どうしよ。収束しないのは非マルコフだからなんだろうけど、学習が行き詰るとは…。何度か最初からやれば上回るかも知れないけれど、そういう…
Actor-Criticの学習パラメータ割引率γを変えて,学習にどのような影響を与えるか実験を行った。 基本的に,割引率γ値が大きいほど収束が早くなる。 縦軸が資産評価額(初期値は1千万円)、横軸が2004年と2005年の2年間の学習を一回としたときの、繰り返し学…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。