2007-11-20から1日間の記事一覧

状態RSIで報酬はtanh関数を用いた学習結果

強化学習の設定 強化学習方法:Actor-Critic 状態:RSI(相対力指数)を0〜100で1区切りずつ(計100個) 報酬:資産評価額の前日比を求めた値をxとし、tanh(1000*x)を報酬とする。 取引銘柄:新日本製鐵[5401] 取引期間 開始日: 2005-01-05 終了日: 2006-12…

細かい演算がうまくいかない

きのうは以下のコードで終了しましたが、まともな結果がでないなど色々いじっているうちに public double calcReward(double action, Stock stock) { double reward = 0.0; AssetManager am = AssetManager.getInstance(); TimeManager tm = TimeManager.get…