2007-11-20から1日間の記事一覧

2007-11-20

状態RSIで報酬はtanh関数を用いた学習結果

強化学習の設定強化学習方法：Actor-Critic 状態：RSI（相対力指数）を0〜100で1区切りずつ（計100個）報酬：資産評価額の前日比を求めた値をｘとし、tanh(1000*x)を報酬とする。取引銘柄：新日本製鐵[5401] 取引期間開始日: 2005-01-05 終了日: 2006-12…

2007-11-20

細かい演算がうまくいかない

java カブロボ

きのうは以下のコードで終了しましたが、まともな結果がでないなど色々いじっているうちに public double calcReward(double action, Stock stock) { double reward = 0.0; AssetManager am = AssetManager.getInstance(); TimeManager tm = TimeManager.get…