2007-12-09 新しい学習方式を実装する カブロボ 今あるRobotクラスと異なること 学習を1ステップ後にすぐ行うのではなく、Nステップ後に行う 行動の評価基準 株価(またはそのN日間平均) 株式の含み益(評価できるのは行動がBUYであったときに限られる) 資産評価額 こんな感じだろうか