新しい学習方式を実装する

今あるRobotクラスと異なること

  1. 学習を1ステップ後にすぐ行うのではなく、Nステップ後に行う
  2. 行動の評価基準
    1. 株価(またはそのN日間平均)
    2. 株式の含み益(評価できるのは行動がBUYであったときに限られる)
    3. 資産評価額

こんな感じだろうか