カブロボ

学習期間の成績グラフ

昨日の評価期間とは打って変わって、売買量学習エージェントの圧勝。 よかった、よかった。

今日やること

銘柄の学習を引き続き続ける 昨日は評価期間のグラフ作成を行ったので、今日は学習期間の成績グラフを作成する 本論を進める

売買量固定と学習の評価

正直、よくない結果だ…。 うーん、どうしたもんだか。 今日はコレの考察をして、新規銘柄の学習を開始してから寝よう。

学習期間におけるカブロボの設定

今日は評価期間でテストを行うため、robot-config.xmlの変更を行うのでメモ 学習期間の設定 <robot-class-name>SampleRobot</robot-class-name> <time> <start>2004-02-12</start> <end>2005-12-31</end> </time> <asset>10000000</asset> <each-stock-limit>100</each-stock-limit> <short-trade>false</short-trade> <special-order>false</special-order> <…

SMARCIRobo割引率γの感度分析。α=0.1固定、銘柄9423

上がα0.1での実験結果 下がα0.3での結果

今日明日やること

昨日の実験をさらにつめるべく、今度は学習率αを0.1にしてやってみる。

SMARCIRoboを用いた割引率γの感度分析。α=0.1固定

上が今回学習率αを0.1に固定して行った実験の結果。 そして、下が昨日の日記にも載せたα0.3の結果 やっぱりαを0.3にして正解だったなぁ。γの値を変えてもα=0.3の結果の方がいい結果が出ています。ただ、まだ収束していない可能性大なので、今日の徹夜で朝ま…

学習パラメータγ感度分析追加実験

前回のエントリで言及していた追加実験の結果。 まずは8253 うーん、実験を続けても0.9が0.6を上回りませんでした。どうしよ。収束しないのは非マルコフだからなんだろうけど、学習が行き詰るとは…。何度か最初からやれば上回るかも知れないけれど、そういう…

強化学習パラメータ感度分析実験結果

Actor-Criticの学習パラメータ割引率γを変えて,学習にどのような影響を与えるか実験を行った。 基本的に,割引率γ値が大きいほど収束が早くなる。 縦軸が資産評価額(初期値は1千万円)、横軸が2004年と2005年の2年間の学習を一回としたときの、繰り返し学…

明日明後日には終わらせておくこと

書いておかないと怠けるので 学習パラメータの選定実験を行う 学習率α 割引率γ それぞれ0.1,0.3,0.6,0.9に値を設定して結果を比較する.

今日やること

明日発表するスライドを作成する 卒論を書き進める 第3章まで一通り書く。ひどい文章でもいいからとにかく書く。

今日やること

昨日の新しい状態クラス(移動平均とRCI)の作成はうまくいき、そのクラスを使った実験で寝ている間にいいデータが取れました。 そして、今日は比較実験用にクラスを作ります。その新しいクラスSMARCIRobotSimpleは、SMARCIRobotのクラスの注文量を固定にし…

プログラムの追加が多くなるのを回避

今まではひとつのテクニカル指標を使った状態だったため、利用する際に引数はただのint値で済んでいたが、二つになったため引数がint[2]の配列となってしまった。そのため、利用しているほかのクラスも書き換える必要が出てきてしまった。さすがに全部を書き…

今日やること。RCIと移動平均を組み合わせた状態を作成する

5日と25日の移動平均を比べて、ゴールデンクロスしている場合(5日>25日)とデッドクロス(5日<25日)の場合で分ける。これにより、RCIだけではわからなかった株価のトレンドにあわせた売買ができるはず!追記:長いほうを25日ではなくて21日にする。下に…

プログラムをチョイ修正

1月4日、calcRewardで比較する価格を「前日の始値」から「前日の終値」に変更する。この変更により、今までは「前日の始値」と「今日の終値」だったものが、「前日の終値」と「今日の終値」の比を基準として報酬を計算することになる。変更した理由は、単…

真っ先にやること、明日やること

論文はある決められた量の株の売買をするエージェントと、売買量を自分で決定するエージェントの比較なので、まずはそいつらの成績を出さなければなりません。 そこで…、 所持金10パーセント分の株を売買するエージェントを作成、評価 可変量を売買するエ…

銘柄の分類

まずは一番簡単な条件で分類を行う。 株価の上昇率による分類 最初の日の終値と最終日の終値で分類する 3.5以上 8591:オリックス:3.86 2914:JT:3.62 3.0以上 6301:コマツ:3.47 5401:新日本製鐵:3.00 2.5以上 8802:三菱地所:2.96 8801:三井不動産:…

カブロボで用意されたdata50の各銘柄の株価の推移を調べる

50銘柄用意されているはずなんだけど、実際に調べてみると常時あるのは48銘柄ということが判明。 その48銘柄について株価を調べて場合分けをする。

行動を「買う」「売る」「待つ」の三つにしてみたけれど

成績がよくない。 action値が−0.5〜0.5っていうのが広すぎるのかも +−0.2にしてみる 追記 「買う」「売る」方式のほうが明らかに成績がいい…

研究で扱う銘柄リスト

参考は「テクニカル指標組合せルールの学習に基づく投資家意思決定支援」 ランダム取引で大きく利益が出た銘柄 6301,コマツ 8306,三菱UFJ 8591,オリックス 9984,ソフトバンク 8604,野村ホールディングス 2914,JT ランダム売買で利益が出た銘柄 7203,トヨタ自…

RCIRoboをStateType=5で2回実験した

学習に用いた銘柄は以下の9銘柄 6501 7011 7912 8267 8601 8604 9432 9433 9437 途中でプログラムを多少変えてしまったので、全く同じ環境で2回の実験を行ったわけではない。なので、その点は気にかけつつ解析していく。 学習結果をグラフ(資産評価額)に…

新しい学習方式を実装する

今あるRobotクラスと異なること 学習を1ステップ後にすぐ行うのではなく、Nステップ後に行う 行動の評価基準 株価(またはそのN日間平均) 株式の含み益(評価できるのは行動がBUYであったときに限られる) 資産評価額 こんな感じだろうか

今日の深夜実験

学習率αの値を0.1、0.3、0.6、0.9、0.01で実験させて寝る

まだまだ、基本的な売買部分にバグがある

たまーにぬるぽが出るのでそれを撲滅するだけの一日になりそうだな。 朝は家の共用パソコンを実験に使えないかと、使ってないメモリを足して増強したけど、役に立たちそうもない…。 バグの原因 現金余力もないのに注文を出す。 羅列しようと思ったけど、今日…

今後の課題

売買履歴の出力は出来るようになった 複数のテクニカル指標を用いた状態クラスの作成 実験を評価するにふさわしい、銘柄をみつける。50銘柄を種類わけする 株価が2004年から2006年末にかけて一本調子で株価が上げ続けていないものが望ましい ある特定の銘柄…

訂正、これぐらいきろくとっといてもいいかな

12月7日,売り,400株,株式評価額,保有株,資産評価額

結局昨日はやらずに寝た

今日は夕方まで空いてるので、がんばる。 売買履歴の出力形式は、 12/7,売り,400株 12/8,買い,200株という形式にしよう。csvで書き出せば、Excelでいじくれるしね。 追記 12月7日,売り,400株,株式評価額,保有株,資産評価額

強化学習に使う銘柄選び

2004年〜2007年にかけて株価が単純に上昇しているものは、BUY&HOLDで利益が出てしまうため、強化学習エージェントに学習させてもあまり意味がない。実験に用いる銘柄は、カブロボが扱う銘柄50の中から選び、株価がある一定の価格幅で上下しているものが望ま…

取引履歴を出力できるようにしよう。

出力された取引履歴と株価チャートを照らし合わせれば、いいところで株を買っているかどうかがわかるっていうこと。 よし、今日はこれを実装する。

ぬるぽの原因を探り、始末せよ!

HashMapとLinkedListに要素を追加している部分が怪しいので調べる ArrayList<Portfolio> portfolioList = pm.getPortfolio(); Portfolio portfolio = portfolioList.get(portfolioList.size() - 1); System.out.println("TradeID:" + portfolio.getTradeId() + " を" + </portfolio>…