目的変数である収支の前処理
収支額のヒストグラムを見てみます。
横軸が収支(万円)、縦軸が件数。
−2500万円から0円が大きく伸びていますが、安い馬がデビューせずに引退は、ここに入ってくるので件数が多いのも納得。
またグラフではみづらいですが、プラスマイナス共に幅広くなっています。
一番左は2006年生まれのディナシー(記憶にない、、)6億5千万円でセリで取引されて1円も稼がず引退というツワモノ。
一番右はご存知ディープインパクト7350万円と決して安い馬ではないが10億円以上を稼ぎ出した。
このまま幅広く大きな値とった状態だと、機械学習でうまくいかないので標準化に取り組んでみる。
まずはマイナスの数字とプラスの数字の別々に対数をとってみる
割とそれぞれ正規分布っぽくなる。対数の底は10なので、3という数字が意味するのは10の3乗。つまり1000。
-3 →マイナス1000万円
+3→プラス1000万円
1000万円は1勝クラスの1着賞金くらいなのでこの幅にいるのはほぼ同じとみなしてしまってこのグラフをくっつけてしまう。
具体的には-3から0までを全部-3に集めてしまって右に3つずらす。プラス側は逆に左に3つずらす。いやそうすると0に集中するのとせっかくのプラスを残したいので2.9にしてみる。
これでちょっとイビツだけど−6〜+6の間に収まるグラフが出来上がった。
最終更新日:2019年7月7日