2020年度POG版AI設定メモ
2020年5月時点でまもなくデビューを迎える2018年生まれの馬について評価するための機械学習の設定をまとめておきます。
一口馬主クラブ2020年度募集(2019年生まれ)用の設定はこちらに。
学習用データ
1991年以降の、
・セリにて購入された馬(落札価格が公開されている)
・一口馬主クラブ馬(募集総額が公開されている)
約40000頭分のデータを使う。
目的変数
2つあります。
1.収支=総獲得賞金ー購入金額ー2歳以降は毎月30万円で計算(単位:万円)
購入金額=一口馬主クラブ馬の場合:募集総額。その他セリ購入馬の場合:落札価格+500万円
また正規分布にある程度近づけるために10を底にした対数値を計算し、さらに計算後の0−3はもとの値は0〜1000万円となり、あまり違いに意味がないので0.1としてまとめてしまう。これを正負ともに実施。ヒストグラムを見ると-2〜0あたりが異常に高いいびつな形にはなるがひとまずこれを使う。
2.勝ち上がり=データ処理の都合上、総獲得賞金1000万円以上を勝ち上がりとみなして2値(0または1)
勝ち上がり=1のデータは全体の3割
説明変数
<2019年度版から継続>
母馬との年齢差
毛色(また、父・母と同じ色かどうかも)
クロスの数
クロスの総血量(クロスの1〜6までの各血量)
性別
生まれた月、日
ファミリーナンバー
中央競馬の東西(美浦・栗東)いずれの所属か
何番目の仔か
母馬の初戦馬体重
母馬の獲得賞金
<2020年度版から一部加工して使用>
父馬*1
牧場*1
クラブ
調教師*1
クロス種牡馬名(1つめのクロスのみ)*1
クロス総本数
ひとつ上のきょうだいの初戦馬体重 *2
ひとつ上のきょうだいの獲得賞金 *2
*1 上位100番目以外は”その他”とする処理
*2 POG版専用設定。通常版の場合はひとつ上のきょうだいが出走前のケースが多いので使わない
価格(対数処理済)については、POG用のために外した。
採用したモデル
収支:Boosted Decision Tree Regression(次点 Neural Network Regression)
残課題=精度が低い、パラメータのチューニング中だが時間がかかっている
勝ち上がり:Two-class Boosted Decision Tree(次点 Two Class logistic Regression)
残課題=NeuralなLocaly-Deepサポートベクタというのももう少し試す。精度は高い
結局決定木になってしまっているが、、
ひとまず区切りのいいところで2018年生まれ上位馬をまもなく発表しようと思います。