2020年度版一口馬主用AI(7月版)

AI・機械学習の最新情報はこちらを参照ください。

2020年7月に入り、各クラブの2019年生まれ1歳馬の一口馬主募集が本格的にはじまっています。

POG版および2020年6月版からさらに進化させた、2019年生まれの馬の評価に使う今回の機械学習の設定について以下まとめておきます。今回からきょうだい近親の活躍馬に関する情報も説明変数(パラメータ)にいれてあります。

 

学習用データ

1994年〜2016年生まれの

・セリにて購入された馬(落札価格が公開されている)

・一口馬主クラブ馬(募集総額が公開されている)

約40000頭分のデータを使います。

 

 

目的変数

2つあります。

1.収支=総獲得賞金ー購入金額ー2歳以降は毎月30万円で計算(単位:万円)

購入金額=一口馬主クラブ馬の場合:募集総額。その他セリ購入馬の場合:落札価格+200万円(2歳になるまでの費用)

これで計算された収支金額についてプラスなら1、マイナスなら0として2値として機械学習に答えを出してもらおうと思います。これまでは収支額を出そうとしていましたがあまりに精度が低いので諦めてこの2値にします。

 

2.勝ち上がり=データ処理の都合上、総獲得賞金1000万円以上を勝ち上がりとみなして2値(0または1)に分類。勝ち上が率について詳しくはこちら

勝ち上がり=1のデータは全体の3割

 

説明変数

・母馬との年齢差

・毛色(また、父・母と同じ色かどうかも)

・クロスの数、総本数

・クロスの総血量、およびクロスの1〜6までの各血量

・性別

・生まれた月、日

・ファミリーナンバー

・中央競馬の東西(美浦・栗東)いずれの所属か

・何番目の仔か

・母馬の初戦馬体重

・母馬の獲得賞金

・父馬*1

・牧場*1

・一口馬主クラブ

・調教師*1

・クロス種牡馬名(1つめのクロスのみ)*1

・きょうだいの獲得賞金平均(新規)

・母のきょうだいの獲得賞金平均(新規)

・母母(祖母)の獲得賞金(新規)

*1 上位100番目以外は”その他”とする処理

 

説明変数に入れてないもの

・馬の見た目(画像や動画)

・募集時馬体重、体高等

・2016年生まれ以前に産駒がいない種牡馬評価

・海外馬の成績・獲得賞金

 

機械学習モデル評価(勝ち上がり率)

勝ち上がり率については2値分類となるので現状最も精度が高いモデル(2つ比較)でのROC曲線を御覧ください。

曲線の下の面積が大きいほど=曲線が、真ん中の斜めの線から離れるほど、精度が高いということになります。

 

True Positive:AIは勝ち上がりと評価→実際に勝ち上がり(アタリ)

False Positive:AIは勝ち上がりと評価→勝ち上がりできず(ハズレ)

False Negative:AIは勝ち上がりできないと評価→勝ち上がり(ハズレ)

True Negative :AIは勝ち上がりできないと評価→実際に勝ち上がりできず(アタリ)

 

重要なのはAIが勝ち上がりと評価したものがどれだけ信用できるかです。

上の指数では

Precision = True Positive / (True Positve + False Positive)

= 57.2%と正直よくないですが、Threshold(しきい値)を0.5なので勝ち上がり率が50%以上の馬を買えば57.2%は勝ち上がり期待できることになります。

 

機械学習モデル評価(収支プラスマイナス)

今回から収支についても2値としましたので同様にROC曲線出しました。

こちらはPrecisionがさらに低いのとともに

True Positive : AIが収支プラスと予想して実際にプラス

False Positive : AIが収支プラスと予想したが実際にはマイナス

の絶対数が低いですね。元データの収支プラスの数が少ないから仕方ないところです。今度は曲線が上方向にやや歪んだ形になっていて、これはThreasholdを0.2〜0.3に下げていくとPrecisionがその率をうわまわっているようです。こちらは勝ち上がり率を補完する形で、各馬評価の補足として使います

 

勝ち上がり率の傾向

AIが評価している説明変数から傾向見てました。もっとも勝ち上がり率に影響を与えているのはやはり父馬(種牡馬)でした。

勝ち上がり率が高く出る種牡馬

サウスヴィグラス、ディープインパクト、シニスターミニスター、ダイワメジャー

勝ち上がり率が低く出る種牡馬

ワークフォース、ハービンジャー、グラスワンダー、ノヴェリスト

 

その他AIが重視している説明変数

性別、調教師、牧場、母馬との年齢差、何番目の仔か、きょうだいの獲得賞金平均、クロス全般、母馬の獲得賞金

AIがあまり重視していない説明変数

毛色、母母の獲得賞金、母のきょうだいの獲得賞金平均、母馬の初戦馬体重、生まれた月日

 

まとめ

勝ち上がり率を軸に評価し、収支プラスマイナスを補足的に使う