2022年度版一口馬主募集馬評価AI(機械学習)
いよいよ各クラブ2022年度(2021年生まれ)募集も始まります。2019年生まれの成績も学習用データに取り込み2021年度版一口馬主募集馬評価AI(機械学習)のモデルをさらに改善しました。
2021年版からさらに進化させた、2020年および2021年生まれの馬の評価に使う今回の2022年度版機械学習の設定について以下まとめておきます。所属予定厩舎の評価を工夫してあります。
学習用データ
2000年〜2019年生まれの
・セリにて購入された馬
・一口馬主クラブ馬
だけでなく今回から”勝ち上がり率”に焦点をあてることにより
・その他国内において中央競馬または地方競馬に所属した全頭
約100,000頭分の学習データを使います。
目的変数
2つありましたが今回は2の”勝ち上がり率”だけに最適化しました。
1.収支=総獲得賞金ー購入金額ー2歳以降は毎月30万円で計算(単位:万円)
購入金額=一口馬主クラブ馬の場合:募集総額。その他セリ購入馬の場合:落札価格+200万円(2歳になるまでの費用)
これで計算された収支金額についてプラスなら1、マイナスなら0として2値として機械学習に答えを出してもらおうと思います。これまでは収支額を出そうとしていましたがあまりに精度が低いので諦めてこの2値にします。
収支について詳しくはこちら
2.勝ち上がり=データ処理の都合上、総獲得賞金1000万円以上を勝ち上がりとみなして2値(0または1)に分類。勝ち上が率について詳しくはこちら
勝ち上がり=1のデータは全体の3割
説明変数
AIでの勝ち上がり率評価において以下のパラメータを採用しています。
・母馬との年齢差、および母の何番目の仔か
・父馬との年齢差
・毛色(また、父・母と同じ色かどうかも)
・クロスの数、総本数
・クロスの総血量、およびクロスの1〜6までの各血量
・性別
・生まれた月、日
・ファミリーナンバー
・中央競馬の東西(美浦・栗東)いずれの所属か
・母馬の初戦馬体重
・母馬の獲得賞金
・父馬*1
・牧場*1
・一口馬主クラブ
・調教師*1
・調教師の直近過去5年間の所属馬頭数(前年除く)
・調教師の直近過去5年間の(管理馬ごと)平均獲得賞金(新規)
・クロス種牡馬名(1つめのクロスのみ)*1
・きょうだいの獲得賞金平均、海外勝利
・母のきょうだいの獲得賞金平均、海外勝利
・母母(祖母)の獲得賞金、海外勝利
*1 上位100位以下は”その他”とする処理
2022年度版の取り組み1:Azure→Googleへ切り替え
これまではMicrosoft AzureのMachine Learningを使用していましたが、今回からGoogle VertexAIを採用しました。あわせてLinear RegressionからGoogle VertexAIの自動モデル選択アルゴリズム採用により精度向上しています。
2022年度版の取り組み2:調教師の過去5年の(管理馬ごと)平均獲得賞金
2021年度版では調教師の管理頭数を採用しましたが2022年度版では調教師過去5年間の管理馬獲得賞金を頭数で除算したものを説明変数に追加しました。VertexAIでもこの説明変数はかなり結果への寄与度が大きいと出しています。
説明変数に入れてないもの
以下についてはAI評価に使用していません。
・馬の見た目(画像や動画)
・募集時馬体重など測尺情報や過去の手術歴、育成状況
・2019年生まれ以前に国内に産駒がいない種牡馬評価(産駒データが少ない種牡馬・海外種牡馬は”その他”として扱っています)
・募集時よりも未来の情報(募集時よりあとの近親成績、当該馬の出走時の馬体重等)
機械学習モデル評価(勝ち上がり率)
勝ち上がり率については2値分類となるので現状最も精度が高いモデル(2つ比較)でのROC曲線を御覧ください。
曲線の下の面積が大きいほど=曲線が、真ん中の斜めの線から離れるほど、精度が高いということになります。
True Positive:AIは勝ち上がりと評価→実際に勝ち上がり(アタリ)
False Positive:AIは勝ち上がりと評価→勝ち上がりできず(ハズレ)
False Negative:AIは勝ち上がりできないと評価→勝ち上がり(ハズレ)
True Negative :AIは勝ち上がりできないと評価→実際に勝ち上がりできず(アタリ)
重要なのはAIが勝ち上がりと評価したものがどれだけ信用できるかです。
上の指数では
Precision = True Positive / (True Positve + False Positive)
= 57.2%と正直よくないですが、Threshold(しきい値)を0.5なので勝ち上がり率が50%以上の馬を買えば57.2%は勝ち上がり期待できることになります。
説明変数の傾向
AIが評価している説明変数から傾向見てました。もっとも勝ち上がり率に影響を与えている、牡牝、調教師、父馬(種牡馬)について解説します。
牡牝
過去20年の勝ち上がり率総平均が牡馬30% 牝馬17%と13ポイントも差があることからAIもやはり牡馬と牝馬に差をつけており、数値の傾向を見る限り牡牝では平均して20ポイント近くも開いているようです。
調教師
調教師および中央競馬(東西所属)についても予想していた以上に重要なパラメータとして扱われています。今回新たに追加した過去5年間の管理馬ごと平均獲得賞金についてはやはり
平均獲得賞金が高いほど勝ち上がり率が高い
という傾向があり、思っていた以上に機械学習はこの説明変数を重要視しているようです。
また、勝ち上がり率の数値が高く出る調教師は、藤沢 和雄(美 浦)、音無 秀孝(栗 東)、鮫島 一歩(栗 東)、堀 宣行(美 浦)、戸田 博文(美 浦)など。
また東(美浦)、西(栗東)では西のほうが高く評価されています。
最後に父馬(種牡馬)について、勝ち上がり率への影響が強い馬は以下のとおりです。
勝ち上がり率が高く出る種牡馬
サウスヴィグラス、ディープインパクト、ゴールドアリュール、シニスターミニスター、キンシャサノキセキ、キングカメハメハ、クロフネ、パイロ、ヘニーヒューズ
勝ち上がり率が低く出る種牡馬
グラスワンダー、タニノギムレット、ワークフォース、キングズベスト、ジャングルポケット、ハービンジャー、ノヴェリスト、エイシンフラッシュ
その他勝ち上がり率に影響する説明変数
牧場、母馬との年齢差、何番目の仔か、きょうだいの獲得賞金平均・海外成績、母馬の獲得賞金・海外成績、母のきょうだいの獲得賞金平均・海外成績、生まれた月日、母母の獲得賞金・海外成績、調教師の直近過去5年間の所属馬頭数
勝ち上がり率にあまり影響しない説明変数
毛色、母馬の初戦馬体重、ファミリーナンバー、一口馬主クラブ、クロス関連全般
まとめ
当サイトで紹介している勝ち上がり率に加えて、予想される初戦馬体重(450kg〜500kgがよい)と、最後はあなたの相馬眼(画像や動画などから)を信じて購入する馬を選んでください。
また種牡馬ごと、牧場ごと、クラブごとに最新動向や傾向にも注意すべきポイントがいろいろありそうです。学習データのボリュームの関係と過学習を防ぐためにも本AI(機械学習)では
- 時系列を考慮していない(いくつかの説明変数で3年前と20年前を同列に処理していて最新の状況を追いきれていない)
- 特定の説明変数の組み合わせ(例えばルーラシップ産駒はノーザンファームはいいが社台ファームがよくない、など)による細かい傾向まで学習しきれていない
といった課題も残ります。そのあたりは以下のデータを出資馬検討の参考にしてください。
クラブごと最新状況(ノーザン社台系 非社台系1 非社台系2)