2021年度版一口馬主用AI(7月版)

各クラブ2021年度募集も始まっています。2018年生まれの成績も学習用データに取り込み2021年度版一口馬主用AIのモデルを更新しました。

2020年版からさらに進化させた、2019年および2020年生まれの馬の評価に使う今回の2021年度版機械学習の設定について以下まとめておきます。所属予定厩舎の評価を工夫してあります。

 

学習用データ

1999年〜2018年生まれの

・セリにて購入された馬

・一口馬主クラブ馬

だけでなく今回から”勝ち上がり率”に焦点をあてることにより

・その他国内において中央競馬または地方競馬に所属した全頭

約100,000頭分の学習データを使います。

 

 

目的変数

2つありましたが今回は2の”勝ち上がり率”だけに最適化しました。

1.収支=総獲得賞金ー購入金額ー2歳以降は毎月30万円で計算(単位:万円)

購入金額=一口馬主クラブ馬の場合:募集総額。その他セリ購入馬の場合:落札価格+200万円(2歳になるまでの費用)

これで計算された収支金額についてプラスなら1、マイナスなら0として2値として機械学習に答えを出してもらおうと思います。これまでは収支額を出そうとしていましたがあまりに精度が低いので諦めてこの2値にします。

収支について詳しくはこちら

 

2.勝ち上がり=データ処理の都合上、総獲得賞金1000万円以上を勝ち上がりとみなして2値(0または1)に分類。勝ち上が率について詳しくはこちら

勝ち上がり=1のデータは全体の3割

 

説明変数

AIでの勝ち上がり率評価において以下のパラメータを採用しています。

・母馬との年齢差、および母の何番目の仔か

・毛色(また、父・母と同じ色かどうかも)

・クロスの数、総本数

・クロスの総血量、およびクロスの1〜6までの各血量

・性別

・生まれた月、日

・ファミリーナンバー

・中央競馬の東西(美浦・栗東)いずれの所属か

・母馬の初戦馬体重

・母馬の獲得賞金

・父馬*1

・牧場*1

・一口馬主クラブ

・調教師*1

・調教師の直近過去5年間の所属馬頭数(前年除く)

・クロス種牡馬名(1つめのクロスのみ)*1

・きょうだいの獲得賞金平均、海外勝利(新規)

・母のきょうだいの獲得賞金平均、海外勝利(新規)

・母母(祖母)の獲得賞金、海外勝利(新規)

*1 上位100位以下は”その他”とする処理

 

2021年度版の取り組み1:調教師の過去5年の所属馬頭数

これまでは新規開業厩舎を含めて実績が少ない調教師についてかなり評価が低く出てしまってましたが、過去5年間で管理頭数が少ない調教師の全体傾向を学習データに取り込むことにより、新規開業厩舎の評価を適正にできるようになっています。ちなみに傾向としては過去5年間で管理頭数が10頭未満の調教師の成績は「とてもよい」ということがわかっています。

 

2021年度7月版の取り組み2:2018年生まれの取り込み

2017年産のエピファネイア、キズナなどに加えて2018年産のドゥラメンテ、モーリスなどの産駒が登場してきていますがこれまではこれらの種牡馬の成績を学習データとして使えてませんでした。今回からは2018年産のデータも取り込みかつ全体的な獲得賞金の低さの補正をすることにより適正な評価をすることができています。

 

2021年度7月版の取り組み3:海外成績

今回から新たに各馬の海外成績も取り込むことにより、日本国内で出走経験のない近親の実績データについても評価できるようになりました。

 

 

説明変数に入れてないもの

以下についてはAI評価に使用していません。

・馬の見た目(画像や動画)

・募集時馬体重など測尺情報や過去の手術歴

・2018年生まれ以前に国内に産駒がいない種牡馬評価(産駒データが少ない種牡馬・海外種牡馬は”その他”として扱っています)

・募集時よりも未来の情報(募集時よりあとの近親成績、当該馬の出走時の馬体重等)

 

機械学習モデル評価(勝ち上がり率)

勝ち上がり率については2値分類となるので現状最も精度が高いモデル(2つ比較)でのROC曲線を御覧ください。

曲線の下の面積が大きいほど=曲線が、真ん中の斜めの線から離れるほど、精度が高いということになります。

 

True Positive:AIは勝ち上がりと評価→実際に勝ち上がり(アタリ)

False Positive:AIは勝ち上がりと評価→勝ち上がりできず(ハズレ)

False Negative:AIは勝ち上がりできないと評価→勝ち上がり(ハズレ)

True Negative :AIは勝ち上がりできないと評価→実際に勝ち上がりできず(アタリ)

 

重要なのはAIが勝ち上がりと評価したものがどれだけ信用できるかです。

上の指数では

Precision = True Positive / (True Positve + False Positive)

= 57.2%と正直よくないですが、Threshold(しきい値)を0.5なので勝ち上がり率が50%以上の馬を買えば57.2%は勝ち上がり期待できることになります。

 

 

説明変数の傾向

AIが評価している説明変数から傾向見てました。もっとも勝ち上がり率に影響を与えている、牡牝、調教師、父馬(種牡馬)について解説します。

 

牡牝

過去20年の勝ち上がり率総平均が牡馬30% 牝馬17%と13ポイントも差があることからAIもやはり牡馬と牝馬に差をつけており、数値の傾向を見る限り牡牝では平均して20ポイント近くも開いているようです。

 

調教師

調教師および中央競馬(東西所属)についても私が予想していた以上に重要なパラメータとして扱われています。今回新たに追加した過去5年間の調教師の管理頭数では

0〜10→勝ち上がり率が高い(新規開業厩舎など)

10〜30→低い(リーディング下位?)

30〜50→やや高く、それよりさらに増えるとやや下がる傾向がありAIもそのあたりを織り込んでいるようです。

勝ち上がり率の数値が高く出る調教師は、藤沢 和雄(美 浦)、音無 秀孝(栗 東)、鮫島 一歩(栗 東)、堀 宣行(美 浦)、戸田 博文(美 浦)など。

また東(美浦)、西(栗東)では西のほうが高く評価されています。

 

最後に父馬(種牡馬)について、勝ち上がり率への影響が強い馬は以下のとおりです。

勝ち上がり率が高く出る種牡馬

サウスヴィグラス、ディープインパクト、ゴールドアリュール、シニスターミニスター、キンシャサノキセキ、キングカメハメハ、クロフネ、パイロ、ヘニーヒューズ

勝ち上がり率が低く出る種牡馬

グラスワンダー、タニノギムレット、ワークフォース、キングズベスト、ジャングルポケット、ハービンジャー、ノヴェリスト、エイシンフラッシュ

 

その他勝ち上がり率に影響する説明変数

牧場、母馬との年齢差、何番目の仔か、きょうだいの獲得賞金平均・海外成績、母馬の獲得賞金・海外成績、母のきょうだいの獲得賞金平均・海外成績、生まれた月日、母母の獲得賞金・海外成績、調教師の直近過去5年間の所属馬頭数

勝ち上がり率にあまり影響しない説明変数

毛色、母馬の初戦馬体重、ファミリーナンバー、一口馬主クラブ、クロス関連全般

 

まとめ

当サイトで紹介している勝ち上がり率に加えて、予想される初戦馬体重(450kg〜500kgがよい)と、最後はあなたの相馬眼(画像や動画などから)を信じて購入する馬を選んでください。

また種牡馬ごと、牧場ごと、クラブごとに最新動向や傾向にも注意すべきポイントがいろいろありそうです。学習データのボリュームの関係と過学習を防ぐためにも本AI(機械学習)では

  1. 時系列を考慮していない(いくつかの説明変数で3年前と20年前を同列に処理していて最新の状況を追いきれていない)
  2. 特定の説明変数の組み合わせ(例えばルーラシップ産駒はノーザンファームはいいが社台ファームがよくない、など)による細かい傾向まで学習しきれていない

といった課題も残ります。そのあたりは以下のデータを出資馬検討の参考にしてください。

種牡馬ごとの傾向 (2020年産駒デビュー新種牡馬)

クラブごと最新状況(ノーザン社台系 非社台系1 非社台系2