説明変数=パラメータを選ぶ
これまでの傾向から説明変数を選択していきます。
毛色
これは毛色によって傾向があったので入れます。また父母とそれぞれ毛色が同じかどうかについても入れておきます。毛色による分析はこちら
性別
牡馬の方が牝馬より少し収支が良かったようなのでこれも説明変数にいれます。
母馬との年齢差
こちらは8歳差くらいが一番良かったようでした。これも入れます。ただし、年齢差をそのまま数値として扱ってしまうと5歳差にたいして10歳差が2倍影響あるというように扱われてしまいます。そこでBinで分けてカテゴリ化します。
クロスの本数
これはあまり傾向があったとは言いづらいですが、血統要素も入れておきたいので、これも同様にカテゴリ化して入れてみます。
生まれた月
3、4、5月生まれが良かったようなのでこれも入れておきます。「日」は入れません。また、これも同じ理由でカテゴリ化します。
何番目の子か
これは当該馬が2番目の子であるときがもっとも良かったようでした。これもカテゴリ化して入れておきます。