プロジェクション(成績予想)
概要
プロジェクションとは選手の成績予想のための仕組みのことです。方法は各団体/各分析者によって異なりますが、主に選手自身が過去数年間に記録した成績を根拠とし、年齢や環境の変化といった要因を補正することで予想します。プロジェクションシステムは主に米国で無数に開発され、著名なものとしてPECOTAやMarcelがあります。
当サイトのプロジェクション(BD)
大まかな考え方
年度と所属チームの組み合わせで分けた成績(※成績表の1行のことです)を1つの成績のかたまりと考えます。成績に対して環境の補正をします。さらにどの成績が将来を予測する上で信用できるか決めて参照します(※主に、出場機会が多く新しい成績は信用できます)。データ不足等で信用できないとされた分は所属するリーグの平均を参照します。以下でもう少し詳しく説明します。
使う成績
成績予想のために使う成績の対象リーグは以下の通りです。これらはある程度リーグ間移籍が活発なためリーグレベルが推計可能なものです。
- セントラルリーグ、パシフィックリーグ、イースタンリーグ、ウエスタンリーグ(NPB)
- アメリカンリーグ、ナショナルリーグ、マイナー3A級、マイナー2A級(MLB、MiLB)
- 韓国プロ野球、メキシカンリーグ(その他海外)
- アメリカンアソシエーション、アトランティック(米独立)
- ドミニカ、ベネズエラ、プエルトリコ、メキシコ(冬季)
成績の信用度を設定する
当システムにおける「成績の信用度」は、成績を混ぜ合わせる段階での優先度に影響します。
- 年度が古い場合は1年ごとに信用度を1つ下げる
- 予想対象リーグと異なる階層のリーグでの成績であれば信用度を1つ下げる
- 予想対象リーグと異なる機構のリーグでの成績であれば信用度を1つ下げる
リーグバランス補正をする
NPBにおいて2011-2012年は飛ばなすぎるボールが使われ、全体の打者成績が低下したことが知られています。このような環境の変化を無視する目的で成績を全てリーグ平均比にします。
次に予想対象リーグの平均成績をかけることでリーグバランスに適応した成績予想をしていきます。ただしこうした処理で実際に記録された打席数が変わらないようにします。
球場補正をする
パークファクターによる補正を行います。2021年時点でパークファクターはNPBは1,2軍ともに最新のデータを、MLBとMiLBは2019年までのデータを使用しています。
メキシカンリーグについてはパークファクターのデータを所有していないものの、球場環境差が極端に大きいために標高による推定値で補正します(※メキシカンリーグには標高2000mの球場が存在します)。パークファクターと標高の関係についてはMLBとMiLBのデータから調査しています。
その他のリーグについてはパークファクター補正を行いません。
リーグレベル補正をする
リーグレベルによる補正を行います。リーグレベルはリーグ間移籍をした選手の成績の変化を集計して推定しています。
年齢補正をする
予想対象年度と成績が記録された当時の年齢のギャップによる補正を行います。補正はエイジングカーブと呼ばれる年齢によるパフォーマンスの変化のデータをもとに行います。
成績を混ぜる
初めに同じ信用度の成績があれば合算して1つにします。次に成績を信用度の高い順に並び替えた上で参照率を決めていきます。項目ごとに設定された定数と出場機会と順番に基づいて、どの成績を何%参照するか決まります。
定数は期間相関の研究から算出しています。打者は110打席に立てばその期間とその次の期間の三振率に0.5の相関を得ます。この110が定数となります。
平均を混ぜる
リーグの平均レベルの値を混ぜます。選手についてのデータが十分あることで詳しく知っていればその情報を信頼し、知らなければそのぶん所属集団の平均レベルを想定するという考え方です。
リーグの平均レベルの値を混ぜる割合は選手と項目によって異なります。具体的には、各項目の定数に対しての打席数の割合で参照する割合を決めます。定数は先に説明したものが使われます。
リーグの平均レベルの値とは先述のリーグレベルから想定されるそのリーグの選手が残す平均的な成績(の各項目の値)のことです。
備考
2022年現在、成績予測の実数値は掲載しておりませんが、選手個別ページにてこの仕組みを利用したプレースタイル指数を掲載しています。
疑問点があればお問い合わせください。