統計解析ソフト JMP ブログ

プログラミングなしで使える、インタラクティブで可視的な統計解析ソフト「JMP(ジャンプ)」です。統計初心者の方、データ分析を始めてみたい方に向けて情報を発信しています。

東京オリンピック 日本選手のメダル数予測はほぼ当たったのですが…

f:id:JMP_Japan:20210810152300p:plain

増川 直裕

東京オリンピックでの日本選手の活躍は素晴らしかったですね。期間中は連日、日本選手がメダルを獲得したニュースが流れ、感銘を受けた方が多かったのではないでしょうか。その中で、筆者は今いくつメダルを獲得しているかに大きく注目をしていました。なぜなら、大会前に日本選手が獲得するメダル数を予測する記事を書いてしまったからです。

 

下図の通り、今回の東京オリンピックでは、日本選手の獲得総メダル数(金、銀、銅の合計)が58個と過去最高となりました。2012年、2016年に比べるとメダル数は大幅に増加し、特に金メダルの獲得数に目を惹かれます。実は、大会前に筆者が書いた記事において、総メダル数は57個(正確には57.4個)と予測しましたので、かなり高い精度で予測できたことになります。

 

f:id:JMP_Japan:20210810152500p:plain

この予測には、過去2大会(2012年ロンドン、2016年リオデジャネイロ)の各国の獲得メダル数と、その前の年の各国のGDP、人口、開催国か否かという情報のみを使っています。通常、メダル数を予測するには、参加選手の過去の成績などから、この競技のこの選手はメダルが取れそうだと判断する方法が筋かと思いますが、これらの情報は全く使っていないのです。

 

結果的に実際の総メダル数に近い予測ができましたが、前の記事を書いていた時は、別の業務が立て込んでおり、また大会が始まってから予測するのは反則ですので、あまり精査せずにデータをつくり、急いて記事を書いてしまいました(言い訳になりますが…)。そのため、予測結果は良かったのですが、たまたま当たったという感もあり、反省すべきことがあります。

 

そこで、今回のオリンピックが終了した今、もう一度、総メダル数の予測を考えてみたいと思います。

 

 

■今回はたくさんのメダルが授与されたので

前回の記事では、2012年、2016年のデータを用い、総メダル数をGDP, 人口、開催国か否か(1/0) で説明するポアソン回帰モデルをあてはめた結果、各国の総メダル数 Yhat を次の式から予測しました。

 

Yhat = Exp(-9.183 +  0.854 × log10(GDP (ドル)) + 0.222 × log10(人口)+ 0.592 × 開催国(1/0))

 --- (1)

 

この式に、日本のGDP, 人口、開催国である( = 1)、という情報を代入し、日本の総メダル数は約57.4個と予測したのです。

 

ただ、この方法は次の事実を見落としています。2020年の全メダル数(全競技に対するメダルの総数)は、過去2大会に比べ大幅に増加しているのです。2012年は962個、2016年は974個に対し、今回は1080個と、100個以上も増加しているのです。新種目や復活した競技があったことが影響していると思いますが、前回の記事で予測をしたときに、どうせ大会ごとに全メダル数はそんなに変わらないだろうと思い、全メダル数が増加していることを全く調べていませんでした。

 

そのため、この式(1)により、今回のオリンピックでメダルを獲得した国を対象とし、総メダル数を予測し合計すると約960個になり、実際の1080個に対し、予測としてはかなり過少評価されているのです。データの中には、GDPの情報がない国が数か国あり、それらの国は予測値が求められないことや、メダルを獲得した国を対象とし、参加国全体を対象にしたわけではないので、実際の予測は960個よりもう少し大きくなりそうですが、それでも、大幅に過小評価されているのです。

 

このように考えると、筆者の予測である57.4個も過少評価になっており、結局のところ、日本選手のパフォーマンスが期待より思わしくなかったため、たまたま、この過小評価の予測とほぼ一致したとも考えらえます。

 

■各大会の全メダル数を考慮したモデルに

上記の式(1)は、Y(各国の総メダル数)がガンマポアソン分布に従うと仮定し、ポアソン回帰モデルをあてはめて求めた予測値です。そのため、このモデルでは、大会ごとに変動する全メダル数の情報は含まれていません。

 

そこで今度は、各国について、各大会の全メダル数に対し、どれぐらいの割合でメダルを獲得したかといったように割合を考えることにします。例えば日本の場合、2012年は38(総メダル数) / 962(全メダル数 ) = 0.040、2016年は 41/974 = 0.042、2021年は58/1080 = 0.054 と計算できます。この計算より、今回の大会で日本は、全体のメダル数に対し約5.4%のメダルを獲得したということになります。

 

この割合に対し、Yにベータ二項分布(過分散パラメータを含めた二項分布)を仮定したモデルをあてはめてみます。2012年、2016年のデータを用いて求めたパラメータの推定値は以下の通りです。

f:id:JMP_Japan:20210810152720p:plain

log10(人口) の係数がマイナスになっており、人口が増えるほどメダルの獲得割合が減少するといった式になっていますが、他の係数に比べ小さいため、特に変数選択は行わず、これらの項の推定値を使って予測することにします。

 

予測式は、関数 logist(x) = 1/(1 + Exp(-x)) を使って、次のように記述できます。

 

Yhat = logist( -16.591 + 1.079×log10(GDP (ドル)) - 0.045 × log10(人口)+ 0.503 × 開催国(1/0)) ) × (その大会の全メダル数)  --- (2)

 

■新しいモデルによる予測により、日本のパフォーマンスは?

式(2) は、2012年、2016年のデータから求めたものですが、この式を使って、今回のオリンピック(2021年)における各国の総メダル数の予測値を求めることができます。

 

下図は、総メダル数(実測値)を縦軸に、式(2) から求められる総メダル数の予測値を横軸にプロットした散布図です。斜めの黒色の線は、実測値と予測値が一致するところであり、この線より上にある国は、予測される総メダル数より実際のメダル数が多かったこと(選手のパフォーマンスは期待値より良かった)になり、下側にある国はその逆(選手のパフォーマンスは期待値より悪かった)です。

f:id:JMP_Japan:20210810152757p:plain

このグラフで、日本は真ん中あたりにプロットされていますが、黒色の線の下にあります。実際、式(2)による日本の総メダルの予測値は65.8個であり、実際は58個だったので、期待値よりパフォーマンスが悪かったということになります。

 

上のグラフで国名が表示されているプロットがありますが、これらは、今回のオリンピックにおける総メダル獲得数トップ10です。獲得数が日本より上であるアメリカ、中国、ロシア(ROC)、イギリスは、期待されるよりパフォーマンスが大幅に良かったということになります。他のトップ10の国も日本以外は、実際の数が予測の数を上回っています。

 

もちろん日本は開催国ですので、その効果が上乗せされた予測値ではありますが、あくまでもGDPと開催国の利で予測することを考えたとき(人口の効果は小さいので無視できるとし)、もう少しメダルが取れても良かったのでは、となります。

 

ちなみに、2012年、2016年、2021年すべてのデータを使って同じように予測をしてみましたが、その場合の日本の総メダル数の予測値は64.6個となり、上記の予測とあまり変わりませんでした。

 

今回のベータ二項モデルですと、2021年の予測は過大評価になっています。そのため、ベータ二項モデルの予測値は、実際の予測値より少し小さめに考えた方が良いかもしれません。ただ、過大評価に関わらず、総メダル数上位の国のパフォーマンスが良いことに驚きです。

 

■とはいっても、日本選手は頑張ったと思います

確かに今回の大会は、スケートボードや空手など、日本に有利と考えられる新競技や、野球やソフトボールのように復活した競技があったので、それだけでも、開催国の利点が十分あったかと思います。そのこともあり、今回記載した予測は開催国の効果を期待として含めたものになります。では、次回のパリオリンピックはどうなるのでしょうか。日本選手は、メダル数が大幅に減少してしまうのでしょうか。それとも、今回のメダル獲得上位国のように、期待より良いパフォーマンスを見せるのでしょうか。今回の活躍とともに、3年後の活躍にも期待しましょう。

 

今回の例に限らず、予測というのは難しいです。特にスポーツ競技には、誰にも予測できない不確定要素が多いので、それが見ている人を夢中にさせるのではないでしょうか。

 

さあ始めましょう。最新版JMP 16 のダウンロードは下から!

www.jmp.com