統計解析ソフト JMP ブログ

プログラミングなしで使える、インタラクティブで可視的な統計解析ソフト「JMP(ジャンプ)」です。統計初心者の方、データ分析を始めてみたい方に向けて情報を発信しています。

国の豊かさから日本選手のメダル数を予測してみる

f:id:JMP_Japan:20210721111429j:plain

増川 直裕

あ、急がないと東京オリンピックが始まってしまう… 開幕前に急いで記事を書いています。メダル数の予測は、開幕前にしないと意味がないですので。

 

オリンピックで各国の獲得するメダルの数(金、銀、銅の総数)は、その国のGDP国内総生産)と関連があると言われています。これは、豊かな国の方が、多くの才能をもった選手の潜在能力を高められるという考え方からです。もちろん、その国の人口が多いほど、能力が高い選手が出てくる可能性は高いので、その国の人口も関連がありそうですが、GDPの方が重要と見られています。

 

他にも、開催国の選手が有利に働くという考え方があります。今回の開催国は日本なので、日本選手が活躍するのに有利な状況なのでしょう。

 

そこで本記事では、過去のオリンピックから、”GDP”、”人口”、”開催国か否か”の3つの要因でメダルの獲得数を説明する回帰モデルを作成し、東京オリンピックにおける日本選手のメダル数を予測してみます。

 

この予測は、選手の背景や運動能力などの情報を一切用いず、国の人口や経済状況で予測することが興味深いです。

 

■分析対象とメダル総数の分布

分析対象として、直近2回のオリンピックである2012年(ロンドン)、2016年(リオデジャネイロ)に対し、1つでもメダル(金、銀、銅のいずれか)を獲得した国を対象とし、各国の総メダル数(金、銀、銅の合計)を目的変数としました。

(本当は、メダルを獲得していない国も含めて解析すべきですが、データの作成に手間がかかることから、今回の解析では含めませんでした。)

 

説明変数となるGDP(ドル)、人口のデータは世界銀行のオープンデータ(

https://data.worldbank.org/)を中心に取得し、オリンピック前年のデータを用いることにします。2012年の総メダル数には2011年のGDPと人口を、2016年の総メダル数には2015年のGDPと人口を対応させました。ただし、人口、GDPの情報が得られない国は、解析の対象外としました。

 

それぞれのオリンピックについて、以下に、総メダル数のヒストグラムを示します。横軸は総メダル数を示し、縦軸の度数は該当する国の数になります。

f:id:JMP_Japan:20210721111713p:plain

f:id:JMP_Japan:20210721111726p:plain

2012年、2016年の分布の形状は似ており、右に裾を引いています。多くのメダルを獲得できるのは、アメリカ、中国、イギリス、ロシアなどごく一部の国であり、ほとんどの国は、10個以下なのです。

 

このデータに離散分布であるポアソン分布をあてはめたのが水色の曲線ですが、あてはまりは良くありません。一方、過分散パラメータも含めた負の二項分布(ガンマポアソン分布)をあてはめたものが赤い曲線ですが、こちらの方があてはまりは良くなっています。

 

そこで、Yがガンマポアソン分布に従うと仮定した、ポアソン回帰モデルをあてはめてみます。

 

■回帰モデルのあてはめ

総メダル数を目的変数(Y) とし、次の説明変数に対して、ポアソン回帰モデル(最尤法により推定)をあてはめます。

 

GDP(ドル)、人口については、常用対数(底が10の対数)をとったものを説明変数として用います。

開催国については、開催国であれば1、それ以外であれば0の値をとるダミー変数を用います。例えば、2016年はリオデジャネイロで開催したので、2016年のデータに対しブラジルであれば1、それ以外の国は0の値をとります。

 

(事前に開催年(2012年、2016年)をブロック効果としたモデルをあてはめてみましたが、ブロック効果は見られなかったため、2012年、2016年をまとめたデータを解析対象としました。)

f:id:JMP_Japan:20210721111806p:plain

これより、ポアソン回帰の結果は、総メダル数の予測値 Yhatを用い、次の式(1)で表されます。

 

log (Yhat) = -9.183 +  0.854 × log10(GDP (ドル)) + 0.222 × log10(人口)+ 0.592 × 開催国(1/0)

--- (1)

 

すべての説明変数にかかる係数がプラスなので、GDPが大きいほど、人口が多いほど、開催国であるほど、総メダル数の予測値は高くなることがわかります。特にカイ2乗値やp値より、GDPが強い要因であることがわかります。

 

人口や開催国は有意差がないので、予測の観点からは、これらをモデルから除くことも考えられますが、この解析では、残しておくことにします。特に開催国の情報は、東京オリンピックにおける日本選手の総メダル数を予測するのに必要な変数だと考えています。

 

このモデルのあてはまりの良さを調べてみましょう。R2乗は約0.55であり、これら3つの説明変数であてはめた結果としては、まあまあ良いのではないかと思います。

 

なお、各国の総メダル数は、上記(1)式の両辺に対して指数をとり、次の式(2)から予測値 Yhatを求めることができます。

 

Yhat = Exp(-9.183 +  0.854 × log10(GDP (ドル)) + 0.222 × log10(人口)+ 0.592 × 開催国(1/0))

 --- (2)

 

下図は、各国ごとに、総メダル数(実測値)を縦軸に、式(2) から求められる総メダル数の予測値を横軸にプロットした散布図です。オレンジ色は2012年のデータ、赤色は2016年のデータであり、斜めの黒色の線は、実測値と予測値が一致するところです。

f:id:JMP_Japan:20210721111923p:plain

黒い線にのっている、または付近に位置するデータは、この式による実際の総メダル数をうまく予測できていることになります。黒い線から遠い位置にあるデータがいくつもありますが、これらは、やはりGDPや人口、開催国では説明できない要因があるのでしょう。

 

散布図で、プロット点を塗りつぶしてあるものは日本のデータです。2012年、2016年とも、実測と予測がそんなに大きくずれてはいません。黒い線より上側に位置するので、日本選手は過去の2大会で、期待される総メダル数(予測値)より、多くメダルを獲得したということになります。

 

東京オリンピックにおける日本選手の総メダル数を予測

式(2) に対し、日本のGDPと人口(それぞれ2019年のデータを使用)、開催国であることを代入し、東京オリンピックでの日本選手の総メダル数を予測してみます。

 

下図は、予測式を可視化したグラフです。横軸に説明変数、縦軸に目的変数が記載されていますが、横軸の説明変数が赤色の値をとるときの予測値が、縦軸に赤色で記載されています。

f:id:JMP_Japan:20210721111956p:plain

横軸の赤い数字 12.7, 8.1, 1 は、それぞれ2019年における日本のGDP(常用対数)、人口(常用対数)、開催国であることを示しており、このときの総メダル数の予測値が約57.4です。小数第1位を四捨五入して、日本は57個メダルを獲得すると予測します

 

ただし、この予測は誤差が大きく、縦軸の青色で示される95%信頼区間は、18.9~174.7 と非常に区間が広くなっていることに注意が必要です。予測に対し上振れする結果になれば、それはそれで望ましい結果ですが…

 

■あくまでも予測ですので

過去2回のオリンピックでの日本選手の総メダル数は、2012年のロンドンオリンピックでは38個、2016年のリオデジャネイロオリンピックでは41個です。今回求めた予測値どおり57個も取れれば、万々歳でしょう。

 

今回はコロナ禍のオリンピックのため、今までのオリンピックの常識が当てはまらないことが考えられます。日本以外の選手が新型コロナウィルスの流行のため不参加を表明する、感染して参加できなくなることは日本に有利に働くかもしれません。一方、ほとんどの競技が無観客で行われるので、競技場での直接の応援が無くなることは日本にとって不利に働くかもしれません。

 

実際、日本選手はいくつのメダルを獲得したのか?それはオリンピックの最後に判明します。その頃には、今回の予測結果を検証してみようと思います。

 

さあ始めましょう。最新版JMP 16 のダウンロードは下から!

www.jmp.com