統計解析ソフト JMP ブログ

プログラミングなしで使える、インタラクティブで可視的な統計解析ソフト「JMP(ジャンプ)」です。統計初心者の方、データ分析を始めてみたい方に向けて情報を発信しています。

東京オリンピック 日本選手のメダル数予測はほぼ当たったのですが…

f:id:JMP_Japan:20210810152300p:plain

増川 直裕

東京オリンピックでの日本選手の活躍は素晴らしかったですね。期間中は連日、日本選手がメダルを獲得したニュースが流れ、感銘を受けた方が多かったのではないでしょうか。その中で、筆者は今いくつメダルを獲得しているかに大きく注目をしていました。なぜなら、大会前に日本選手が獲得するメダル数を予測する記事を書いてしまったからです。

 

下図の通り、今回の東京オリンピックでは、日本選手の獲得総メダル数(金、銀、銅の合計)が58個と過去最高となりました。2012年、2016年に比べるとメダル数は大幅に増加し、特に金メダルの獲得数に目を惹かれます。実は、大会前に筆者が書いた記事において、総メダル数は57個(正確には57.4個)と予測しましたので、かなり高い精度で予測できたことになります。

 

f:id:JMP_Japan:20210810152500p:plain

この予測には、過去2大会(2012年ロンドン、2016年リオデジャネイロ)の各国の獲得メダル数と、その前の年の各国のGDP、人口、開催国か否かという情報のみを使っています。通常、メダル数を予測するには、参加選手の過去の成績などから、この競技のこの選手はメダルが取れそうだと判断する方法が筋かと思いますが、これらの情報は全く使っていないのです。

 

結果的に実際の総メダル数に近い予測ができましたが、前の記事を書いていた時は、別の業務が立て込んでおり、また大会が始まってから予測するのは反則ですので、あまり精査せずにデータをつくり、急いて記事を書いてしまいました(言い訳になりますが…)。そのため、予測結果は良かったのですが、たまたま当たったという感もあり、反省すべきことがあります。

 

そこで、今回のオリンピックが終了した今、もう一度、総メダル数の予測を考えてみたいと思います。

 

続きを読む

国の豊かさから日本選手のメダル数を予測してみる

f:id:JMP_Japan:20210721111429j:plain

増川 直裕

あ、急がないと東京オリンピックが始まってしまう… 開幕前に急いで記事を書いています。メダル数の予測は、開幕前にしないと意味がないですので。

 

オリンピックで各国の獲得するメダルの数(金、銀、銅の総数)は、その国のGDP国内総生産)と関連があると言われています。これは、豊かな国の方が、多くの才能をもった選手の潜在能力を高められるという考え方からです。もちろん、その国の人口が多いほど、能力が高い選手が出てくる可能性は高いので、その国の人口も関連がありそうですが、GDPの方が重要と見られています。

 

他にも、開催国の選手が有利に働くという考え方があります。今回の開催国は日本なので、日本選手が活躍するのに有利な状況なのでしょう。

 

そこで本記事では、過去のオリンピックから、”GDP”、”人口”、”開催国か否か”の3つの要因でメダルの獲得数を説明する回帰モデルを作成し、東京オリンピックにおける日本選手のメダル数を予測してみます。

 

この予測は、選手の背景や運動能力などの情報を一切用いず、国の人口や経済状況で予測することが興味深いです。

 

■分析対象とメダル総数の分布

分析対象として、直近2回のオリンピックである2012年(ロンドン)、2016年(リオデジャネイロ)に対し、1つでもメダル(金、銀、銅のいずれか)を獲得した国を対象とし、各国の総メダル数(金、銀、銅の合計)を目的変数としました。

(本当は、メダルを獲得していない国も含めて解析すべきですが、データの作成に手間がかかることから、今回の解析では含めませんでした。)

 

説明変数となるGDP(ドル)、人口のデータは世界銀行のオープンデータ(

https://data.worldbank.org/)を中心に取得し、オリンピック前年のデータを用いることにします。2012年の総メダル数には2011年のGDPと人口を、2016年の総メダル数には2015年のGDPと人口を対応させました。ただし、人口、GDPの情報が得られない国は、解析の対象外としました。

 

それぞれのオリンピックについて、以下に、総メダル数のヒストグラムを示します。横軸は総メダル数を示し、縦軸の度数は該当する国の数になります。

f:id:JMP_Japan:20210721111713p:plain

f:id:JMP_Japan:20210721111726p:plain

2012年、2016年の分布の形状は似ており、右に裾を引いています。多くのメダルを獲得できるのは、アメリカ、中国、イギリス、ロシアなどごく一部の国であり、ほとんどの国は、10個以下なのです。

 

このデータに離散分布であるポアソン分布をあてはめたのが水色の曲線ですが、あてはまりは良くありません。一方、過分散パラメータも含めた負の二項分布(ガンマポアソン分布)をあてはめたものが赤い曲線ですが、こちらの方があてはまりは良くなっています。

 

そこで、Yがガンマポアソン分布に従うと仮定した、ポアソン回帰モデルをあてはめてみます。

 

■回帰モデルのあてはめ

総メダル数を目的変数(Y) とし、次の説明変数に対して、ポアソン回帰モデル(最尤法により推定)をあてはめます。

 

GDP(ドル)、人口については、常用対数(底が10の対数)をとったものを説明変数として用います。

開催国については、開催国であれば1、それ以外であれば0の値をとるダミー変数を用います。例えば、2016年はリオデジャネイロで開催したので、2016年のデータに対しブラジルであれば1、それ以外の国は0の値をとります。

 

(事前に開催年(2012年、2016年)をブロック効果としたモデルをあてはめてみましたが、ブロック効果は見られなかったため、2012年、2016年をまとめたデータを解析対象としました。)

f:id:JMP_Japan:20210721111806p:plain

これより、ポアソン回帰の結果は、総メダル数の予測値 Yhatを用い、次の式(1)で表されます。

 

log (Yhat) = -9.183 +  0.854 × log10(GDP (ドル)) + 0.222 × log10(人口)+ 0.592 × 開催国(1/0)

--- (1)

 

すべての説明変数にかかる係数がプラスなので、GDPが大きいほど、人口が多いほど、開催国であるほど、総メダル数の予測値は高くなることがわかります。特にカイ2乗値やp値より、GDPが強い要因であることがわかります。

 

人口や開催国は有意差がないので、予測の観点からは、これらをモデルから除くことも考えられますが、この解析では、残しておくことにします。特に開催国の情報は、東京オリンピックにおける日本選手の総メダル数を予測するのに必要な変数だと考えています。

 

このモデルのあてはまりの良さを調べてみましょう。R2乗は約0.55であり、これら3つの説明変数であてはめた結果としては、まあまあ良いのではないかと思います。

 

なお、各国の総メダル数は、上記(1)式の両辺に対して指数をとり、次の式(2)から予測値 Yhatを求めることができます。

 

Yhat = Exp(-9.183 +  0.854 × log10(GDP (ドル)) + 0.222 × log10(人口)+ 0.592 × 開催国(1/0))

 --- (2)

 

下図は、各国ごとに、総メダル数(実測値)を縦軸に、式(2) から求められる総メダル数の予測値を横軸にプロットした散布図です。オレンジ色は2012年のデータ、赤色は2016年のデータであり、斜めの黒色の線は、実測値と予測値が一致するところです。

f:id:JMP_Japan:20210721111923p:plain

黒い線にのっている、または付近に位置するデータは、この式による実際の総メダル数をうまく予測できていることになります。黒い線から遠い位置にあるデータがいくつもありますが、これらは、やはりGDPや人口、開催国では説明できない要因があるのでしょう。

 

散布図で、プロット点を塗りつぶしてあるものは日本のデータです。2012年、2016年とも、実測と予測がそんなに大きくずれてはいません。黒い線より上側に位置するので、日本選手は過去の2大会で、期待される総メダル数(予測値)より、多くメダルを獲得したということになります。

 

東京オリンピックにおける日本選手の総メダル数を予測

式(2) に対し、日本のGDPと人口(それぞれ2019年のデータを使用)、開催国であることを代入し、東京オリンピックでの日本選手の総メダル数を予測してみます。

 

下図は、予測式を可視化したグラフです。横軸に説明変数、縦軸に目的変数が記載されていますが、横軸の説明変数が赤色の値をとるときの予測値が、縦軸に赤色で記載されています。

f:id:JMP_Japan:20210721111956p:plain

横軸の赤い数字 12.7, 8.1, 1 は、それぞれ2019年における日本のGDP(常用対数)、人口(常用対数)、開催国であることを示しており、このときの総メダル数の予測値が約57.4です。小数第1位を四捨五入して、日本は57個メダルを獲得すると予測します

 

ただし、この予測は誤差が大きく、縦軸の青色で示される95%信頼区間は、18.9~174.7 と非常に区間が広くなっていることに注意が必要です。予測に対し上振れする結果になれば、それはそれで望ましい結果ですが…

 

■あくまでも予測ですので

過去2回のオリンピックでの日本選手の総メダル数は、2012年のロンドンオリンピックでは38個、2016年のリオデジャネイロオリンピックでは41個です。今回求めた予測値どおり57個も取れれば、万々歳でしょう。

 

今回はコロナ禍のオリンピックのため、今までのオリンピックの常識が当てはまらないことが考えられます。日本以外の選手が新型コロナウィルスの流行のため不参加を表明する、感染して参加できなくなることは日本に有利に働くかもしれません。一方、ほとんどの競技が無観客で行われるので、競技場での直接の応援が無くなることは日本にとって不利に働くかもしれません。

 

実際、日本選手はいくつのメダルを獲得したのか?それはオリンピックの最後に判明します。その頃には、今回の予測結果を検証してみようと思います。

 

さあ始めましょう。最新版JMP 16 のダウンロードは下から!

www.jmp.com

熱中症と関係する指数「暑さ指数(WBGT)」を知り、今年の熱中症対策を!

増川 直裕

 

今年(2021年)の夏も全国的に暑くなると予想されています。外出するときは、マスクをつけながらの行動が求められていますので、熱中症には十分注意ですね。

 

ところで近年、暑さを示す指数として気温の他に、”暑さ指数(WBGT)” という指数を見聞きするようになりました。私は昨年、初めてこの指数を知りましたが、熱中症と関係する指数で、気温だけでなく、湿度などの情報を取り入れて算出されたものであることが分かりました。

 

昨年の夏に、ときどき熱中症警戒アラートという放送が流れていましたが、このアラートは暑さ指数をもとに算出されているようです。暑さ指数については、以下の環境省熱中症予防情報サイトに詳しく、分かりやすい説明があります(以下、暑さ指数をWBGTと表記します)。

 

環境省 熱中症予防情報サイト

https://www.wbgt.env.go.jp/wbgt.php

 

夏の暑い時期になると、”今日は熱中症で〇〇名が病院に搬送されました” というような報道がニュース等で流れます。WBGTが熱中症と関係するのであれば、WBGTの予報を意識することによって、この日はあまり外に出ない、運動をしないなど熱中症対策を事前に行うことができるのでしょう。

 

そこで本記事では、公開されているデータからWBGT、気温、熱中症救急搬送者数の3つの関係を調べ、WBGTと熱中症の関係をより詳しく把握してみます。

続きを読む

プロ野球 ホームでは応援が力になるって本当なのか? ~2020年の特殊な応援状況により調べてみた~

増川 直裕

 

今年のプロ野球は、福岡ソフトバンクホークスが日本一になり幕を閉じました。昨年に続き、読売ジャイアンツ(以下:巨人)に対し4連勝したため、パ・リーグセ・リーグの実力差が話題に挙がっていますが、日本シリーズの1、2戦で巨人はホーム球場である東京ドームで試合ができず、京セラドーム大阪で戦わないといけなかったことはホームチームの利を考えたとき不利な状況だったと思います。

f:id:JMP_Japan:20201204142811j:plain

2020年(今年)のプロ野球レギュラーシーズンにおいて、ホームチームの勝率は57.6%でした。

 

新型コロナウイルスの影響で無観客、または観客数を制限しての開催となり、ホームチームの応援が例年に比べて少なくなったにも関わらず、57.6%という勝率は高いように感じませんか?

 

この勝率は2020年の引き分けを除いたホームチームの全試合を対象にしており、680試合中392勝しています。”勝ち”の割合に対する95%信頼区間を調べてみると、下側は53.9%、上側は61.3%です。

f:id:JMP_Japan:20201204142933p:plain

下側95%信頼限界(53.9%)が50%を超えているので、ホームチームが勝ちの割合が有意に高いことになりますが、応援があまりなかったにも関わらず、ホームチームの勝率は高いのです。

 

ホームチームの応援の効果って本当にあるのでしょうか?そこで、2020年の応援に関する特殊な状況を利用して調べてみます。

続きを読む

「コロナ離婚」は本当に起こっているのか? データ分析によりわかる本当の傾向

                                   増川 直裕

 

今年(2020年)4月に緊急事態宣言が出されたころ、自粛により家に夫婦が一緒にいる時間が長くなることで夫婦間の仲が悪くなる、価値観の違いが露呈したことなどを原因とした離婚、いわゆる「コロナ離婚」が話題に挙がりました。テレビやネットのニュースでは、コロナ禍で離婚した夫婦のインタビューや記事を流れていましたので、あたかもこの渦中に多くの夫婦が離婚しているのではないかという印象を受けた方も多いのではないでしょうか。

 

ただ、離婚件数に関するデータを分析してみると、印象とは異なる興味深い結果が得られます。本記事では、離婚件数のデータを分析してみることにより、現時点で分かるコロナ離婚の実態を調べてみます。

 

続きを読む

プロ野球ファン必見!熱心な応援がホームゲームの勝率に貢献するって本当?

f:id:JMP_Japan:20200831113332j:plain

今年(2020年)はコロナウィルスの影響で、軒並みスポーツの試合が中止、または延期されましたが、その中で、5月に一足早く開幕したドイツのサッカーリーグでは、ホームチームの勝率が異常に低くなっていることがニュース等で話題になりました。

 

本来、サッカーであれば熱狂的なホームチームのサポーターが勝利を後押しするという構図が思い浮かびますが、この時は無観客試合になっているためホームチームの勝率が低くなっているのではないかと言われていました。

 

多くのチームスポーツで、ホームチームにアドバンテージがあることが言われていますが、単にサポーターの応援だけがアドバンテージの要因となっているわけではないと思います。地元で戦えるのでアウェイチームに比べて移動の負担が少ないことや、ホームチームに有利と考えられる試合のルールなど応援だけでないさまざまな要因が絡んでくるはずです。

 

続きを読む

祝!藤井聡太新棋聖 持ち時間が長い方が強いってホント?

藤井棋聖は、将棋では不利とされる後手番が非常に多いにも関わらず、高い勝率を残していることを前回の記事で書きました。

jmp-japan.hatenablog.com

今回の記事では、持ち時間と勝率の関係を調べてみます

続きを読む