統計解析ソフト JMP ブログ

プログラミングなしで使える、インタラクティブで可視的な統計解析ソフト「JMP(ジャンプ)」です。統計初心者の方、データ分析を始めてみたい方に向けて情報を発信しています。

JMPスーパーユーザーインタビュー vol.1

f:id:JMP_Japan:20200513154120j:plain

三井 正 氏

東芝半導体サービス&サポート株式会社 データサイエンス推進グループ長

 

JMPユーザー歴:

1994年から

 

私の意外な一面:

家具作りなどの木工作業全般が趣味です。特にWood Carvingは本格的に取り組んでいるので、作品を紹介させてください。私の作品は自然の木の特性を活かして色を塗らずに仕上げるのが特徴です。これはLoon(和名:ハシグロアビ)の親子をモチーフにした小物入れです。雛が蓋になっていて、その中に腕時計が入れられるようになっています。

f:id:JMP_Japan:20200513154204j:plain

 

1.近況についてお話しいただけますか?

ここ数年は、半導体の研究開発の場でJMPを「使う」立場から、コンサルタントとしてJMPを使った実験計画を「教える」立場へと緩やかに移行していました。今までは関連会社内での活動を主体としていましたが、更に多くの技術者にJMPの楽しみを知ってもらうために、昨年『JMPではじめるデータサイエンス』(オーム社)を上梓しました。今後はもっと自由な立場で活動していく予定なので、JMPユーザーと直接お話しする機会が増えることを楽しみにしています。

 

2.JMPの機能で1番気に入っているものは?

JMPには、とにかく使っているだけでも楽しかったという初期のMacのDNAが残っています。統計ソフトとしてそれだけでも十分満足していますが、数ある機能の中で1つだけあげるならば「パーティション」が気に入っています。対話的とはかくあるべきという見本として、JMPの基本コンセプトを体感できる素晴らしい機能です。

 

3.初めての仕事は何でしたか?

東芝の府中工場で、イオンビームを使った超高真空分析装置の開発に従事していました。装置の設計だけでなく、製造・販売も手がけるグループだったので、イオン光学系のシミュレーションから装置の板金加工や営業回り、展示会の説明員まで何でもやりました。今になっては、とても良い経験になりました。

 

4.JMPに関心を持ったきっかけは何でしたか?

その後、半導体の研究開発の場で新しい計測技術を開発し、ユーザーに提供する立場に異動します。そこでは、計測装置の性能を向上するために、以前からMATLABを使った計測データの分析を手がけてはいました。あるとき、装置性能の向上だけでなく、その装置をユーザーにうまく使ってもらうかまでケアしなければならないと思い立ったのです。当時からMacユーザーであった私がJMPに巡り合うのには時間はかかりませんでした。

 

5.プロフェッショナルとして1番誇らしく感じた瞬間は?

自分の開発した計測システムが実際に量産工場に展開できたときです。詳しいことは書けないのですが、分散コンピューティングを実装したWEBアプリケーションとして今でも通用するコンセプトだったと思っています。関連特許もたくさん書くことができました。

 

6.仕事のどの部分が1番好きですか?

コンサルタントとしての体験でお話ししますと、やはり技術者に喜んでもらえることです。ある製品の欠陥問題に取り組んで成功した事例では「今まで何年も解決できなかった問題が片付いて、これで他の仕事にとりかかれます。」と言われて、ともに苦労して良かったと思いました。

 

7.最近JMPをどのように活用していますか?

コンサルタント業務としては、何と言っても「実験計画」に大変お世話になっています。それ以外にも、最近はJMPを使って統計学を教えることに取り組んでいるところです。特に、ヘルプメニューの「サンプルデータ」にある「教育用スクリプト」には優れた教育用のスクリプトが多くあるので、大変役立っています。そのうちのいくつかは、拙著でも紹介していますので、興味ある方は参考にしてください.

 

8.JMPを用いた最初のプロジェクトは何でしたか?

JMPが直接業務に役立ったのは1990年の後半でした。あれから20年以上経ってしまったことになりますが、当時、私はアメリカのバージニア州にある半導体の量産工場で計測装置を担当していました。半導体の製品はロット、ウェハ、チップと層別化されているという特徴があります。そこで、量産計測データを分散分析して、製品ごとに問題点を洗い出すことができました。

 

9.JMPの開発者やジョン・ソール氏に何か伝えたいことはありますか?

Mac OSiOSライクに変貌を遂げているように、JMPもMacのDNAを残しつつ、これからも進化し続けてください。個人的には、私のようにコンサルタントとしてJMPを間接的に使う立場の者の意見も取り込んでいただけたらと思っています。例えば「ジャーナル」にはお願いしたい改良がいろいろあります。

 

10.今後20~50年でデータサイエンスやアナリティクスの分野はどうなると思いますか?

お金が儲かるということが周知されてきたこともあって、現在多くの企業がこの分野に注目しています。とはいえ、表計算ワープロといったPCソフトの普及を顧みれば、このダイナミックな変革の後に来るのは常態化です。そこでは、データサイエンスを知っているのは当たり前で、自らの知見と融合して行動を起こせるスキルが何よりも重要になっていくでしょう。

 

さあ始めましょう。最新版JMP 15 のダウンロードは下から!

www.jmp.com

 

COVID-19 日本の都道府県別感染状況を可視化する

次の図は、新型コロナウイルス(COVID-19)の都道府県別の感染状況を示しています。各都道府県にある円をバブルと呼びますが、このバブルが大きいほど感染者数が多いことを示します。

(データの出典:厚生労働省 都道府県別の患者報告数 2020/4/19)

f:id:JMP_Japan:20200423145621p:plain

ご存じの通り東京都の感染者数が多いため、東京都のバブルは最も大きくなっています。東京都のバブルに隠れてはいますが、関東地方の神奈川県、千葉県、埼玉県のバブルも大きいです。近畿地方では、大阪府兵庫県のバブルが大きく、他にも福岡県、北海道のバブルが大きくなっています。

 

以降では別の可視化方法を用い、都道府県別の感染者数を比較してみます。

 

  • 面積で比較する

都道府県別の感染者数をツリーマップで表してみます。

 

ツリーマップは、多くのカテゴリがあるパターンを調べるときに有効なグラフです。この例でのカテゴリは”都道府県”であり、47個のカテゴリがあります。各カテゴリの長方形の大きさ(面積)が、そのカテゴリの度数を示します。この例での度数は、”感染者数” です。

 

以下のツリーマップでは、地方(関東、近畿など)で色分けし、都道府県の位置情報をある程度反映させたものです。

f:id:JMP_Japan:20200423145626p:plain

地方別に見ると関東地方(赤色)が全体の半分程度を占めることがわかります。その中でも東京都は半分以上を占めています。次いで近畿地方(緑色)が大きいことや、九州地方の中で福岡県が大きく占めていることなどがわかります。逆に中国地方や四国地方は、全体に対し小さいです。

  • 大きいところを強調して

パレートの法則という有名な法則をご存じでしょうか。「全体の上位2割で全体の8割を占める」という法則です。たとえばある会社でいくつかの製品を販売しているとき、全体の上位2割の製品で売上の8割を占める。だから、上位2割の製品に力を注ぐ方が良いといった感じです(最近はロングテール理論というものもあり、上位2割以外のものに注視するという考え方もあります)。

 

上記の感染者数の状況がパレートの法則に従っているかを確認するために、パレート図を作成してみます。

 

パレート図とは、カテゴリの度数が大きい順に割合の棒グラフを描いていき、折れ線で累積割合を示すグラフです。この例では、都道府県別に感染者数が多い順に棒グラフを描いていきます。

f:id:JMP_Japan:20200423145659p:plain

 上記のパレート図で、赤色で示したのが値の大きい上位10都道府県です。東京都、大阪府と続き、最後が京都府ですが、これらの都道府県が上位約2割です( 10 / 47 = 0.213)。上側の折れ線グラフをみると、この10都道府県で全体の約8割( =0.802) を占めており、パレートの法則が成立していることがわかります。

 

そのため、上位に着目した次のような棒グラフを描いてみます。

 

上位10位までは値の大きさを棒グラフで示し、上位11位以降は、棒グラフを積み重ねて1つの棒グラフにします。

f:id:JMP_Japan:20200423145703p:plain

上位11位以降は石川県、茨城県・・・と続きますが、これらの度数をすべて足し合わせても、東京都より小さいことがわかります。

 

 

今回の可視化に関連する情報は、以下のページで確認することができます。今回分析の対象とした2020/4/19より前の状況も掲載しており、感染者数のほかに、人口1万人あたりの感染者数、死亡者数などのデータの可視化もインタラクティブに行うことができます。

 

public.jmp.com

 

ただ私の切なる願いは、感染者数がいなくなり、このようなデータの集計、可視化をしなくて良くなることです。

さあ始めましょう。最新版JMP 15 のダウンロードは下から!

www.jmp.com

 

改元前に区切りをつける男女たち -時系列分析で平成末の離婚増加を検証してみた-

本記事では月ごとの離婚件数のデータを用いて、時系列を季節要因、トレンド、不規則系列に分解してみます。季節要因を除いてみると、平成末の離婚傾向に対する ”ある特徴” がわかります。

 

日本で3は別れの月ですね。今年はCOVID-19(新型コロナウィルス感染症)の影響で卒業式が中止になったり、送別会が中止になったりと散々ではありますが、人生で何かひと区切りをつける月でもあったりします。

 

“離婚”という悲しい別れを経験する方もいらっしゃることでしょう。ニュースではよく有名人の離婚について報道されますが、実際のところ離婚件数は増えているのでしょうか? 厚生労働省の人口動態統計を参照することにより、月ごとの離婚件数がわかりますので、2014年1月~2019年12月(本記事執筆時点における最新の公表月)の離婚件数*について考察してみます。

*注意:すべての月に対し速報値のデータを用いています。

 

  • 年ごとの離婚件数は?

まずは、各年の離婚件数を棒グラフにしてみます。

f:id:JMP_Japan:20200304144754p:plain

年ごとの離婚件数は、2015年から徐々に減少していますが、2019年に若干上昇に転じています。2018年の離婚件数が212,393件であるのに対し、2019年は212,955件です。

 

参考までに、年ごとの離婚件数と婚姻件数を折れ線グラフにした図を示します。上側の青色の折れ線が離婚件数を、下側の赤色の折れ線が婚姻件数です。似たような傾向をしていますね。そもそも結婚していないと離婚はできないので、離婚件数は婚姻件数にも関係しているはずです。

f:id:JMP_Japan:20200304145014p:plain

  • 月ごとの離婚件数の傾向は

2019年の離婚件数が、その前の年と比較して少し多くなったのはなぜでしょうか。そこで今度は月ごとの離婚件数を折れ線グラフにしてみます。

f:id:JMP_Japan:20200304145031p:plain

このグラフから、離婚件数は明らかな月ごとの傾向(季節性)を持っていることです。やはり顕著なのは3月で、他の月に比べ圧倒的に多くなっており、他には12月も多くなっていることがわかります。ひと区切りの時期に離婚が多いというこの結果は、何となく想像できるのではないでしょうか。

 

ただ、一点気になることがあります。例年4月は同年の3月に比べ急激に少なくなっていますが、2019年4月は若干の減少にとどまっています。

 

  • さらに月ごとの傾向を分かりやすく

今度は月を横軸にし、年ごとの折れ線グラフを重ね合わせてみます。

 

f:id:JMP_Japan:20200304145039p:plain赤色の折れ線が2019年ですが、4月は他の年に比べ離婚件数が多く、3月に比べあまり減少していないことがわかります。

 

2019年4月は平成最後の月です。元号が変わる前に一区切りつけておきたいと考えた夫婦が多かったのではと考えられます。

 

  • 時系列の分解による季節性の除去

時系列のデータは、季節性やトレンドなどいくつかの要素に分解することができます。分解することにより、元の時系列から季節性やトレンドを取り除くことができます。

 

例えば、元の時系列を次の図のように季節要因とトレンド、さらにこれらで説明できない不規則系列に分解することができます。

f:id:JMP_Japan:20200304150543j:plain

そのため不規則系列は、元の時系列から季節要因とトレンドを除いた時系列になります。

 

今回の離婚件数のデータについて、このような分解をした結果を示します*。

 

*時系列の分解方法としてX11法を用いています。

 

◆季節要因

f:id:JMP_Japan:20200304145046p:plain月ごとの傾向を抽出しています。1、2月は値が小さく、3月や12月に値が大きいといった季節性があることがわかります。

 

◆トレンド

f:id:JMP_Japan:20200304145119p:plainトレンドのグラフです。全体でみると減少傾向であることがわかりますが、2015年前半と2018年の後半に山があることがわかります。2015年は3月に離婚件数が非常に多かったことが、2018年は10月に他の年の10月に比べ離婚件数が多かったことが、その時期に山になっている原因です。

 

◆不規則系列

上記の季節要因とトレンドで抽出できなかった時系列を示しています。すなわち、「不規則系列 = 元の時系列 - 季節要因 - トレンド」で計算される系列になります。

f:id:JMP_Japan:20200304145302p:plain

 平成最後の月である2019年4月は、季節要因やトレンドを除いても、非常に値が大きくなっていますので、やはり異常な月であったわけです。

 

他に2018年9月が小さい値として出てきました。次の月である2018年10月が大きな値を示していることから、2018年は9月ではなく10月に離婚をする何かの理由があったと推察されます。筆者にはすぐには思いつきませんが、みなさんでその原因を考えてみてはいかがでしょうか。

 

  • 季節性を除いた離婚件数の推移

最後に下図は、元の離婚件数の折れ線グラフ(青色)に、季節要因を除去した折れ線グラフ(赤色)を重ね合わせています。

 

赤色の折れ線 = 元の離婚件数の折れ線 - 季節要因の折れ線

f:id:JMP_Japan:20200304145139p:plain

赤色の折れ線グラフの数値は、例えば2019年4月であれば、次のように計算されます。

 

21,061(元の時系列) = -36.53(季節要因) + 17,543.89(トレンド) + 3,553.64(不規則系列)

 

  • 季節要因の調整

身近に季節要因がある時系列データは案外多く見つけられます。小売店の売上、電力の消費量、感染症の発生人数などが考えられますが、これらのデータについて、今回の離婚件数の例のように季節要因を調整してから傾向を見ることがあります。

 

総務省統計局では、統計的な考え方や統計情報の読み方に関して分かりやすく説明している「なるほど統計学園高等部」(https://www.stat.go.jp/koukou/index.html)というページがありますが、このページに中に季節要因の調整についてわかりやすい説明が掲載されています(https://www.stat.go.jp/koukou/trivia/careers/career9.html)。

 

さあ始めましょう。最新版JMP 15 のダウンロードは下から!

www.jmp.com

 

「令和婚」によって結婚する人は増えていく? ~日本の婚姻件数を可視化、予測してみる~

f:id:JMP_Japan:20191223151852j:plain

 

今年話題になった「令和婚」。今回は統計解析ソフト「JMP」で、近年の婚姻件数を可視化し、年や月ごとの傾向を見ていきます。

皆さん、令和婚は婚姻件数にどれくらいのインパクトを与えたと思いますか?

さらに「時系列分析」で、将来の婚姻件数まで予測してみましょう。

 

 

今年も終わりに近づいて来ました。5月に元号が平成から令和になり、その時は「新たな時代の幕開けだな」と感じましたが、正直なところ今はその実感が薄れ、個人的には10月に実施された消費税増税インパクトの方が強かった印象です。

 

令和に関連する事項として、元号が令和に変わるタイミングで結婚をする「令和婚」が話題になりました。ワイドショーやメディアで取り上げられた「令和婚」、しかし、「令和婚」によって今年結婚した人は本当に増えたのでしょうか?データを使って考察してみます。

 

厚生労働省の人口動態統計を参照することにより、月ごとの婚姻件数がわかります。そこで、2014年1月~2019年9月(本記事執筆時点における最新の公表月)の婚姻件数*1を可視化してみます。

 

  • 婚姻件数は減少傾向

下図は、年ごとの婚姻件数を棒グラフにしたものです。出生数が年ごとに減少傾向にあることはよく話題にされますが、その前段階である婚姻件数も年ごとに減少傾向にあることがわかります。

f:id:JMP_Japan:20191223151223p:plain

年ごとの婚姻件数:JMP

2019年は9月までのデータしかありませんが、昨年(2018年)9月までの婚姻件数とほぼ同じであることがわかります。しかし、2019年の月ごとの婚姻件数の分布は、他の年と比べ大きく異なりますね。

 

そうです。元号が令和に変わった5月の婚姻件数が非常に多いのです。ということは、他の月の婚姻件数が少なくなったとも言えます。

 

  • 婚姻件数が多い月は?

月ごとの婚姻件数の推移をみるために、折れ線グラフにしてみます。赤色は月ごとの婚姻件数をつなげた折れ線グラフであり、青色はトレンドを示す「平滑線」というグラフです。

f:id:JMP_Japan:20191223151247p:plain

月ごとの婚姻件数(折れ線グラフ):JMP

平滑線をみると、婚姻数は減少傾向にあることがわかりますが、実際の婚姻件数は月ごとに多かったり、少なかったりと変動していることがわかります。何よりも、2019年5月が異常なほど婚姻件数が多くなっていることがわかります。

 

具体的にどの月の婚姻件数が多いのでしょうか。下のように、横軸を月(1月~12月)とし、各年を重ね合わせた折れ線グラフを描いてみます。

f:id:JMP_Japan:20191223151256p:plain

月による婚姻件数の比較

2014年から2018年までの折れ線をみると、年度末である3月の婚姻件数多く、次いで11月、7月が多いことがわかります。引用している人口動態統計では日ごとの婚姻件数(いわゆる入籍日)の情報はないので詳しくはわかりませんが、7月は「七夕」(7月7日)がありますし、11月は「いい夫婦の日」(11月22日)があることが影響しているのかもしれません。

 

2019年は、他の年とは異なる傾向を示しているのがわかります。令和婚の反動でしょうか、7月の婚姻件数は多くなっていませんし、4月は極端に少なくなっています。どうせなら平成の終わりより、令和の始まりにしようといったところでしょうか。

 

ちなみに入籍日として大安の日を選ぶことが多いかと思いますが、2019年7月が特別に大安の日が少なかったということはありません。2019年7月の大安は4日あり、2014年、2015年、2017年の7月の大安も4日です。

 

  • 時系列分析による2019年の異常傾向を確認してみる

令和婚の影響で2019年は他の年とは違う傾向を示していることを見てきましたが、時系列分析により、もう少し詳しく見ていくことにします。

 

時系列分析は、主に今までの傾向から将来の傾向を予測する目的で使われますが、ここでは2019年の傾向が、それ以前の年と比べて異常な傾向をしていることを確かめるために用いてみます。

 

2014年から2018年までのデータを用いて時系列モデル(指数平滑化モデルを使用)をあてはめ、2019年の月ごとの婚姻件数の予測値を出してみます。すると2014年から2018年の時系列の傾向から、2019年はこれぐらいの婚姻件数になるだろうという予測ができるのです。すなわち、その月に期待される婚姻件数がわかります。この予測では婚姻件数が減少傾向であるということも考慮されています。

 

下図の折れ線グラフは、時系列モデルにより予測した婚姻係数を示します。黒の点(2014年~2018年)や赤の点(2019年)は実際の婚姻件数であり、折れ線と点が離れている月は、「実際の婚姻件数」と「(時系列分析により)予測された婚姻件数」の間に乖離があることを示します。

f:id:JMP_Japan:20191223151444j:plain

時系列予測:JMP

図の右側、緑色で塗られた部分である2019年の結果を見てみましょう。極端に赤色と折れ線が離れている月は、5月です。他の月は折れ線と点がほぼ重なっているか、点が折れ線より下にあることがわかります。

 

もう少しわかりやすく、2019年の各月について、実際の婚姻件数から、時系列分析によって予測された婚姻件数を引き算して乖離度合い(予測誤差)を見てみます。下のグラフは、月ごとの乖離度合いを示したものです。実際の婚姻件数と予測された婚姻件数が一致する場合、縦軸の値は0になります。

f:id:JMP_Japan:20191223151543j:plain

2019年の予測誤差

やはり5月の乖離度合いが突出していることがわかり、他の月は5月の反動もあってか、予測される婚姻件数とほぼ同等か、少なくなっていることがわかります。すなわち、5月は期待された婚姻件数を大幅に上回り、他の月は期待された婚姻件数並み、または下回っていることになります。

 

  • 2020年の婚姻件数の予測

では、2020年の婚姻件数を予測したいとき、現在持っている2019年9月までのデータを使ってみるとどうなるでしょうか。その結果が下図です。緑色の部分が2020年の婚姻件数の予測値となります。

f:id:JMP_Japan:20191223151451j:plain

2020年、婚姻件数の予測値1

2020年で突出して値が大きくなっているのは5月です。時系列の予測では、今年5月の令和婚の婚姻件数が考慮された予測結果になっているからです。しかし、実際2020年5月に何か特別なことでもない限り、婚姻件数が多くなることは考えにくいです。

 

時系列分析ではデータの背景をきちんと考えないと、想定とは大きくかけ離れる予測結果が得られることがあります。今回の令和婚の例はそうですし、製品を販売している会社が将来の販売個数を予測する際、突発なキャンペーンで販売個数が急激に増えたことを考慮せずに、将来の予測する例が挙げられます。このようなケースでは、例外となるイベントを説明変数として含めて分析する方法が考えられますが、ここでは2019年のデータは使わずに、2018年までのデータを使って、2020年の婚姻件数を予測した結果を下図に示します。

f:id:JMP_Japan:20191223151537j:plain

2020年、婚姻件数の予測値2

2018年までのデータで2020年を予測するとなると、1年以上も後を予測することになりますので、予測の精度は悪くなってしまいます。グラフで水色に塗りつぶされている箇所は予測区間になり、予測がぶれる範囲だと考えてください。実際に2020年の予測区間は広くなっていることを確認できます。ただ予測値(水色の折れ線)を確認すると、まあ、実際の婚姻件数もこれぐらいに落ち着くのではと思ってしまいます。

 

来年、この予測結果が実際はどうだったか検証してみる予定です。日本の将来を考えると、予測値よりさらに上にぶれていると良いですが。

 

By 増川 直裕 (SAS Institute Japan 株式会社 JMPジャパン事業部 テクニカルグループ)

 

さあ始めましょう。最新版JMP 15 のダウンロードは下から!

www.jmp.com

 

*1:注意:すべての月に対し速報値のデータを用いています。

ラグビーワールドカップ2019:選手の体格は、ゲームのパフォーマンスと関連したのか?【後編】

 

f:id:JMP_Japan:20191107160052j:plain

Photo by Edgar Pimenta on Unsplash

その2:身長、体重とセットプレイ(スクラムラインアウト)成功率の関係

 

ポイント:この記事では、ある対象に絞ってデータ分析することで、興味深い結果が得られた例を示します。

 

前回の記事では、今回日本で開催されたラグビーワールドカップでトップ8に残った国(チーム)の選手に対し、身長と体重の関係をフォワード(FW)、バックス(BK)別に比較してみました。

 

今回の記事では、選手の身長や体重と、ゲームでのスクラムラインアウトといったセットプレイとの間に関連があったかどうかを考察してみます。

 

日本が南アフリカに敗れた一因に、日本ボールのラインアウトで、南アフリカに多くのインターセプト(奪取)を与えてしまったことが挙げられると思います。この試合の南アメリカラインアウト成功率は100%に対し、日本のラインアウト成功率は61.5%であり、南アフリカに4回もインターセプトされています。ラインアウトは身長が高い選手がいるチームが有利だといわれていますが、今回の大会ではどうだったのでしょうか?

 

スクラムについてはもちろんパワーや戦術が重要ですが、スクラムを組む選手の体重が重いほど有利に働くかもしれません。

f:id:JMP_Japan:20191111160508j:plain

ラインアウト

f:id:JMP_Japan:20191111160529j:plain

スクラム

そこで、今回のワールドカップでトップ8に残ったチームを対象に、身長とラインアウトの成功率との関係、体重とスクラム成功率との関係を調べてみました。

 

◇FWをさらにポジションに分けてみる

FW、BKにはそれぞれポジションがあります。下図はポジションごとに分けて、身長と体重の関係を示したものです。 プロット点が * になっているのはFWの選手を示します。

 

f:id:JMP_Japan:20191111160655p:plain

ポジションごとの身長と体重の関係

身長と体重の相関が高いポジション、そんなに高くないポジションとさまざまですが、ポジションごとにある程度まとまって分布していることが分かります。

 

以降は、ラインアウトスクラムに大きく関係するFWに焦点を当てて考えていきます。

 

スクラムはFWの選手が組むことになりますが、FWの8名で次の3列構成になります。

 

第1列:プロップ(PROP)2名とフッカー(FOOKER)

第2列:ロック(LOCK) 2名

第3列:バックロー(BACK ROW) 3名 (フランカー2名とナンバーエイト1名で構成される)

 

ポジションの参考:

https://ja.wikipedia.org/wiki/ラグビーのポジション

 

ラインアウトにおいて、ボールを取るのは主にロックの役割になります。

 

再度、上に示したポジション別の身長、体重のグラフをみると、スクラムの柱とも言われるプロップ(グラフ:青色)は、体重が重い位置に分布しており、ロック(グラフ:緑色)は、身長の高い位置に分布していることが分かります。

 

◇チーム別のスクラム成功率、ラインアウト成功率

スクラム成功率とはマイボールのスクラムでボールを獲得できた割合、ラインアウト成功率とはマイボールのラインアウトでボールを確保できた割合です。下図では、各チームの全試合を通じたそれぞれの成功率を示しています。

 

f:id:JMP_Japan:20191111160918p:plain

ラインアウトスクラムの成功率

優勝した南アフリカは、スクラム(青色の棒)、ラインアウト(赤色の棒)とも高い割合を示しています。今回は残念ながら3位に終わったニュージーランドスクラム成功率が脅威の100%です。日本のスクラム成功率(93%)はオーストラリア、フランスを上回っていますが、ラインアウト成功率(85%)は、トップ8の中で最下位です。

 

◇身長とラインアウト成功率との関係

各チームのFWの身長の平均値を横軸に、ラインアウト成功率を縦軸にした散布図を描いてみます。

f:id:JMP_Japan:20191111161105p:plain

身長とラインアウト成功率の関係

日本と南アフリカでは対照的な場所に位置しています。準優勝したイングランドは、他のチームに比べ、身長もラインアウト成功率も低いポジションに位置しているのが不思議です。相関係数は0.431なので、まあまあ正の相関があるかなあといった程度でしょうか。

 

先ほど述べたように、ラインアウトでは主にロックがボールを取る役割を担っています。そこで、FW全員の身長ではなく、ロックの選手だけの身長の平均をとって同様の散布図を描いたものを示します。

f:id:JMP_Japan:20191111161321p:plain

ロックの平均身長とラインアウト成功率

チームの位置関係は先ほどのFW全体の図とほとんど変わらないですが、相関係数が0.544と高くなっていることが分かります。ロックとラインアウト成功率は関連性があると言えそうです。

 

◇体重とスクラム成功率との関係

今度は各チームのFWの体重の平均値を横軸に、スクラム成功率を縦軸にした散布図を描いてみます。

f:id:JMP_Japan:20191111161501p:plain

FWの体重とスクラム成功率

日本は体重が他のチームと比べ大きく差がついているにも関わらず、スクラム成功率が高いので健闘したといっても良いでしょう。このこともあってか、体重とスクラム成功率の相関係数は0.159とそんなに高くないです。

 

ただ、ポジション別に分けて散布図を描いてみると面白いことが分かりました。

以下の図は、第一列のプロップの選手だけの体重の平均をとり、同様の散布図を描いたものです。

f:id:JMP_Japan:20191111161618p:plain

プロップの体重とスクラム成功率

なんと、相関係数が0.616と先ほどに比べ、非常に高くなっています。スクラムの柱となるプロットの体重が重いほど、スクラムの成功率は高くなっていることが言えます。

実は、同じ第1列であるフッカーも含め、第1列の選手の平均とスクラム成功率の相関係数は0.369でした。また、第3列名であるバックローの選手の体重の平均とスクラム成功率の相関係数は-0.433と負の相関がありありました。なんとも興味深いです。

 

◇まとめ

上記の結果は、選手の体格とセットプレイのパフォーマンスの関連性を示しているにすぎません。さらに、今回の話をもっと厳密に考えると、対戦したチーム間での身長差、体重差とその対戦での成功率との関係を調べるべきですし、登録選手全員の身長や体重の平均をとるのではなく、そのプレイに参加した選手だけの平均をとるべきかもしれません。

 

ただ、今回の分析結果から、チームに身長が高いロックがいた方がラインアウトは成功しやすいのではないか、プロップの体重が重い方がスクラムは成功しやすいのではないかといったことを考えることはできそうです。

 

◇今回の分析結果をインタラクティブに楽しみましょう

身長とラインアウト成功率の関係、体重とスクラム成功率の関係についての結果は、以下のページから確認できます。ここでは、列スイッチャーという機能を使い、本記事に掲載されていないポジションに対しても結果を確認することができます。

public.jmp.com

以下は、ワールドカップの対戦結果(予選リーグ)をさまざまな角度で可視化したページです。こちらではフィルタ機能を使い、様々な角度で結果を考察できます。

public.jmp.com

 

 

さあ始めましょう。最新版JMP 15 のダウンロードは下から!

www.jmp.com

 

 ■JMPについて

JMP(ジャンプ)は世界中のエンジニア、データアナリストに選ばれているインタラクティブで可視的なデータ分析ツールです。

     
     

     

    ラグビーワールドカップ 2019:選手の体格はパフォーマンスに影響を与えたのか?【前編】

                          増川 直裕                                          

    f:id:JMP_Japan:20191107160052j:plain

    Photo by Edgar Pimenta on Unsplash

    その1: 選手の身長と体重の関連性を考察してみる

    ラグビーワールドカップ2019」は、南アメリカの優勝で幕を閉じました。ご存知の通り、日本は南アフリカに敗れはしましたがトップ8進出を果たし、日本で開催したこともあり、にわかファンも巻き込んで日本中が大熱狂しました。私自身も、今回のワールドカップ以前は、たまにテレビをつけてラグビー中継をやっていれば何となく見る程度でしたが、今回のワールドカップラグビーの面白さを再認識し、日本戦のすべての試合、他の国々のいくつかの試合をテレビで観戦しました。

     

    いろいろな試合を見ていると、小柄な選手、大柄な選手、非常に背が高い選手とさまざまな体格の選手がいるなあと感じました。ラグビーには様々なポジションがあり、ポジションごとに主な役割が異なってきますので、当たり前かもしれません。ただ、ここでデータ分析家の血が騒ぎだします。選手の身長や体重といった体格のデータは、ワールドカップの公式ホームページから取得できますので、地道にデータ化し、身長と体重の関係を調べてみることにしました。

     

    今回はワールドカップでトップ8に進出したチーム(国)を対象とし、選手の身長と体重のデータを可視化、分析しました。以下の記事において太字で示している箇所は、今回のラグビーの分析に限らず、データ分析において非常に重要なことですので、ご参考になれば幸いです。

     

    1チームの登録選手は31名です。下図は、8チームすべての身長(横軸)と体重(縦軸)をプロットした散布図と上側、右側にそれぞれ身長、体重に対するヒストグラムを表示しています。

    f:id:JMP_Japan:20191107153915p:plain

    rugby_graph_1

    ラグビー選手でなくても、一般的に人の身長と体重にはある程度の相関(関連性)があります。身長が高い人は体重が重い傾向があり、上の散布図を見ても身長と体重にある程度の相関があることがわかります。

     

    身長のヒストグラムを見ると、180cm~190cmの間に多くの選手が属していることがわかりますが、体重のヒストグラムをみると、90kg~100kgと110kg~120kg あたりに多くの選手が属しており、ピークが複数ある分布のように感じます。ピークが複数あるヒストグラムでは、データに複数の属性が混ざっている可能性があります。例えば、一般の男性と女性の体重に関するヒストグラムを描くと、今回のような複数のピークがあるグラフになるかもしれません。今回のラグビー選手はみな男性ですが、体重に関しては複数のピークがあることに注目です。

     

    少し分析を進めましょう。下図は、散布図上に確率楕円(水色)を描き、相関係数(左上のr)を求めたものです。

    f:id:JMP_Japan:20191107154146p:plain

    rugby_graph_2

    確率楕円は、2つの変数間の相関関係を調べるのに役立つ図です。2変数間の相関が高い場合(相関係数では1または-1)は、楕円は対角線方向に長くなります。逆に2つの変数に相関がない場合(相関係数では0)の場合、楕円は円に近い形になります。上の確率楕円は右上がりの細長い楕円形であり、左上に表示されている相関係数をみると0.608となっているので、身長と体重に強い相関があることが分かります。

     

    さらに、確率楕円は、外れ値を調べる目的でも使われます。楕円の外にあるデータは2つの変数の相関を考慮したときの外れ値と考えられます。上図では、左下と右上のいくつかの外れ値があることが分かります。

     

    分析結果を様々な属性で分けると、今まで分からなかった新たな発見に出会うことがあります。私のデータ分析の経験において、難しい統計解析の手法を使わずとも、属性で分けて分析してみることで、問題に寄与する要因や大体わかってしまうことが多々ありました。

     

    ラグビーでは、ポジションをFW(フォワード)とBK(バックス)で分けることができ、FWは主にスクラムを組む、ラインアウトでボールを奪いあう役割があり、BKは主にすばやい動きで相手をかわしトライを奪う役割があります。そこで、今まで紹介した散布図をFWとBKで分けてみます。

    f:id:JMP_Japan:20191107154320p:plain

    rugby_graph_3

    やはり、FWとBKでは分布が大きく異なることが分かります。FWは、BKに比べ身長も体重も値が大きいところにデータが密集しています。しかし相関係数を比べると、FWの相関係数は0.324とそんなに高くないですが、BKの相関係数が0.757と高くなっており、確率楕円の形状からも相関の違いが見て取れます。

     

    先ほど、体重のヒストグラムで複数のピークがありましたが、次のように、FWとBKで分けてヒストグラムを描くとその理由が分かります。

    f:id:JMP_Japan:20191107154432p:plain

    rugby_graph_4

    さらにFW、BKの中でも細かくポジションに分けることができますが、ポジションに関連する話は、次回のブログで紹介します。

     

    さらに、散布図をチームごとに分けてみます。

    f:id:JMP_Japan:20191107154527p:plain

    rugby_graph_5

    チームごとの体格の特徴が良く分かります。日本は全体的にプロットが左下に位置していますので、他のチームに比べて小柄であることがわかり、BKの相関は0.909と非常に高くなっています。

     

    日本は南アフリカと対戦して敗れましたが、これら2チームの体格を比較してみるとどうでしょうか。次の図は、日本と南アメリカに絞り、FWとBK別に散布図、確率楕円を描いたものです。赤色が日本、緑色が南アフリカを示します。

    f:id:JMP_Japan:20191107154630p:plain

    rugby_graph_6

    確率楕円を見ると、BKに対しては似ている形状をしていますが、FWに対しての結果が特徴的です。

    南アフリカの楕円は、日本の楕円を覆っています。つまり日本のFWは似通った体格の選手が集まっていますが、南アフリカのFWは小さい体格から大きい高くまで幅広い選手が集まっていることが分かります。

     

    BKの確率楕円とともに、小柄な体格で活躍した選手を見ると、日本の流選手や田中選手でも日本の確率楕円の中に入っており、南アフリカのコルビ(Kolbe)選手、デクラーク(De Klerk) 選手も南アフリカの確率楕円の中に入っていることが分かります。チーム間でみると、これらの選手は特別に小柄な存在とは言えないようです。

     

    今回はワールドカップ出場選手の体格(身長、体重)をFW/BK別、チーム別に比較してみましたが、体格がゲームの結果と関連していたのかどうか? 次のブログで考察してみます。

     

    付記:

    今回ブログで紹介した分析結果の一部は、以下のJMP Publicのページで参照できます。ここでは、データにフィルタをかけて、特定のチーム間の身長、体重を比較することができます。

     

    public.jmp.com

     

    以下は、ワールドカップの対戦結果をさまざまな角度で可視化したページです。こちらもフィルタ機能を使い、様々な角度で結果を考察できます。

    public.jmp.com

     

    ■さあ始めよう!

    JMPの全機能を30日間試せるトライアル版で、データからさらなる情報を導き出せることを実感してください。

    さあ始めましょう。最新版JMP 15 のダウンロードはコチラから!

    www.jmp.com

     ■JMPについて

    JMP(ジャンプ)は世界中のエンジニア、データアナリストに選ばれているインタラクティブで可視的なデータ分析ツールです。

       
       

       

      JMPで描く「ランチャート(折れ線グラフ)」

      統計解析ソフト「JMP(ジャンプ)」は、簡単な操作で、分かりやすいグラフを素早く作成することができます。その結果、多くの時間をデータのより深い考察に充てることができます。

       

      前回は「散布図」の作り方を確認しましたが、今回はJMPで「ランチャート(折れ線グラフ)」を作ってみましょう。

       

      [※ランチャートとは、時系列に沿って、データの変化を分析する折れ線グラフです。]

       

      今回も数ステップで簡単にグラフが作れます。さっそく試してみましょう!

       

      ■セットアップ

      JMPを起動します(まだインストールしていない方は下からダウンロードしてください)。

      www.jmp.com

       

      ■ランチャート

      1.対象データを開きます(今回はサンプルデータを使用します)

      「ヘルプ」>「サンプルデータライブラリ」と進み、「Time Series」>「GNP.jmp」を選択します。

      f:id:JMP_Japan:20190903164127j:plain

      f:id:JMP_Japan:20191023155724j:plain

      f:id:JMP_Japan:20191023155744j:plain

      2.メニューから「グラフ」>「グラフビルダー」を選択します。

      f:id:JMP_Japan:20191023155808j:plain

      3.列の選択ボックスから、1つの変数(または一度に複数の変数)をドラッグしてYゾーンにドロップします(この例では「国内民間粗投資」と「商品およびサービスの純輸出」を選択)。

      4.列の選択ボックスから、時間の順序を表す列をXゾーンにドラッグ&ドロップします(この例では「日付」を選択)。

      f:id:JMP_Japan:20191023160828j:plain

      5.グラフパレット(ウィンドウ上部)にある折れ線のアイコンをクリックします。

      f:id:JMP_Japan:20191023160922j:plain

      6.これでランチャートが表示されました。あとは「終了」をクリックし、必要に応じて微調整します(以下のヒントを参照してください)。

       

      ヒント:

      1.凡例上でマウスを右クリックすると、線の太さや他の線のプロパティを変更できます。

      f:id:JMP_Japan:20191023161051j:plain

      2.グラフのタイトルや軸ラベルをクリックすると、その内容を編集できます。軸のスケールを変更するには、軸をダブルクリックします。

      f:id:JMP_Japan:20191023161143j:plain


      3.グラフビルダーのタイトル横の赤い三角ボタンをクリックすると、設定パネルの再表示、また凡例やタイトルなどの表示/非表示を設定できます。

      f:id:JMP_Japan:20191023161218j:plain

      注意: ランチャートは管理図のプラットフォーム(「分析」>「品質と工程」>「管理図」>「ランチャート」)でも作成できます。

       

      ■動画(英語版)

      実際の操作を見て、復習してみましょう。
      ※ビデオの前半で紹介している「重ね合わせプロット」は、JMP 14からはグラフビルダーに統合されていますので、JMP 14以上をお持ちの方は、ビデオの後半をご覧ください。

       

      Run Charts (Line Graphs)

       

      ■さあ始めよう!

      JMPの全機能を30日間試せるトライアル版で、データからさらなる情報を導き出せることを実感してください。

      さあ始めましょう。最新版JMP 15 のダウンロードはコチラから!

      www.jmp.com

       ■JMPについて

      JMP(ジャンプ)は世界中のエンジニア、データアナリストに選ばれているインタラクティブで可視的なデータ分析ツールです。