2022-01-12

“ラベルレス飲料”のメリットって何？第1回～多重対応分析により、アンケート設問間の関連性をマッピング～

増川　直裕

■ポチっとしたことがきっかけに･･････
■調査概要
■回答の集計結果
- Q. ラベルレス飲料を知っていたか（知っていた / 知らなかった）
- Q. ラベルレス飲料を購入したことがあるか（ある / ない）
- Q. ラベルレスを購入するメリット (6つの選択肢、複数回答)
■属性や設問間の関連性をみるには
■多重対応分析で回答項目をマッピング
■何を目的としてアンケート調査を実施するのか

■ポチっとしたことがきっかけに･･････

先日、何となくECサイトを見ていたら、上の写真のようなラベルがない（ラベルレス）ペットボトルの水が、24個入りでセール価格になっていたため、思わずポチっとしてしまいました。

ラベルが貼っていない飲料「ラベルレス飲料」、皆様はどのようなことがメリットと考えますか？

どのような商品か分かっていれば、特にラベルがなくても不自由はないし、エコっぽいので、これからラベルレスの形態が広まっていくかもしれません。しかしラベルがないと、単体ではどのような商品かわからないし、成分表示などを知ることができないといったデメリットも考えられます。

ポチっとした後、注意してみるようになったからか、スーパーでも6本単位でラベルレス飲料が売られているのを見かけ、水だけでなくラベルレスのお茶が売っていることなど、ラベルレス飲料の知識が深まりました。

それならば、いっそのこと自分の特権（？）を生かして、JMPのお客様を対象にラベルレス飲料に関する調査をしてみて、得られた調査データをJMPで分析してみるセミナーを実施してみたら面白いのではとひらめきました。そこで昨年、主に食品、飲料業界におられる方を対象に、ラベルレス飲料に関する調査を実施しました。

本記事では、得られた調査データをJMPで分析したものの中で、皆様に紹介したい分析結果を2回に分けてご紹介します。

2021-11-15

祝！藤井聡太新竜王誕生：持ち時間と手番（先手/後手）での勝率を統計的に分析してみる

増川　直裕

先週末(2021年11月13日)、将棋の第34期竜王戦第4局にて藤井聡太三冠が勝利し、竜王のタイトルを獲得、四冠になりました。将棋の話題が新聞の一面に掲載される、号外が配られるというのは珍しいことですが、これも彼の圧倒的な実力と人気によるものですから、不思議なことではないのでしょう。

筆者は、藤井新竜王が初めてのタイトルである棋聖を獲得した昨年7月に、その時点での手番（先手/後手）や持ち時間と、勝率と関係を調べた記事を書きました。それから、1年4ヶ月ほどで3つもタイトルが増えたことは、ただ驚きでしかありませんが、折角なので、この注目されている機会に、現時点での成績でアップデートをしていきます。

以下は、2021年11月13日時点での、藤井聡太竜王の成績をもとにした考察になります。

2021-11-09

画期的なコロナ飲み薬、重症化を89%減少させるってどのような根拠から？

増川直裕

週末（11月5日）に、今のコロナ禍から脱却できそうな希望のニュースがありましたね。米国ファイザー社が開発中の、新型コロナウイルス感染症を治療する飲み薬の臨床試験（第2/3相試験の中間解析）で、重症化するリスクを89%減少させるという結果が報じられました。

本記事では、この飲み薬、パクスロビド（PAXLOVID）が、重症化リスクを89%減少させるとは、どのような結果を根拠に算出されたのかについてお伝えします。併せて、リスクの89％減少というのはあくまで限られた患者から得られた推定値なので、推定に対する信頼区間を算出して考察していきます。

ファイザー社のホームページに記載されているニュースによると、重症化リスクを持つ、入院していない大人の患者が対象で、ランダムにパクスロビドを投与したグループと、プラセボ（偽薬）を投与したグループに割付した結果、登録後28日以内に入院した患者の割合を比較しています。

パクスロビド投与：389人中3人が入院（死亡者なし）

プラセボ投与：385人中27人が入院（その後7名が死亡）

■入院リスクの比較

下の図は、この結果をクロス集計表と割合を示すグラフ（シェアチャート）で示したものです。

f:id:JMP_Japan:20211109111142p:plain

各投与グループの入院割合を計算すると、パクスロビド投与グループは0.77%（= 3 / 389）、プラセボ投与グループは7.01%（= 27 / 385）です。2つのグループの割合を比較する一つの指標として相対リスク（Relative Risk）がありますが、今回の例において、”パクスロビド投与グループ” の ”プラセボ投与グループ”　に対する入院に関する相対リスクは次のように計算されます。

相対リスク

= パクスロビド投与グループの入院割合 ÷ プラセボ投与グループの入院割合

=（3 / 389) ÷ （27 / 385）

= 0.11

つまり、パクスロビドを投与すると、プラセボを投与することに対する相対的なリスクは0.11（11%）に減少することを示しています。これより入院のリスクがどれぐらい減少されるかで考えると 89% （100% － 11%）という、ニュースで報道された数字となるのです。

■相対リスクの信頼区間

前節で計算された相対リスクの値（= 0.11）は、あくまで試験で対象となった限られた患者での推定値です。そのため推定値だけでなく、その信頼区間も考えた方が良いでしょう。

下図は、今回求めた相対リスクの推定値とその95%信頼区間を算出したものです。

f:id:JMP_Japan:20211109111255p:plain

これより、相対リスク（= 0.11）に対する95%信頼区間は、およそ0.03～0.36 と案外広い区間であることがわかります。そのため、ラフな言い方をすると、入院のリスクの減少は、64%～97%と幅をもって考えることになります。64%と低めに考えても、かなり効果があるなという実感ですが。

当然のことながら、サンプル数が多いほど推定に対する信ぴょう性は高くなるので、信頼区間は狭まります。仮に、今回の臨床試験の投与者数、入院者数ともに10倍多かったとします。すなわち、パクスロビド投与グループは3,890人中30人入院、プラセボ投与グループは3,850人中27人が入院となりますが、このときの相対リスクは、先ほどと同様に0.11ですが、95%信頼区間は0.08 ～ 0.16です。実際の例と比べて、信頼区間がかなり狭まっていますね。

今回の中間解析の結果は、有効性と安全性が十分に示されたということで、今後承認申請が行われるようですが、問題なく承認され、実際のコロナ患者に利用できるようになれば、患者側としても医療機関側としても大きなメリットを享受できそうですね。その頃には、コロナ前のように、公の場でマスクをしなくて済む生活が待っているのかもしれません。

※ここで求めた相対リスクの信頼区間は、対数スケールに基づくWald信頼区間をもとに算出しています。

参考：Alan Agresti著：An Introduction to Categorical Data Analysis (2nd Edition)

さあ始めましょう。最新版JMP 16 のダウンロードは下から！

2021-08-10

東京オリンピック　日本選手のメダル数予測はほぼ当たったのですが…

JMP SAS オリンピックデータサイエンスデータビジュアライゼーションデータ分析可視化統計統計ソフト統計学統計解析統計解析ソフト

f:id:JMP_Japan:20210810152300p:plain

増川直裕

東京オリンピックでの日本選手の活躍は素晴らしかったですね。期間中は連日、日本選手がメダルを獲得したニュースが流れ、感銘を受けた方が多かったのではないでしょうか。その中で、筆者は今いくつメダルを獲得しているかに大きく注目をしていました。なぜなら、大会前に日本選手が獲得するメダル数を予測する記事を書いてしまったからです。

下図の通り、今回の東京オリンピックでは、日本選手の獲得総メダル数（金、銀、銅の合計）が58個と過去最高となりました。2012年、2016年に比べるとメダル数は大幅に増加し、特に金メダルの獲得数に目を惹かれます。実は、大会前に筆者が書いた記事において、総メダル数は57個（正確には57.4個）と予測しましたので、かなり高い精度で予測できたことになります。

f:id:JMP_Japan:20210810152500p:plain

この予測には、過去2大会（2012年ロンドン、2016年リオデジャネイロ）の各国の獲得メダル数と、その前の年の各国のGDP、人口、開催国か否かという情報のみを使っています。通常、メダル数を予測するには、参加選手の過去の成績などから、この競技のこの選手はメダルが取れそうだと判断する方法が筋かと思いますが、これらの情報は全く使っていないのです。

結果的に実際の総メダル数に近い予測ができましたが、前の記事を書いていた時は、別の業務が立て込んでおり、また大会が始まってから予測するのは反則ですので、あまり精査せずにデータをつくり、急いて記事を書いてしまいました（言い訳になりますが…）。そのため、予測結果は良かったのですが、たまたま当たったという感もあり、反省すべきことがあります。

そこで、今回のオリンピックが終了した今、もう一度、総メダル数の予測を考えてみたいと思います。

2021-07-21

国の豊かさから日本選手のメダル数を予測してみる

JMP SAS データサイエンスデータビジュアライゼーションデータ分析統計統計ソフト統計学統計解析統計解析ソフトオリンピック東京オリンピック

f:id:JMP_Japan:20210721111429j:plain

増川直裕

あ、急がないと東京オリンピックが始まってしまう… 開幕前に急いで記事を書いています。メダル数の予測は、開幕前にしないと意味がないですので。

オリンピックで各国の獲得するメダルの数（金、銀、銅の総数）は、その国のGDP（国内総生産）と関連があると言われています。これは、豊かな国の方が、多くの才能をもった選手の潜在能力を高められるという考え方からです。もちろん、その国の人口が多いほど、能力が高い選手が出てくる可能性は高いので、その国の人口も関連がありそうですが、GDPの方が重要と見られています。

他にも、開催国の選手が有利に働くという考え方があります。今回の開催国は日本なので、日本選手が活躍するのに有利な状況なのでしょう。

そこで本記事では、過去のオリンピックから、”GDP”、”人口”、”開催国か否か”の3つの要因でメダルの獲得数を説明する回帰モデルを作成し、東京オリンピックにおける日本選手のメダル数を予測してみます。

この予測は、選手の背景や運動能力などの情報を一切用いず、国の人口や経済状況で予測することが興味深いです。

■分析対象とメダル総数の分布

分析対象として、直近2回のオリンピックである2012年（ロンドン）、2016年（リオデジャネイロ）に対し、1つでもメダル（金、銀、銅のいずれか）を獲得した国を対象とし、各国の総メダル数（金、銀、銅の合計）を目的変数としました。

（本当は、メダルを獲得していない国も含めて解析すべきですが、データの作成に手間がかかることから、今回の解析では含めませんでした。）

説明変数となるGDP（ドル）、人口のデータは世界銀行のオープンデータ（

https://data.worldbank.org/）を中心に取得し、オリンピック前年のデータを用いることにします。2012年の総メダル数には2011年のGDPと人口を、2016年の総メダル数には2015年のGDPと人口を対応させました。ただし、人口、GDPの情報が得られない国は、解析の対象外としました。

それぞれのオリンピックについて、以下に、総メダル数のヒストグラムを示します。横軸は総メダル数を示し、縦軸の度数は該当する国の数になります。

f:id:JMP_Japan:20210721111713p:plain

f:id:JMP_Japan:20210721111726p:plain

2012年、2016年の分布の形状は似ており、右に裾を引いています。多くのメダルを獲得できるのは、アメリカ、中国、イギリス、ロシアなどごく一部の国であり、ほとんどの国は、10個以下なのです。

このデータに離散分布であるポアソン分布をあてはめたのが水色の曲線ですが、あてはまりは良くありません。一方、過分散パラメータも含めた負の二項分布（ガンマポアソン分布）をあてはめたものが赤い曲線ですが、こちらの方があてはまりは良くなっています。

そこで、Yがガンマポアソン分布に従うと仮定した、ポアソン回帰モデルをあてはめてみます。

■回帰モデルのあてはめ

総メダル数を目的変数(Y) とし、次の説明変数に対して、ポアソン回帰モデル（最尤法により推定）をあてはめます。

GDP（ドル）、人口については、常用対数(底が10の対数)をとったものを説明変数として用います。

開催国については、開催国であれば1、それ以外であれば0の値をとるダミー変数を用います。例えば、2016年はリオデジャネイロで開催したので、2016年のデータに対しブラジルであれば1、それ以外の国は0の値をとります。

（事前に開催年（2012年、2016年）をブロック効果としたモデルをあてはめてみましたが、ブロック効果は見られなかったため、2012年、2016年をまとめたデータを解析対象としました。）

f:id:JMP_Japan:20210721111806p:plain

これより、ポアソン回帰の結果は、総メダル数の予測値 Yhatを用い、次の式(1)で表されます。

log (Yhat) = －9.183 + 0.854 × log₁₀(GDP (ドル)) + 0.222 × log₁₀（人口）+ 0.592 × 開催国(1/0)

--- (1)

すべての説明変数にかかる係数がプラスなので、GDPが大きいほど、人口が多いほど、開催国であるほど、総メダル数の予測値は高くなることがわかります。特にカイ2乗値やp値より、GDPが強い要因であることがわかります。

人口や開催国は有意差がないので、予測の観点からは、これらをモデルから除くことも考えられますが、この解析では、残しておくことにします。特に開催国の情報は、東京オリンピックにおける日本選手の総メダル数を予測するのに必要な変数だと考えています。

このモデルのあてはまりの良さを調べてみましょう。R2乗は約0.55であり、これら3つの説明変数であてはめた結果としては、まあまあ良いのではないかと思います。

なお、各国の総メダル数は、上記(1)式の両辺に対して指数をとり、次の式(2)から予測値 Yhatを求めることができます。

Yhat = Exp(－9.183 + 0.854 × log₁₀(GDP (ドル)) + 0.222 × log₁₀（人口）+ 0.592 × 開催国(1/0))

--- (2)

下図は、各国ごとに、総メダル数（実測値）を縦軸に、式(2) から求められる総メダル数の予測値を横軸にプロットした散布図です。オレンジ色は2012年のデータ、赤色は2016年のデータであり、斜めの黒色の線は、実測値と予測値が一致するところです。

f:id:JMP_Japan:20210721111923p:plain

黒い線にのっている、または付近に位置するデータは、この式による実際の総メダル数をうまく予測できていることになります。黒い線から遠い位置にあるデータがいくつもありますが、これらは、やはりGDPや人口、開催国では説明できない要因があるのでしょう。

散布図で、プロット点を塗りつぶしてあるものは日本のデータです。2012年、2016年とも、実測と予測がそんなに大きくずれてはいません。黒い線より上側に位置するので、日本選手は過去の2大会で、期待される総メダル数（予測値）より、多くメダルを獲得したということになります。

■東京オリンピックにおける日本選手の総メダル数を予測

式(2) に対し、日本のGDPと人口（それぞれ2019年のデータを使用）、開催国であることを代入し、東京オリンピックでの日本選手の総メダル数を予測してみます。

下図は、予測式を可視化したグラフです。横軸に説明変数、縦軸に目的変数が記載されていますが、横軸の説明変数が赤色の値をとるときの予測値が、縦軸に赤色で記載されています。

f:id:JMP_Japan:20210721111956p:plain

横軸の赤い数字 12.7, 8.1, 1 は、それぞれ2019年における日本のGDP（常用対数）、人口（常用対数）、開催国であることを示しており、このときの総メダル数の予測値が約57.4です。小数第1位を四捨五入して、日本は57個メダルを獲得すると予測します。

ただし、この予測は誤差が大きく、縦軸の青色で示される95%信頼区間は、18.9～174.7 と非常に区間が広くなっていることに注意が必要です。予測に対し上振れする結果になれば、それはそれで望ましい結果ですが…

■あくまでも予測ですので

過去2回のオリンピックでの日本選手の総メダル数は、2012年のロンドンオリンピックでは38個、2016年のリオデジャネイロオリンピックでは41個です。今回求めた予測値どおり57個も取れれば、万々歳でしょう。

今回はコロナ禍のオリンピックのため、今までのオリンピックの常識が当てはまらないことが考えられます。日本以外の選手が新型コロナウィルスの流行のため不参加を表明する、感染して参加できなくなることは日本に有利に働くかもしれません。一方、ほとんどの競技が無観客で行われるので、競技場での直接の応援が無くなることは日本にとって不利に働くかもしれません。

実際、日本選手はいくつのメダルを獲得したのか？それはオリンピックの最後に判明します。その頃には、今回の予測結果を検証してみようと思います。

さあ始めましょう。最新版JMP 16 のダウンロードは下から！

www.jmp.com

2021-06-03

熱中症と関係する指数「暑さ指数（WBGT）」を知り、今年の熱中症対策を！

JMP SAS データサイエンスデータビジュアライゼーションデータ分析可視化散布図折れ線グラフ棒グラフ統計統計ソフト統計学統計解析ソフト統計解析熱中症

増川　直裕

今年(2021年)の夏も全国的に暑くなると予想されています。外出するときは、マスクをつけながらの行動が求められていますので、熱中症には十分注意ですね。

ところで近年、暑さを示す指数として気温の他に、”暑さ指数（WBGT)”　という指数を見聞きするようになりました。私は昨年、初めてこの指数を知りましたが、熱中症と関係する指数で、気温だけでなく、湿度などの情報を取り入れて算出されたものであることが分かりました。

昨年の夏に、ときどき熱中症警戒アラートという放送が流れていましたが、このアラートは暑さ指数をもとに算出されているようです。暑さ指数については、以下の環境省熱中症予防情報サイトに詳しく、分かりやすい説明があります（以下、暑さ指数をWBGTと表記します）。

環境省　熱中症予防情報サイト

https://www.wbgt.env.go.jp/wbgt.php

夏の暑い時期になると、”今日は熱中症で〇〇名が病院に搬送されました”　というような報道がニュース等で流れます。WBGTが熱中症と関係するのであれば、WBGTの予報を意識することによって、この日はあまり外に出ない、運動をしないなど熱中症対策を事前に行うことができるのでしょう。

そこで本記事では、公開されているデータからWBGT、気温、熱中症救急搬送者数の3つの関係を調べ、WBGTと熱中症の関係をより詳しく把握してみます。

2020-12-04

プロ野球　ホームでは応援が力になるって本当なのか？　～2020年の特殊な応援状況により調べてみた～

JMP SAS データサイエンスデータビジュアライゼーションデータマイニングデータ分析プロ野球初心者向け可視化統計ソフト統計統計学統計解析ソフト野球モザイク図折れ線グラフ棒グラフ

増川　直裕

今年のプロ野球は、福岡ソフトバンクホークスが日本一になり幕を閉じました。昨年に続き、読売ジャイアンツ（以下：巨人）に対し4連勝したため、パ・リーグとセ・リーグの実力差が話題に挙がっていますが、日本シリーズの1、2戦で巨人はホーム球場である東京ドームで試合ができず、京セラドーム大阪で戦わないといけなかったことはホームチームの利を考えたとき不利な状況だったと思います。

f:id:JMP_Japan:20201204142811j:plain

2020年（今年）のプロ野球レギュラーシーズンにおいて、ホームチームの勝率は57.6%でした。

新型コロナウイルスの影響で無観客、または観客数を制限しての開催となり、ホームチームの応援が例年に比べて少なくなったにも関わらず、57.6%という勝率は高いように感じませんか？

この勝率は2020年の引き分けを除いたホームチームの全試合を対象にしており、680試合中392勝しています。”勝ち”の割合に対する95%信頼区間を調べてみると、下側は53.9%、上側は61.3%です。

f:id:JMP_Japan:20201204142933p:plain

下側95%信頼限界(53.9%)が50%を超えているので、ホームチームが勝ちの割合が有意に高いことになりますが、応援があまりなかったにも関わらず、ホームチームの勝率は高いのです。

ホームチームの応援の効果って本当にあるのでしょうか？そこで、2020年の応援に関する特殊な状況を利用して調べてみます。

統計解析ソフト JMP ブログ

プログラミングなしで使える、インタラクティブで可視的な統計解析ソフト「JMP（ジャンプ）」です。統計初心者の方、データ分析を始めてみたい方に向けて情報を発信しています。

“ラベルレス飲料”のメリットって何？第1回～多重対応分析により、アンケート設問間の関連性をマッピング～

■ポチっとしたことがきっかけに･･････

祝！藤井聡太新竜王誕生：持ち時間と手番（先手/後手）での勝率を統計的に分析してみる

画期的なコロナ飲み薬、重症化を89%減少させるってどのような根拠から？

■入院リスクの比較

■相対リスクの信頼区間

東京オリンピック　日本選手のメダル数予測はほぼ当たったのですが…

国の豊かさから日本選手のメダル数を予測してみる

熱中症と関係する指数「暑さ指数（WBGT）」を知り、今年の熱中症対策を！

プロ野球　ホームでは応援が力になるって本当なのか？　～2020年の特殊な応援状況により調べてみた～