統計解析ソフト JMP ブログ

プログラミングなしで使える、インタラクティブで可視的な統計解析ソフト「JMP(ジャンプ)」です。統計初心者の方、データ分析を始めてみたい方に向けて情報を発信しています。

平均寿命を予測するのに適した曲線は?~ JMPの「曲線のあてはめ」を利用して~

増川 直裕

 

■今後の平均寿命を予測するには

下のグラフは、男性、女性別に平均寿命を示したものです。

データの出典:図表1-2-1 平均寿命の推移|令和2年版厚生労働白書-令和時代の社会保障と働き方を考える-|厚生労働省 (mhlw.go.jp)

 

平均寿命は、男性、女性とも年ごとに上昇しており、2019年では、女性87.45歳、男性81.41歳となっています。

本ブログでは、年と平均寿命の関係を示すモデルをあてはめ、今後の平均寿命を予測することを考えてみます。

続きを読む

SAKURA 開花メーター設置しました!~「桜開花600℃の法則」による開花日の予測~

増川 直裕

  • ■桜の魅力がデータ解析を・・
  • ■”桜の開花日”と”法則による開花日”の比較
  • ■開花日と法則による予測の誤差
  • ■SAKURA開花メーターの設置

■桜の魅力がデータ解析を・・

f:id:JMP_Japan:20220315211814j:plain

今年も桜の季節が来ましたね。コロナ禍で3回目となる桜の季節ですが、毎年、夜の薄明りに照らされた桜を鑑賞するのが楽しみになっています。

 

その夜も桜がとてもきれいでした。何かいつもとは違う魅力を感じていたのだと思います。

 

出張で来た京都にて、大勢の観光客とともに見た桜。そのとき、ふと以前何かの記事で見た桜開花600℃の法則を思い出しました。

 

桜開花600℃の法則

その年の2月1日以降の最高気温を足し算していき、累積温度が600度を超えた日に桜が開花する。

 

本当なのか?そんな簡単なことで開花日を予測できるのか? と思い、宿泊先のホテルにて過去の気温や開花日のデータを入手し、真夜中までデータを解析していたのは、懐かしい思い出です。

 

そのときに、書いた記事が次のものです。

 

参考記事(2017年執筆)

桜開花予想に用いる「600度の法則」を検討する | JMP

 

この記事では、その年の桜が開花した後に、開花日と法則で求めた開花日が一致するかどうかを検証しています。特に意図したわけではなかったのですが、記事を書いた次の年から、桜の開花時期によく見られる人気ページとなりました。

 

そこで今年は桜が開花する前に、この法則を使って開花日を予測できるように、「SAKURA 開花メーター」というサイトを作成しました。

 

本記事では、過去の開花日や気温のデータから600℃の法則は当たっているのかを検証してから、SAKURA開花メーターを紹介します。

続きを読む

季節ARIMAモデルにより今年(2022年)の人口減少を予測してみると...

増川 直裕

  • ■日本の人口減少が止まらない
  • ■季節ARIMAモデルのあてはめ
  • ■季節ARIMAモデルにおける次数の決定
  • ■ステップ1. 季節ARIMAモデルにおける次数の決定
  • ■ステップ2. 決定した次数を使って2022年を予測

■日本の人口減少が止まらない

先日、昨年(2021年)の出生数は過去最少になり、死亡数は戦後最多になったとの報道を耳にしました。これらの原因として、コロナウィルスの影響から妊娠を控える方がいた、コロナに関連した死亡が多かったことが挙げられていました。

 

そこで、昨年だけではなく、過去にも遡って出生数と死亡数を見てみましょう。

続きを読む

北京五輪 女子カーリング どの統計量を使うかで予選の順位は変わった?

f:id:JMP_Japan:20220222103038j:plain

増川 直裕

  • ■日本が予選を通過できた仕組み
  • ドローショットチャレンジとは?
  • LSDの分布と悪い結果を除くということ
  • ■チームごとのLSDの分布と日本のパフォーマンスは
  • ■他の統計量でも順位をつけてみると
  • ■日本が予選3位であったならば

■日本が予選を通過できた仕組み

北京五輪では、最初から最後まで日本女子カーリングの話題が事欠かなかったですね。お互いのチームが火花をぶつけあう予選リーグで日本は苦戦をし、イギリス、カナダと並ぶ5勝4敗でしたが、勝敗が並んだ時の順位の決め方であるドローショットチャレンジ(DSC) でカナダより成績が上だったため、辛くも4位でギリギリ予選を通過しました。

 

筆者自身、にわかなカーリング視聴者のため、このようなルールで順位を決めることを知らなかったのですが、カーリングでは相手の勝ちを認めて試合を終了するコンシードという制度があるため、単純に得失点差では判断できないことが理由にあるようです。

 

本記事では、このドローショットチャレンジ(DSC) の結果を統計的に考えてみます。最初に、このルールを説明し、各チームのDSCの結果を見ていきます。

 

次に、このルールで使う統計量によっては、日本の予選順位が上がり、イギリスとの決勝戦で有利に戦うことができたのかも?といったことを述べていきます。

続きを読む

JMPで作る「ツリーマップ」

  • ■セットアップ
  • ■ツリーマップ
  • ■ さあ始めよう!
  • ■ JMPについて

統計解析ソフト「JMP(ジャンプ)」は、簡単な操作で分かりやすいグラフを素早く作成できます。

単なる数字の羅列のデータを眺めただけでは気づけない特徴を見つけられるので、そこから次の施策を考え、実行に移せるメリットがあるのです。

 

その例として、今回はJMPで「ツリーマップ」を作ってみます。私は温泉が大好きなので、温泉に関するデータでグラフを作ってみると、何か面白い気づきが得られるかもしれません。

 

ツリーマップとは、さまざまな色とサイズの四角形を使用してデータの階層構造を示すグラフで、カテゴリ数が多いときに四角形のサイズで度数を分かりやすく比較できるといった特長があります。

 

数ステップで本当に簡単にグラフが作れます。さっそく試してみましょう!

続きを読む

“ラベルレス飲料”のメリットって何? 第3回 ~データを”パーティション”する:ラベルレスを推奨する人/推奨しない人の属性は~

増川 直裕

  • ■探偵のように
  • パーティションの実行
  • ■さらに分岐してみると
  • ■結局、どの変数が影響しているのか

■探偵のように

アンケート調査では、総合的な満足度に影響を及ぼすような、回答者の属性や回答を調べるといったことがあります。

 

例えば、飲料会社が新しい飲料のアンケート調査を行う際、「この飲料を他人に勧めますか?(勧める/勧めない)」といった満足度に関する選択肢があったとき、ある程度の回答が集まっていれば、勧めたいと答えた人はどのような属性の人なのかを知ることができるのです。

 

分析した結果として、”30代以下の女性で、過去に同社の類似製品を買っていて、普段から健康に気をつけている方“  の満足度が高いといったようなことが分かります。

 

ラベルレス飲料に関する記事は、今回で3回目になります。前回の第2回では、主成分分析から得られる回答者の主成分スコアを求めることにより、ラベルレスの推奨度をスコア(値が高いほど、ラベルレスを推奨している)で考えることにしました。下図の列「主成分1(ラベルレススコア)」がそれに該当します。

f:id:JMP_Japan:20220128104214p:plain

今回は、このスコアを用いて、ラベルレスを推奨する人は(または推奨しない人は)どのような属性の人なのかを、統計手法を用いて探索的に調べていくことにします。

続きを読む

“ラベルレス飲料”のメリットって何? 第2回 ~主成分分析でアンケートのスコア間の関連性をマッピング~

増川 直裕

  • ■アンケートで得られたスコア間の関連性
  • ■ラベルレス飲料の調査では
  • ■飲料間でのスコアの関連性は?
  • ■主成分分析によりスコア間、回答者間の関連性をマッピング
  • ■主成分分析の結果より、回答者のラベルレス推奨スコアを算出
  • ■次回:ラベルレスを推奨する人の特性は?

 

■アンケートで得られたスコア間の関連性

前回(第1回)の記事では、ラベルレス飲料のアンケートに対し、多重対応分析を使って設問間の関係をマッピングしました。今回(第2回)では、主成分分析という多変量解析の手法により、アンケートの回答をスコアとみなしたとき、スコア間の関連性、回答者の関連性をみる例をご紹介します。

 

アンケート調査では、複数の項目について、同じ尺度で評価することがあります。

例えば、ある飲料について、コク、まろやかさ、甘味、おいしさ、香りなどの項目をすべて5点や7点などのスコアで評価するといったケースです。

 

このとき、どの項目とどの項目が関連しているのか?回答者の回答に特徴はないのか? といったことを調べたい場合、主成分分析は有効な分析方法となります。

 

※前回の記事の予告では、ラベルレスを推奨する人(しない人)を特徴づける属性や回答を探索的に見つけていく方法を説明すると記載しましたが、今回の記事に含めると長くなるため、次回の第3回で説明します。

 

続きを読む