統計解析ソフト JMP ブログ

プログラミングなしで使える、インタラクティブで可視的な統計解析ソフト「JMP(ジャンプ)」です。統計初心者の方、データ分析を始めてみたい方に向けて情報を発信しています。

過去最低と言われている2023年の出生数ですが、ARIMAモデルでは想定以上に良い結果という結論に...2024年の出生数予測も

先日、2023年の日本国内の出生数(速報値)が758,631人となり、過去最少となったという報道がありました。2022年比で約5.1%も減少しており、少子化に待ったなしという状況ではあります。しかし、過去のデータを基にした予測と比較すると、この程度の減少で踏みとどまることができたと肯定的に見ることができます。

 

本ブログでは、昨年の同時期実施したにARIMAモデルによる2023年の出生数予測の答え合わせと、時系列モデルを用いた2024年の出生数予測について紹介します。

 

昨年同時期に予測したARIMAモデルによる2023年出生数は、どれぐらい当たっていたのか?

 

昨年(2023年)の同時期に、2022年までの出生数(月ごと)のデータでARIMAモデルをあてはめ、2023年の出生数を予測するというブログを書いています。丁度、厚生労働省から2023年の月別出生数が公開されたので、答え合わせをしてみましょう。

 

公開された2023年の出生数(実測値):758,631人

ARIMAモデルで予測した2023年の出生数の予測値:745,468人

 

なんと、ARIMAモデルはもっと悲観的に予測していたのです。予測値に比べ、実際の出生数(実測値)は1万3千人ほど多くなっているのです。

 

以下の図は、月別の実測値(点)とARIMAモデルによる予測値(赤色の折れ線)を比較したものです。

グラフをみると、1月から4月にかけてはARIMAモデルによる予測が比較的精度良く当たっていることがわかります。しかし5月以降は実測値と予測値に乖離が大きな乖離が見られる月が増えています。特に、5月、6月、7月、11月、12月は予測値を大幅に上回る出生数となりました。

 

近年、大幅に出生数が減少した理由の一つに新型コロナウィルスの流行が挙げられます。2023年5月から10か月ほど遡ると2022年7月になりますが、この時期は新型コロナへの対応策としての共存の考え方が浸透し始めた時期かもしれません。

 

JMPの時系列モデルを用いて2024年の出生数を予測

2014年から2023年まで、10年間の出生数の推移を見ていきましょう。以下の折れ線は月ごとの出生数を示していますが、青色の平滑線を追加しています。

このデータからは、出生数が明らかに下降トレンドになっており、2024年以降も出生数のさらなる減少が予想されます。

 

JMPでは時系列データに対するモデルのあてはめ/予測手法として、ARIMAモデルのほかに、[時系列予測] というプラットフォームを用いて状態空間平滑化モデルをあてはめることができます。

 

このモデルについて簡単に説明しておきます。

 

時系列分析では、分析対象となる時系列データ(Y:原系列)を、トレンド要因(T)、季節要因(S)、誤差要因(E)と分解するという考え方があります。

状態空間平滑化モデルとは、これらトレンド要因(T)、季節要因(S)、誤差要因(E)に基づき定義されるモデルのことを言います。

 

しかし、原系列Yを、T, S, E を使って表すモデルは、次のように要因を足し算する(加法的)のか、掛け算する(乗法的)のかなどによって、さまざまなものが考えられます。

 

Y = T + S + E

Y = (T*S)*E

Y = (T+S) *E

・・・

・・・

 

JMPでは、以下のように誤差(2通り)、トレンド(5通り)、季節(3通り)のバリエーションを組み合わせて、合計30種類(=2×5×3)のモデルを一度にあてはめることができます。デフォルトでは、そのうち19個のモデルをあてはめ、モデルの評価指標を用いて最適なモデルが選択されます。

状態空間平滑化法による2024年の出生数予測は、以下の2つのステップで行います。

 

ステップ1 . 最も良いモデルの決定
- 2014年~2022年を学習データとして、上記で示した19個のモデルをあてはめる。
- 2023年を検証(保留)データとして、あてはまりを評価する統計量(RMSE)を使い最適なモデルを決定する。

ステップ2. 決定したモデルを使って2024年を予測

ステップ1で決定した最適なモデルを2014年から2023年のデータに対してあてはめ、2024年を予測する。

上記のことを[時系列予測] プラットフォームで実施するとき、「予測に関する設定」を確認します。

 

NAheadは、現在のデータ以降、どこまでの時点を予測するかを指定します。この例では、2023年までのデータで2024年1月から12月までを予測するので12時点です。

周期はこの時系列で想定する周期を入力します。月次データなので12を入力します。

モデルの選択手法では、「予測性能」を評価手法として「RMSE」を選択します。NHoldBackは検証データで使用するデータ数を入力します。この例では2023年1月から12月までを検証データとして扱うので、12を入力します。

[実行] ボタンをクリックすると19個のモデルがあてはめられ、それぞれについてRMSE(規準統計量)が計算されます。

 

この例でRMSEが最も小さくなるのは "MAM(周期=12)" なので、このモデルを最適なモデルとみなします。

ちなみにMAMとは、誤差が乗法的、トレンドが加法的、季節が乗法的であることを示しています。

最適なモデルを使って、2024年の出生数を予測した結果です。図の右側の緑色部分が2024年の月ごとの出生数を予測しています。

これらのステップを踏んで得られた状態空間平滑化による2024年の出生数予測と、同様のステップで求めたARIMAモデルによる予測を表にまとめておきます。

 

モデル

2024年の出生数予測

状態空間平滑化

726,440人

ARIMA

729,368人

 

どちらのモデルでも2024年の出生数は72万人台になると予測しています。さらに減少するという予測でありますが、あくまでも過去の出生数を基に予測された数値でしかありません。

 

現在はコロナにより行動制限もなくなり、政府の子育て支援政策の強化、経済状況の改善など、多くのポジティブな要素が絡み合っています。これらの要素がうまく功を奏し、2024年の出生数が予測を上回る可能性も十分にあるのではないかと考えています。

 

 

by  増川 直裕(JMP Japan)

Naohiro Masukawa - JMP User Community