●Francesco D’Amuri and Juri Marcucci, “The predictive power of Google data: New evidence on US unemployment”(VOX, December 16, 2009)
タイムリーな経済指標を求める世間の声に応えるために、Googleの助けを借りて時系列モデルの予測精度を高めようと試みられている。Googleトレンドの検索データ(「Googleインデックス」)を使えば、失業率の予測精度を大幅に高めることができるのだ。アメリカだけでなく、イタリアについても。
Googleトレンドを予測に役立てるのが一つのトレンド(流行)になっている。例えば、ネイチャー誌に掲載されたばかりのGinsberg et al (2009) では、Googleでインフルエンザに関係の深いキーワードがどれくらい検索されたかという情報だけを使ってインフルエンザ様疾患の患者数を予測するシンプルなモデルが開発されている。Googleで特定のキーワードがどれくらい検索されたかを知ろうと思ったら、全検索数に占める割合についてのデータが週ごとにほぼリアルタイムで利用できるのである。
求職活動にインターネットを活用するのも当たり前になりつつある昨今だが(Stevenson 2008)、失業の予測にGoogleの検索データを役立てようとする試みも散見されるようになってきている。これまでの研究成果によると、職探しに関わりの深いキーワードの検索数が総検索数に占める割合を示す「Googleインデックス」は、ドイツやイスラエルにおける失業率(Askitas&Zimmermann 2009、Suhoy 2009)だけでなく、アメリカにおける失業保険の新規申請件数(Choi&Varian 2009)を高い精度で予測できることが明らかになっている。
Googleトレンドの検索データを使ってアメリカの失業率の行方を予測する
今般の経済危機がインターネットを使った求職活動に及ぼした影響を浮き彫りにしているのが以下の図1である。危機が発生する前と後とで「Googleインデックス」の値がアメリカ国内でどう変化したかが可視化されている。「Googleインデックス」を失業率を予測するための先行指標の一つとして用いると、予測の精度が大幅に高まることが我々がつい最近行ったばかりの二つの研究で明らかになっている。アメリカ(D’Amuri&Marcucci 2009)だけでなく、イタリア(D’Amuri 2009)についても。
図1 今般の危機が発生する前と後での「Googleインデックス」の変化 [1] … Continue reading
1ヶ月先、2ヶ月先、3ヶ月先の失業率を予測する上で、「Googleインデックス」を説明変数に含んでいるモデルの方が、線形・非線形の定評のある300以上の時系列モデル [2] 訳注;自己回帰移動平均(ARMA)モデル。よりも精度が高かったのである。
「Googleインデックス」は、アメリカ全土の失業率だけではなく、州ごとの失業率の予測でも力を発揮する。アメリカ国内の7割に上る州の失業率を予測する上で最も精度が高かったのは、「Googleインデックス」を説明変数に含んでいるモデルだったのである。さらには、以下の図2に示されているように、「Googleインデックス」を説明変数に含んでいるモデル〔緑色の線〕は、フィラデルフィア連銀が実施している専門家予測調査(SPF)〔青色あるいは赤色の線〕よりも高い精度で四半期の失業率を予測できるのである。予測誤差を測る尺度の一つである平均二乗誤差(Mean Squared Error)の値が1桁違いで小さいのだ。
図2 予測誤差 ~時系列モデル vs 専門家予測調査(SPF)~ [3]原注;専門家予測調査(SPF)と時系列モデルによる四半期の失業率の予測誤差を比較した図。対象期間は2007年2月~2009年6月。SPF_mean … Continue reading
「Googleインデックス」の高い予測精度は、イタリアにおいても確認されている。イタリアでも、「Googleインデックス」を説明変数に含んでいる時系列モデルが失業率の行方を予測する上で最も精度が高かったのである。政策の立案にも重要な意味を持ち得る発見である。なぜなら、四半期ごとの失業率が公式に発表されるのは大体2ヶ月後というのがイタリアの現状だが、Googleの検索データはほぼリアルタイムで利用できるからである。アメリカでは失業率のデータがもう少し早く公表されるので、「Googleインデックス」を失業率の予測に役立てることによって得られる見返りはイタリアにおいてのほうが大きそうである。
結論
「Googleインデックス」を失業率の予測に役立てる上での主たる難点は、インターネットを介した求職活動は失業者によるものだけとは限らないところである。在職中の転職活動も含まれている可能性があるのだ。別の難点は、誰もがインターネットを使うわけではないので、インターネットを介して職探しをする求職者は無作為に抽出されたサンプルとは言えない可能性があるところである。しかしながら、この点は大した問題じゃないだろう。求職活動にインターネットを活用するのが当たり前になりつつあるからだ。それに加えて、インターネットを使って職探しをする失業者とインターネットを使わずに職探しをする失業者とでショックから受ける影響が異ならない限りは、サンプルに偏りが生じることはないだろうからだ。
失業問題に対する世間の関心が高まるにつれて、失業率をタイムリーかつ正確に予測する必要性も高まっている。Googleの検索データの助けを借りれば、その求めに応じることも可能なのだ。
<参考文献>
●Askitas, Nikoa and Klaus F Zimmermann (2009), “Google Econometrics and Unemployment Forecasting(pdf)”, IZA Discussion Paper (4201).
●Choi, Hyonyoung and Hal Varian (2009), “Predicting Initial Claims for Unemployment Benefits(pdf)”, Google technical report.
●D’Amuri Francesco (2009), “Predicting unemployment in short samples with internet job search query data”, MPRA WP 18403.
●D’Amuri, Francesco and Juri Marcucci (2009), ““Google it!” Forecasting the US unemployment rate with a Google job search index”, ISER WP 2009-32.
●Ginsberg, Jeremy, Mathew H Mohebbi, Rajan S Patel, Lynnette Brammer, Mark S Smolinski and Larry Brilliant (2009), “Detecting Influenza epidemics using Search Engine Query Data”, Nature (457), pp.1012-1014.
●Stevenson, Betsy (2008), “The Internet and Job Search”, NBER Working Paper (13886).
●Suhoy, Tanya (2009), “Query Indices and a 2008 Downturn(pdf)”, Bank of Israel Discussion Paper (06).
References
↑1 | 原注;左の画像は、危機が発生する前の2007年5月~8月の「Googleインデックス」の値(職探しに関わりの深いキーワードの検索数が総検索数に占める割合)を表している。右の画像は、危機の最中にあたる2009年5月~8月の「Googleインデックス」の値を表している。青色が濃いほど、Googleインデックスの値が高い(インターネットを介した求職活動が盛んである)ことを示している。画像の出所は、Googleトレンド。詳細は、D’Amuri&Marcucci (2009) を参照のこと。 |
---|---|
↑2 | 訳注;自己回帰移動平均(ARMA)モデル。 |
↑3 | 原注;専門家予測調査(SPF)と時系列モデルによる四半期の失業率の予測誤差を比較した図。対象期間は2007年2月~2009年6月。SPF_mean は、専門家予測調査における(およそ30人の専門家による)予測の平均値の予測誤差。SPF_median は、専門家予測調査における予測のメディアン(中央値)の予測誤差。○○_Comb は、○○を説明変数に含んでいる時系列モデルの予測誤差を表している。時系列モデルから得られる四半期の失業率の予測値は、当該四半期の最初の月の終わりの時点での1ヶ月先と2ヶ月先の予測値に、当該四半期の最初の月の実際の失業率を加えて平均をとったもの。G_Comb は、「Googleインデックス」を説明変数に含んでいる時系列モデルの中で最も予測精度が高いモデルの予測誤差。IC_Comb は、「Googleインデックス」を説明変数に含まずに失業保険の新規申請件数(Initial Claims;IC)を説明変数に含んでいる時系列モデル(サンプル期間長め)の中で最も予測精度が高いモデルの予測誤差。IC_Comb_s は、「Googleインデックス」を説明変数に含まずに失業保険の新規申請件数を説明変数に含んでいる時系列モデル(サンプル期間短め)の中で最も予測精度が高いモデルの予測誤差。SETAR、LSTAR、AAR は、ラグ数が2の非線形自己回帰モデルの予測誤差。詳細は、D’Amuri&Marcucci (2009) を参照のこと。 |