●Francesco D’Amuri and Juri Marcucci, “The predictive power of Google data: New evidence on US unemployment”(VOX, December 16, 2009)
タイムリーな経済指標を求める世間の声が高まっている。そのような世間の要求に応えるために研究者たちは時系列モデルの予測精度を高めようと躍起になっており、ついにはGoogleに助けを求めるに至ったのであった。Googleトレンドの検索データ(「Googleインデックス」)を利用することでアメリカだけではなくイタリアに関しても失業予測の精度を大幅に高めることができるのだ。
Googleトレンド(の検索データ)を予測に役立てることそれ自体が一つのトレンド(流行)となっている。例えば、つい最近ネイチャー誌に掲載されたばかりのGinsberg et al(2009)ではインフルエンザに関係の深いキーワードがGoogleでどのくらいの頻度で検索されているかに目をつけた上で(Googleの検索エンジンに保管されている検索データはほぼリアルタイムで週ごとに利用できる)、その情報だけを使ってインフルエンザ様疾患の患者数を予測するシンプルなモデルが開発されている。
求職活動にインターネットを活用することも当たり前となりつつある昨今だが(Stevenson 2008)、そのような世の流れを背景としてGoogleの検索データを失業予測にも役立てようとする試みが散見されるようになってきている。これまでの研究結果によると、職探しに関わりの深いキーワードの検索数が全キーワードの総検索数に占める割合を表す「Googleインデックス」にはドイツやイスラエルにおける失業率(Askitas and Zimmermann 2009、Suhoy 2009)やアメリカにおける失業保険の新規申請件数(Choi and Varian 2009)の動向を高い精度で予測できる力が備わっていることが明らかになっている。
Googleトレンドの検索データを使ってアメリカの失業率の行方を予測する
今般の経済危機がインターネットを使った求職活動に及ぼした影響を浮き彫りにしているのが以下の図1である。この図は今般の危機が発生する前と後とで「Googleインデックス」の値がアメリカ国内においてどのような推移を辿ったかを跡付けたものだが、この「Googleインデックス」を失業率の行方を予測するための先行指標の一つとして用いるとアメリカ(D’Amuri and Marcucci 2009)だけではなくイタリア(D’Amuri 2009)に関しても予測の精度が大幅に高まることが我々がつい最近行ったばかりの二つの研究を通じて明らかとなった。
図1 今般の危機が発生する前と後におけるGoogleインデックスの推移 [1] … Continue reading
具体的に言うと、総数で500を超える線形・非線形の代表的な時系列モデル [2] 訳注;自己回帰移動平均(ARMA)モデルの中でどのモデルが1ヶ月先、2ヶ月先、3ヶ月先の失業率の行方をより正確に予測できるかを競わせたところ、「Googleインデックス」を説明変数に含むモデルはそうではない(「Googleインデックス」を説明変数に含まない)モデルよりも予測の精度が高かったのである。
「Googleインデックス」はアメリカ全体で測った(連邦レベルでの)失業率だけではなく州ごとの失業率を予測する上でも優れた力を備えている。実にアメリカ国内の70%の州に関して当てはまることなのだが、その州の失業率の行方を予測する上で最も精度が高かったモデルは「Googleインデックス」を説明変数に含むモデルだったのである。さらには、「Googleインデックス」を説明変数に含むモデル〔緑色の線〕は次の四半期の失業率を予測する上でフィラデルフィア連銀発表の専門家予測調査(SPF)〔青色あるいは赤色の線〕よりも高い精度を誇っており、(予測誤差を測る尺度の一つである)平均二乗誤差(Mean Squared Error)の値は(専門家予測調査(SPF)のケースと比べて)1桁違いで小さい結果となっているのである(以下の図2をご覧になられたい)。
図2 予測誤差 ~時系列モデル vs 専門家予測調査(SPF)~ [3] … Continue reading
「Googleインデックス」に備わる高い予測精度は(アメリカだけではなく)イタリアにおいても確認されている。イタリアのケースでも「Googleインデックス」を説明変数に含む時系列モデルはそうではない(「Googleインデックス」を説明変数に含まない)モデルよりも失業率の行方を予測する上でずっと高い精度を誇ったのである。この発見は政策の立案にとっても重要な意味を持ち得る。というのは、イタリアでは四半期ごとの失業率のデータが公式に発表されるまでに大体2ヶ月ほど待たねばならない(四半期ごとの失業率の公式データはおよそ2ヶ月遅れで発表されることになっている)のが現状だが、Googleの検索データはほぼリアルタイムで利用できるからである。アメリカではもう少し早めに失業率の公式データが手に入る(発表される)ことを考えると、「Googleインデックス」を失業予測に役立てることで得られると期待される見返りはアメリカにおいてよりもイタリアにおいてのほうが大きいと言えるだろう。
結論
「Googleインデックス」を失業予測に役立てることにはいくつか難点もある。その中でも主たる難点は、インターネットを介した求職活動の中には失業者による職探しだけではなく在職しながらの転職活動も含まれている可能性があるところである。別の難点はサンプルの偏りが生じる可能性があるところである。すべての人がインターネットを利用しているわけではなく、そのためインターネットを使って職探しを行う求職者というのは求職者全体の中から無作為に選び出されたわけではない可能性があるのだ。しかしながら、経済を襲ったショックの影響がインターネットを使って求職活動を行う失業者とインターネットを使わずに求職活動を行う失業者との間で違うかたちをとるということにでもなれば話は別だが、求職活動にインターネットを活用することが今や当たり前となりつつあることも考えるとこの点は大した問題とはならないだろう。
失業問題に対する世間一般の関心が高まりを見せるにつれてタイムリーで正確な失業予測の必要性も高まっている。Googleの検索データの助けを借りればそのような必要性に応じることも可能となるかもしれないのだ。
<参考文献>
●Askitas, Nikoa and Klaus F Zimmermann (2009), “Google Econometrics and Unemployment Forecasting(pdf)”, IZA Discussion Paper (4201).
●Choi, Hyonyoung and Hal Varian (2009), “Predicting Initial Claims for Unemployment Benefits(pdf)”, Google technical report.
●D’Amuri Francesco (2009), “Predicting unemployment in short samples with internet job search query data”, MPRA WP 18403.
●D’Amuri, Francesco and Juri Marcucci (2009), ““Google it!” Forecasting the US unemployment rate with a Google job search index”, ISER WP 2009-32.
●Ginsberg, Jeremy, Mathew H Mohebbi, Rajan S Patel, Lynnette Brammer, Mark S Smolinski and Larry Brilliant (2009), “Detecting Influenza epidemics using Search Engine Query Data”, Nature (457), pp.1012-1014.
●Stevenson, Betsy (2008), “The Internet and Job Search”, NBER Working Paper (13886).
●Suhoy, Tanya (2009), “Query Indices and a 2008 Downturn(pdf)”, Bank of Israel Discussion Paper (06).
References
↑1 | 原注;左の画像は危機が発生する前の2007年5月~8月中におけるGoogleインデックスの推移を表しており、右の画像は危機の最中にあたる2009年5月~8月中におけるGoogleインデックスの推移を表している。青色が濃いほどGoogleインデックスの値も高い(インターネットを介した求職活動が盛んな)ことを示している。いずれの画像もGoogleトレンドよりキャプチャしたもの。詳細はD’Amuri and Marcucci(2009)を参照のこと。 |
---|---|
↑2 | 訳注;自己回帰移動平均(ARMA)モデル |
↑3 | 原注;この図は専門家予測調査(SPF)と時系列モデルのそれぞれによる次の四半期の失業率の予測誤差を比較したものである。サンプル外予測の対象となる期間は2007年2月~2009年6月である。SPF_meanは専門家予測調査(SPF)における(およそ30人の専門家によるそれぞれの)予測の平均値(の予測誤差)、SPF_medianは専門家予測調査(SPF)における(およそ30人の専門家によるそれぞれの)予測のメディアン(中央値)(の予測誤差)である。○○_Combは○○を説明変数に含む時系列モデルの(次の四半期の失業率の)予測誤差を表したものであり、次の四半期(例. 第3四半期)の失業率の予測値を求める際には当該四半期(例. 第2四半期)の最初の月(例. 4月)の終わりの時点で1ヶ月先(例. 5月)の予測値と2ヶ月先(例. 6月)の予測値をそれぞれモデルから弾き出し、それに当該四半期の最初の月(例. 4月)の現実の失業率の値を加えた上で平均をとることにする。G_Combは「Googleインデックス」を説明変数に含む時系列モデルの中で最も予測精度の高いモデル(の予測誤差)、IC_Combは「Googleインデックス」は説明変数に含まない一方で失業保険の新規申請件数(Initial Claims;IC)を説明変数に含む時系列モデル(サンプル期間長め)の中で最も予測精度の高いモデル(の予測誤差)、IC_Comb_sは「Googleインデックス」は説明変数に含まない一方で失業保険の新規申請件数(Initial Claims;IC)を説明変数に含む時系列モデル(サンプル期間短め)の中で最も予測精度の高いモデル(の予測誤差)をそれぞれ表している。SETAR、LSTAR、AARはラグ数が2の一連の非線形自己回帰モデル(の予測誤差)である。詳細はD’Amuri and Marcucci(2009)を参照のこと。 |