前編: 誤情報・まちがい・無意味データを見つける方法
「どんな宣伝屋でも煽動者でも,その仕事をこなすには,これという聴衆に影響を及ぼす最良の手段を見つけ出さねばならない.このうえなく頭に入りやすく,見てわかりやすく,きわめて強烈な印象を残し,このうえない説得力をもって,確たる真実を提示する最良の手段を見つけなければ宣伝も扇動もできない.」
――レーニン
2020年の終わり頃にこのブログを書き始めたとき,「こんな記事を書こう」というアイディアをあれこれと用意していた.そのひとつは,「バズりグラフにだまされない方法」という記事だ.有名なグラフをいろいろと準備万端にリストにまとめてあった.でも,ちょっとワケあって,その記事は後回しにした.それからの年月で,ネタになるグラフのリストは増える一方で,記事にとりかかるのをぼくはずっと後回しにしてた.
でも,後回しはもう終わりだ.バズりグラフにいよいよ我慢の限界がきた.もう後回しにはしておけない.ただ,ネタのリストはあまりに長くなってしまったので,今回の記事は前編と後編にわけないとダメっぽい.そこで,今日は誤情報をふくむグラフを見分ける方法についていっしょにお勉強しよう――そういうグラフは意図的な欺瞞だったり,不注意による間違いだったり,とにかく総じて無意味なデータだったりする.後編では,いいデータを使ってるけれどたいていの人が認識する以上にこまやかなところがあるストーリーを語ってるグラフを解釈する方法を学ぼう.
賃料 vs. 所得に関するダメダメなグラフ
活動家でソーシャルメディアで声を上げてる Joshua Potash が,先日,TikTok から引っ張ってきた動画を投稿した.1985年以降に世帯所得よりもずっと急速に賃料が上がってきてるのを示す動画なんだと主張されてる:
このグラフは,完全におかしい.画面下に「註記:賃料と所得はインフレ調整済み」と表示されるけれど,これもまちがいかウソのどっちかだ.所得しかインフレ調整されてない.赤線が示す賃料はインフレ調整された数字じゃないよ.すでにこの誤りを指摘するコミュニティノートがつけられてるけれど,それまでの間に,Potash のツイートは 77,000の「いいね」と 17,000回のリポストというすごい注目を集めてしまった.
経済に関する数字を比較するときに,インフレ調整された(「実質の」)数字とインフレ調整されてない(「名目の」)数字を比較するのは,みんなの関心を引いてクリックを誘うのにいちばん手軽な方法だけど,もちろん,こんな比較は完全な戯言だ.インフレ調整された数字とインフレ調整されてない数字を比べると,時間経過とともにその差はどんどん広がる.調整済み・未調整のどっちかにそろえて比較しないと,まともな比較にはならない.
連銀が管理しているデータページの FRED に行って,本当の数字がどうなってるか確かめよう.世帯所得の中央値と,消費者物価指数で「主な住居の賃料」に出てくる数字とを比べてみよう.この賃料の数字は,全米の平均家賃で標準的に参照されてるやつだ.次に,この2つの数字をともに1985年時点で「100」に設定する(Potash のバズりグラフは1985年が起点だからね).すると,パーセント変化が見られる.そうやってできたのがこれだ:
2つの数字で,とくに大きな乖離なんて生じてないね.両者はすごく近い軌跡を描いてる.2007年ごろに,2つの線がちょっぴり離れて,所得が少しばかり賃料に後れをとってるけれど,2021年までにはふたたびすごく近づいてる.データは,そこで終わってる.
「でも,賃料の方が所得よりも少しだけ上がったのはまちがいじゃないでしょ?」 いや,それはね……ちがうんだよ.実は,世帯所得はその世帯の人数に左右される.個人所得の中央値を見ると,そっちは1985年以降に賃料を上回る伸びを見せてたりする.
ともあれ,この誤りがバズったのは,今回がはじめてじゃない.さかのぼって2019年にも,『ウォールストリート・ジャーナル』の記事がジョージタウン大学の法学教授 Adam Levitin の本に出てきたデータを引用して,それが実はおなじみの「名目 vs. 実質」の誤りをやってると判明してる:
Potash のグラフど同じく,所得と住宅価格の両方に「実質」とラベルがついてるけれど,実際には所得の数字だけが「実質」値だ.『ウォールストリート・ジャーナル』はこのデータをもとにグラフを作成してツイートし,Potash と同様にバズった.ただ,誤りの指摘を受けてツイートを削除するだけのまともさが,『ウォールストリート・ジャーナル』の方にはあった――影響力ある人たちが大勢,うっかり誤情報を真に受けてしまった後のことだけどね.
ともあれ,アメリカでは,賃料と所得はおおよそ同じペースで推移してきた(だからって,どこでも住みたいところの賃料が自分の所得でまかなえるとはかぎらないけど).これは知っておくと有益ではある.ただ,もっと深い問いに答えるには,これでは足りない:こういうグラフにひっかからないようにするには,どうしたらいいんだろう? かつて Twitter と呼ばれてたアプリには「コミュニティノート」という機能があって,たいていのバズリツイートの誤りや誤情報はそのうち指摘される.ただ,TikTok にはそういう機能がないし,ゴミくずグラフを見極めるかんたんな方法もない.基本的に,自分でなんとかしないといけない.どうにかキミにクリックさせたり耳目を集めたりしたがってる人たちであふれた世界で我が身を守るのに頼れるのは,自分の機知だけだ.
自分の機知と,あとは,友好的な隣人にして経済ブロガーのノア・スミスを頼るといい.では,ダメなデータを見分ける助けになる小技をいくつか紹介しよう.
劇的なグラフには眉唾;反駁されてないか確認をとろう
一般論として,バズりグラフの鉄則と言えばこれだ――「びっくりして目ん玉飛び出るグラフほど,なにかあやしげなところがある見込みが大きい.」 よく言われるように,「途方もない主張には途方もない証拠が必要となる.」 さっきの実質と名目をごちゃまぜにしたグラフなんて,その絶好の例だ.アメリカで賃貸物件に暮らしてる人たちは所得のだいたい3割を賃料に費やしてる.すると,1985年から所得に比べて賃料が本当に倍になってるなら,いまアメリカ人は所得の6割を賃料に使ってることになるよね.これって,実際に起きてそうなことに聞こえる? ちがうよね.だから,主張されてる数字の大きさで考えると,あのグラフはすぐさま疑わしくなる.
だからって,目ん玉飛び出るようなグラフがいつでもデタラメってわけじゃない.たとえば,西暦 1000年以降の GDP を示したグラフがあって,これはおそらく基本的に正しい:
このデータにも問題点かもしれないことはたくさんある(フローニンゲン大学のマディソン・プロジェクトから出てきたデータだ).実のところ,ここに載ってるいろんな地域の歴史的な人口はわかってない.几帳面な記録なんてつけられてなかったからだ.利用できた土地で支えられただろう人数にもとづいて推測しているだけだ.それに,当時の経済的な産出の価値が実際にどれくらいだったのかもわかっていない.歴史上のしかじかの時期に産業の構成がどうなっていて,それぞれの産業がどれくらい生産的だったかを考えて,それにもとづいて推測をしているだけだ.これは,すごく概算的な作業だ.ただ,このグラフの数字が仮に2倍くらい実態からズレていたとしても,基本的には同じような見た目になる――巨大なホッケースティックみたいなカタチになって,産業革命から人類がどんどん豊かになってきたことが見てとれることは変わらない.
ただ,一般に,これほど劇的なグラフはなんらかの点で飾り立てられたり加工されてたりしている見込みが大きい.産業革命ほど劇的なことなんて,そうそうめったにないんだよ.この世に起こる出来事の大半は,いたってふつうだ.だから,グラフが目ん玉飛び出るようなものであればあるほど,そのグラフが語るストーリーを信じる前に確認をとる必要は大きくなる.
バズりグラフを調べるときに間違いなくいちばん手軽な方法は,誰かがとっくにそれを反駁してないか調べてみることだ.かつて Twitter と呼ばれてたアプリは,これに関してすごく優れてる.「コミュニティノート」っていう機能があるおかげだ.これによって,クラウドソースされた訂正が投稿の下に表示される.コミュニティノートがいつでも正しいわけじゃないけれど,たいていは正しい.Politifact などのファクトチェック・ウェブサイトも,同じくいつでも正しいわけではないけれど,情報の訂正をうまくやってる.3つ目の選択肢として,Reddit に行って,誰かがすでにグラフを反駁してないか確認してみる手もある.Google の逆画像検索は,これをやるときにとても役立つ.
ときに,新しくバズったグラフの整合性を調べるときに古いバズりグラフを利用できることもある.たとえば,みんなはこんなグラフを前に見たことがあるかもしれない.たびたびバズってるからね.
さて,このグラフによくある解釈には,いくらか小さな問題があると思ってる(これは,後編で語ろう).でも,データはいい.前にそれを見たことある人なら,「1時間あたり平均賃金」の線が「住宅」の線よりも上がって行ってたのを覚えてるかもしれない.1時間あたり平均賃金は,所得中央値と同じってわけじゃないけれど,おおまかな代理変数としてはわるくない.また,住宅価格はただの賃料を超えるものだけれど,これもおおまかな代理変数としてはわるくない.というわけで,このグラフを知ってる人なら,賃料や住宅価格が所得よりもずっと急速に上昇してるグラフを見て,すぐさま眉につばをつけるはずだ.
さらに,グラフからどんな含意が導かれるか考えてみるのも,すぐれた整合性チェックになる.さっきの住宅 vs. 所得のグラフだったら,頭のなかでパッと計算してみれば,所得に対する賃料の比率が倍増してるってグラフが主張してることになるのがわかる.こんな風にかなり明白な含意のあるグラフはたくさんある.そういう含意を考えると判断の助けになる.グラフがとくに戯言を言ってるわけじゃないとわかった場合にも,過激な含意についてじっくり考えることで,そのグラフが重要である理由を理解するのに役立つ.
最後の整合性チェックは,データの出処を見ることだ.グラフのデータがどこから出てきたのか出典が記載されてないなら,要注意フラグが立つ.出典が記載されてるときには,そのデータがどれくらい信頼できそうかについていくらか情報が得られたりする.政府のデータ情報源は,総じてとてもいい――政府のデータにもいろんな仮定がおかれてたりあいまいさがあったりするのはたしかだけれど,一般に,政府には誠実で賢い人たちが大勢居て,できるかぎり最良の仕事をやってる.また,Shadowstats〔「影の統計」〕みたいな悪しき役者たちもいる.Shadowstats のデータは完全にでっちあげで,これまでに何度も何度も何度も反駁されてる.多くのデータは,この2つの範疇のどこか中間に収まる.ただ――
批判の「標準チェックリスト」はあまり役に立たない
「これはいまいち役立たないな」と思ってるものがある.それは,なにかを見たとき即座に批判的になるべき事項の標準的なリストだ.たしかに,数値をインフレ調整しそこなうのは誤解を招きやすいグラフをつくってしまうすごくありがちな理由であはある.だから,インフレ調整してるかどうか確かめるのはいつだっていいことだ.でも,このことはとっくに広く知られてるから,インフレ調整されてるグラフをとりあげて「インフレ調整したらどうなるの」とガミガミいう人はたくさんいる.それに,さっきの賃料と所得グラフみたいに,インフレ調整されてないのに「インフレ調整済み」とラベルを貼ってしまう粗忽者やウソつきもいる.
よく人を惑わせてしまう事柄については,他にも経験則が2つある.(1) 中央値 vs. 平均値と,(2) 一人あたりの数値だ.平均(単純平均)が外れ値の影響を受けやすい点は,多くの人が知ってる.たとえば,〔いろんな人がいる〕バーにイーロン・マスクがふらっとやってくると,そのバーの平均財産は100倍ほども跳ね上がる.それで,格差を気にかけてる人たちはなんでもかんでも平均値を見ずに中央値を使ってくれってみんなに頼んでるわけだ.でも,平均値は多くの場合に完璧にまともな数字になる――平均消費カロリーやゲームで遊ぶ平均時間を見てるとき,中央値を使う必要はない.バーにイーロン・マスクがやってくるさっきの例とちがって,1日には24時間しかないんだから,外れ値で平均が100倍になったりはしない(いや,そのキミのお友達がどんだけゲームにのめり込んでても大差ないよ).他方で,中央値は出しにくかったり出てくるまで時間がかかったりするから,利用できない場合もよくある.
「一人あたりの数値」について言うと,たしかに,人口規模がさまざまにちがってるのを調整すべきなのにそうしてないグラフはある.とくに,地図ではこれがよくある.牛乳の総消費量を示す合衆国の地図や,飼い犬の総数を示す地図などなどは,実のところ,たんにアメリカの大都市の地図でしかなかったりする.ああいう地図を有用なものにするには,一人あたりの牛乳の消費量や一人あたりの飼い犬数に目を向けるべきだ.他方で,グラフによっては,一人あたりの数字がべつに重要じゃないものもある.たとえば,国別の炭素排出量グラフをみて「でも一人あたりだとどうなの?」ってすぐにガミガミいう人はたくさんいる.でも,気候変動はべつに一人あたり排出量なんて気にしてくれない.クウェートの一人あたり排出量は,中国の3倍以上も多い.でも,クウェートがとる政策は,地球の将来は基本的に無関係なのに対して,中国がとる政策は大いにものをいう.
最後に,グラフのよしあしを調べるのにダメな方法も言っておこう.それは,他人のリプライやブログのコメントを見ることだ.なにかのグラフをゴミくず呼ばわりする人はどこにでもいる.でも,そういうコメントは,うまくクラウドソースされてない――「コミュニティノート」や Reddit の投票で重み付けされた投稿みたいに,質を担保されてない.それに,なにかとグラフをゴミくず呼ばわりする人たちは,おうおうにして,見識が足りてなかったり,あるいは/さらに,偏見が入ってたりする.
たとえば,国別の炭素排出量グラフを投稿したとしよう.それにすぐさま誰かが食いついて,「中国の排出量はアメリカよりもずっと大きいぞ,アメリカは汚染産業を中国にアウトソースしてるんだから」と主張したとしよう.これは単純にありがちな誤りだ.アメリカは,中国と同様に,産出するのと同じだけの量を消費してる.それに,消費と産出の差は小さいままで,年月の経過とともに大きく開いてはいない.それでも,そういうデタラメ批判が世間ではずっと言われてる.というわけで,反駁の方がインチキな事例に用心しよう.
ともあれ,こういう事情を伝えたうえでいうと,バズりグラフにだまされないために役立てられるすぐれた経験則はある.ただ,そういう経験則は,なにも考えずに当てはめればいい標準的な批判のチェックリストにはならない.こういう経験則は,自分が見てるグラフについて自力で考える方法なんだよ.
自分がいま何を見てるのかを理解しよう
どんなグラフでも,最初におさえるべきなのは,グラフがなにを測っているのかだ.縦や横の軸にラベルがついてなければ,要注意フラグがたつ.というか,ものによっては,ホントはグラフですらないグラフもどきだってある.そういうグラフもどきは,いかにもグラフっぽい見た目で,ぼんやりした考えを視覚的に描き出してるだけだ.
次に,軸のラベルを自分がほんとに理解してるか確かめよう――「全米驚嘆度指標」みたいなぼんやりしたラベルだったり,なんだか不可解な変数名だったりしたら,グラフから結論を導くまえに,その数字を自分がわかってるか確かめること.
たとえば,オックスファムから出てきた有名なグラフにこんなのがある.なんでも,世界の炭素排出量の大半は,お金持ちの人たちに責任があるのを示してるんだって主張されてる:
このグラフは定期的にバズってる.だから,これが基本的に無意味なシロモノである理由はぜひとも理解しておきたい.このグラフには問題点がたくさんあるけれど,最大の問題点はこれだ――タイトルに反して,実は二酸化炭素排出量なんてぜんぜん示してないんだよ.じゃあなにを示してるかっていうと,「生涯消費排出量」ってやつで,これはオックスファムがつくりあげたやつだ.グラフを見ると,曲線が完璧になだらかで,ジグザグやでこぼこがちってもないのがわかるよね.どんなグラフでも,曲線がこうなってたら,実は自分が目にしてるのが実際のデータではなくってなにかのモデルの出力だっていうすごく強い手がかりになる.
ぼくがあれこれ調べてわかったかぎりでいうと,オックスファムがやったのはこういうことらしい.まず,炭素排出の源がどこにあるかについて,まちがった仮定をたくさん立てる.たとえば,所得が〔炭素の〕諸費に等しいと仮定したり(ブブーッ!),貧しい人たちがお金持ちの人たちと同種のモノを消費すると仮定したり(ブブーッ!),1ドルあたり炭素排出量が,自分たちのつくった特定の関数どおりに出てくると仮定したり,などなど.次に,政府支出を完全に無視し,土地使用を完全に無視したり,2007年の古い所得データをモデルに入力してその後に起きた途上国の成長を無視したりして,いまキミが目にしてるような無意味で役立たずなクセにめちゃくちゃバズるグラフをつくりあげた.
さて,オックスファムの手法を深掘りして調べて,こういういろんなダメ仮定を検索してみて,もうとっくに誰かがグラフを反駁してるんじゃないかと調べてみてもいい.でも,そうはせずに,グラフの軸をよく見てから,「あれれ…ここについてるラベルの『生涯消費排出量』ってなんのことだか自分は知らないぞ.どうも標準的な数値じゃなさそうだな.それに,グラフにある全体のラベルと同じじゃないな.これをリツイートするボタンをあせって押しちゃう前に,ちょっと考え直しておくか」と言ってすませても,なにも問題ない.この一件の教訓: グラフがいったいなにを測ってるのか確かめて,その意味がわかるか考えよう.
余談だけど,このオックスファムのグラフには,他にも初歩的な整合性チェックのポイントがある.左派の人たちは,炭素税に反対する傾向がある.その根拠は,「炭素税によってお金持ちよりも貧しい人たちも方が打撃を受けやすいから」というものだ.ほんとにお金持ちの方が貧しい人たちよりもそんなにたくさん炭素消費してるんだったら,少なくともアメリカでは炭素税は強く累進的になるだろう.
混乱を招くラベルの事例は,たいてい,これほどめちゃくちゃにひどくはない.それでも,広く誤解を引き起こすことがある.たとえば,不明瞭な政治的事情があって,アメリカでは連邦政府の支出を「義務的支出」と「裁量的支出」にわけてる.そして,防衛費は「裁量的支出」に分類されてる.それで,この裁量的支出だけを示したグラフをもってきて,「総額のこんなに大きな割合を防衛費が占めてるんですよ」と主張する人たちが世間にはいる.ほんとは約12% にすぎないのに.
ときに,ラベルが意味してることを自分はわからないぞと気づくだけではすまないくらい,グラフが計測してるものが細やかでわかりにくい場合もある.たとえば,パーセンテージの増加とパーセンテージポイントの増加は,混同しやすい.かりに失業率が 5% から 6% に上がったとしよう.これは,失業率の 20% 増だけど,パーセンテージポイントでは 1ポイントの増加でしかない.パーセンテージとパーセンテージポイントみたいな数字を理解しておくのはいいことだ.
グラフの軸を確認して,データポイントを確認すべし
ともあれ,グラフのデータがはっきり定義されてたとしても,その提示の仕方しだいで,グラフはいくらでも誤解を招くモノにできる.誤解させれられてしまうのを避けるには,いつでも軸を確認するのがいい方法だ――とくに,縦軸をよく見ること.たいてい,グラフの実際に計測してる重要なモノは縦軸で,たくさん操作されがちなのも縦軸なんだ.
縦軸が2種類併存してるグラフには,用心しよう.「2軸グラフ」というやつだ.ときに,2つを併存させるしか仕方ない場合もある――単位がちがうものを2つ同じグラフに入れて比較しようとしてるときには,あまり選択肢はない.ただ,縦軸を2種類まぜるとどうしても読み取りにくくなる.読む側は2つある縦軸を理解しないといけなくなるし,グラフの右側にある2つ目の縦軸は見落としやすいからね.それに,そういうグラフは悪用しやすい.どっちかの縦軸を縮めたり伸ばしたりしてやって,実態以上に2種類の数値がきれいに重なってるかのように見せかけることができるからだ.たとえば,ラリー・サマーズは1970年代のインフレと2020年代のインフレを2軸グラフにしたとき,70年代インフレの方がずっと高かったのに2つが重なってるように見せて,当然ながら批判の集中砲火を浴びた:
のちにサマーズが『ワシントン・ポスト』に書いた論説では,同じ縦軸で2つのインフレをプロットしたグラフを掲載してる.言わんとした論点は同じだけれど,こっちの方がずっと人目を引きにくい.1960年代と2010年代のインフレはまるで重ならないから,2020年代のインフレピークはずっと低いところにある:
それに,2軸グラフだと2つの折れ線を連動させられる.たとえば,『フィナンシャル・タイムズ』が前にこれをやってる:
これだと,世界の基軸通貨として人民元がドルをいまにも超えそうに見える.でも,実際にはドル 60% に対して人民元は 3% だ.もともとの2軸グラフに大勢の人たちがゲンナリしたのをうけて,のちにグラフは2枚に分けられた.でも,それだって大幅な改善にはならなかった.こういう錯視の事例は,悲しいほどにすごくありふれてる.
あと,縦軸がどこからはじまってるのかにも用心した方がいい.一部の人たちの言い分とちがって,グラフの縦軸がゼロからはじまっててもダメとはかぎらない.たとえば,人間の体温をグラフにするときだったら,起点をゼロにする必要なんてない.だって,体温が29度を下回ってる人はきっと死んでるからね.人間の体温なら1度や2度の上下変動が大きな差になる.だから,そこをぐぐっと拡大して,そういう上下変動が見えるようにする必要がある.
そのうえで言うと,縦軸の起点には用心すべきだ.「ゼロからはじまってるんでしょ」と決めてかかっちゃいけないよ! たとえば,縦軸を切り縮めたうえで2軸グラフを使うことで,Tyler Vgen は例の有名なジョークをつくってる.溺れ死ぬ人数とニコラス・ケイジ映画のネタだ:
(ところで,またしてもニコラス・ケイジだね.いやはや…)
それに,縦軸の単位がどうなってるか確実に理解すること(それに横軸の単位も).2020年4月にフォックス・ニュースに登場したグラフを見てもらおうか:
ご覧のとおり,縦軸の間隔がきまぐれに変わってる.おかげで,グラフは基本的に読めたしろものじゃなくなってる.たまに,こういうことをやりつつも縦軸に小さな破線を入れることで間隔が変わってるのを伝えてるグラフもある.でも,それだってよくよく注意してないとわかりにくい.
あと,非線形尺度のグラフもたまにある.それで問題ないことも多いけれど,尺度が線形じゃないときにグラフに2つのモノを重ね合わせてできあがるグラフは,ばかばかしいものだったりする.というわけで,縦軸の尺度にはご用心.
下に載せたのは,有名なグラフだ.これをつくった人たちは……上下ひっくりかえしちゃってるんだよね.
さて,ここまではもっぱら縦軸ばかり取り上げてきたけれど,たまに,横軸も人を欺くことだってある.誰かが2023年についてなにか主張してるとき,そこに引っ張り出されてるグラフが2009年で終わってたりしないかチラッと見ておいても損はない.
最後に,縦横の軸に加えて,もうひとつ目配りしたいことがある.それは,グラフのデータが一部欠けてないかって点だ.たとえば,終わりの時点がまちまちなグラフをつくる人たちがたまにいる.これは,なかなか目にとまりにくい.ここでは,『フィナンシャル・タイムズ』の我が友 John Burn-Murdoch を取り上げよう.経済ブログ界隈でも彼はとびきりにすぐれたバズりグラフをつくる人物で,彼がつくったグラフをぼくもよくリポストしてる.その彼も,このグラフではちょっとばかりグズをやらかしてるように思う:
よく見てもらうと,アメリカの所得の数字は他の国々よりも1年早く途切れていて,2020年の数字がアメリカにはないのがわかる.2020年といえば,パンデミックの時期で,多くの国々で政府が市民に巨額を配った年だ.そして,アメリカほど市民にお金を配った国はめったにない.これによって,可処分所得は大幅に跳ね上がった.でも,このグラフではヨーロッパ諸国の分しか2020年まで示されていない.当時はまだアメリカのデータが利用できなかったためだ.このため,よくよくじっくりグラフを見ないと,アメリカの所得中央値が2020年までずっとノルウェーに後れをとっていたように見えてしまう.実際にはちがうのに.
さて,この記事の最初の方でとりあげた所得 vs. 賃料のグラフとちがって,Burn-Murdoch のグラフは誤情報というわけじゃあない.それに,オックスファムのグラフみたいに無意味でもないし,縦や横の軸が誤解を誘うわけでもない.ぼくにわかるかぎりでは,Burn-Murdoch が使ってるデータに誤りやあいまいなところはない.たんに,重要なデータポイントが1つ欠落してるおかげで,グラフが物語ってる視覚的なストーリーが変わってしまっているだけだ.(欲を言えば,アメリカの2020年のデータが利用すらできなかった第5パーセンタイルと第95パーセンタイルじゃなくて所得分布の中央あたりからももっとパーセンタイルを含めてほしかった.)
ともあれ,いまの話の教訓はこれだ――ささやかな細部を確かめると助かる場合もよくあるんだよ.
全体をまとめよう
2018年7月に,うっかり者の若者(っぽい)ブルームバーグ寄稿者のノア・スミスとかいう人が,トランプの税制改革に関するコラムのなかで下記のようなグラフを載せた.グラフは,2018年第2四半期に実質賃金が 2% 近く落ちたことを示している:
そう,このグラフはまったくのゴミだ――ぼくがこれまでに掲載したグラフでもまちがいなく最悪のグラフだ.そして,このゴミグラフがバズった.ナンシー・ペロシみたいな民主党の大物政治家たちにもシェアされて,それから,反駁された.そう,このぼくが,バズりによる誤情報のベクトルになってしまったわけだよ.(このゴミグラフについて謝罪する補足記事を書いて,どうしてこんなグラフを記事に載せていたのか説明した――当時,まだ第2四半期のデータはまだ政府からでていなくて,Twitter で大勢の人たちが PayScale の数字を投稿していたので,自分の頭で考えずにそれに乗っかって自分のコラムに載せてしまったんだ.ほんとにもう!)
じゃあ,さっきのグラフがゴミなのを見分けるのにこの技をどう使えばよかったか,見ていこう.
まず,整合性チェックにかける.グラフでは,ある四半期から次の四半期にかけて実質賃金が 1.8% 下がったのが示されてると主張されてる.年率換算すると,これは 7% の下落だ.政府データを参照すると,これは実際問題として前代未聞の数字だ:
というわけで,初手からこの数字は大きすぎて現実にありそうにないとわかってしまう.
次に,グラフが測っていると主張してるものに目を向けよう.縦軸は,実質賃金の水準じゃあない――縦軸は,2006年以降の実質賃金のパーセント変化だ.これはまぎらわしい.だって,そうすると,1四半期の低下を見るつもりで実際に目にしてるのは,グラフに載ってもいない年に比べたパーセント変化の変化ってことになるからだ.じっくりグラフとにらめっこしないと,グラフの終わりにある大きな下落が,前の四半期と比べて実質賃金が 1.8% 低下してるのにだいたい等しいってことに気づけない.グラフがいったいどんなことを伝えてるのかを探り当てるのがこんなに難しいとなると,またひとつ要注意フラグが立つ.
3本目の要注意フラグは,縦軸の数字が負の数だって点だ.それはつまり,PayScale の給与データから,2006年に比べて2018年の実質賃金の方が低いってことだよ! でも,通り一遍でも政府データになじみがある人なら誰だって知ってるように,実際のところ,2006年に比べて2018年の方が実質賃金は高かった(その差はだいたい 7% だったりする).というわけで,これまた,PayScale の賃金データをひと目見たらすぐさま疑いを抱いてしかるべき理由が出てきた.
実は,PayScale の賃金データはとにかくまるっきりのゴミくずだった――実際のデータとまるで関係のない大きなブレをしょっちゅう示していたし,全米の賃金を現実よりもずっと悪く見せる図を提示していた.PayScale は自分たちのデータを擁護しようと試みたけれど,まるで救いようがなかった.その後,PayScale は自分たちの手法を改めて,ブレを少なくしようとしたけれど,それでもぼくは彼らのデータを使う気にならない――というか,民間ウェブサイトの賃金データを使おうと思わない.
ただ,ここでの要点は次の点にある――ゴミくずみたいなグラフは,実はかなりかんたんに見分けられる.そのためには,注意を払ってちょっと自分の頭を使うだけでいい――それを,ぼくときたら,2018年の当時にやってなかったわけだね.あれから教訓を学んで身になってると思いたい.
ゴミくずみたいなグラフは見分けやすいけど,誤解を招く物語は見分けにくい
ともあれ,以上,とんでもなくひどいグラフを見分けるたのしい練習問題にお付き合いいただいた.調整してないのにインフレ調整ずみと言い張るグラフ,データのラベルがおかしいグラフ,でっちあげた尺度,マヌケな縦軸,出どころのあやしげなデータみたいなものは,実はかなり見分けやすい.ただし,ちょっと立ち止まって,あせって「共有」ボタンを押したくなる衝動に抵抗したらの話だ.そうやってだまされないでいるのは,ほんのりと誇りの感覚を抱くのにいい方法だ.
ただ,まるっきりゴミくずのグラフなんてまだマシな方で,基本的にデータは正しいくせに,誤解を招く物語がそこにかぶせられてるグラフの方がよほど危ない.ゴミくずグラフはじきに反駁されるものだ.発言に「コミュニティノート」がつけられたり Politifact や Reddit やここみたいなブログなんかで「これはおかしい」と指摘が入る.でも,いろんなバズりグラフにかぶせられてる誤解を招く物語は何年もの間ずっと世間に出回り続けて,人々の頭脳に忍び込んでいき,ついには,現実の共通認識と区別がつかなくなってしまう.そういう物語を見分けて選り分けるのは,たんなる誤情報を見抜くのよりもずっとむずかしい.
このガイドの後編では,バズりグラフがいかにも語っているように見える物語について考えつつ,そういう誤解を招く物語に引っかからない方法を採り上げよう.そうそう,このネタもやるからね:
[Noah Smith, “How not to be fooled by viral charts,” Noahpinion, September 13, 2023]