誰もが嘘をついている?ビッグデータ分析が暴く人間のヤバい本性?
- 作者: セス・スティーヴンズ=ダヴィドウィッツ
- 出版社/メーカー: 光文社
- 発売日: 2018/04/27
- メディア: Kindle版
- この商品を含むブログを見る
本書はGoogleのデータサイエンティスト*1であったセス・スティーヴンズ=ダヴィドウィッツによる,ビッグデータと統計分析から何か見えてくるかを,その分析の勘所や豊富な実例と共に解説してくれる本になる.最近の技術やデータセットによりこれまでわからなかったことが急速に可視化される最先端の興奮をたっぷり味わえる面白い本に仕上がっている.
最初にスティーヴン・ピンカーが本書の中身をよく示す素晴らしい序文を書いている.ヒトの思考を調べるのは難しい.そもそも思考は複層的で複雑に絡み合った対象であり,モノローグを解析するには数量化するほかないが,それではその複雑さが失われる.またヒトは尋ねられたことに正直に答えるとは限らない.さらに分析者は「少数の法則」バイアスに悩まされる.その中でスティーヴンズ=ダヴィドウィッツは人々が何かを検索する際のプライベートな行動をビッグデータとして扱うという手法を紹介してくれている.そしてその手法だけでなく実際に得られた知見も非常に興味深いとコメントしている.いかにも面白そうな本だ.
序章 いま起きているビッグデータ革命
冒頭では2016年の大統領選が取り上げられる.検索データの威力が最もよく現れた例だということだろう.選挙前,世論調査の専門家は誰もトランプの当選を予想していなかった.それに先立つオバマの当選はアメリカの選挙民がオバマの人種性を気にしていない(つまり選挙民のごく一部にしか人種的偏見はない)ことを示していると受け取られていた.しかしスティーヴンズ=ダヴィドウィッツはGoogleトレンドを通じて,人々が公式に答えることと検索というプライベート空間における行動が異なっていることに気づき始めていた.人種差別のような問題では伝統的な情報源では表に出ないことがGoogle検索では顕わになる.スティーヴンズ=ダヴィドウィッツは次のように解説している.
- メディアにある米国の人種差別感の状況が正しいとするなら,人々がGoogleで「nigger」という醜悪な単語を検索する頻度は非常に低いと予測される.しかし実際にはそうではない.Googleトレンドではnigger jokeを楽しむための検索がかなりの頻度で観測されるのだ.
- 「nigger」検索データから米国内の人種差別マップを描くと伝統的な北部対南部ではなく東対西の構図*2になっている.共和党員の方が差別的であるわけでもないようだ*3.そしてオバマの苦戦した地域はこの人種差別の濃い地域ときれいに重なるのだ.概算するとオバマは人種差別的偏見で4%の票を失ったと考えられる.
- 選挙の予想に関しては,世論調査を補完するデータとして,候補者を並べて検索するときの順序が予想データに使えることがわかった.
- 検索データによる選挙予想は始まったばかりの科学であり,トランプの当選が事前に予測できたとは言えない.しかし当時から世論調査より善戦しそうだという徴候は確かにあった.候補者の検索順序,そして何より密かな人種差別的感情が検索データには表れていたのだ.クリントン当選を予測したネイト・シルバーは予測が外れた後,なぜ外れたかをデータから検証した.そしてトランプ支持と最も相関が高い要因は「nigger」検索であることを見いだしたのだ.
もちろんこのようなビッグデータは万能ではない.スティーヴンズ=ダヴィドウィッツは干し草の山の中から針を見つける方法が重要だとコメントしている.実は重要な発見ほど,必要なデータ数は減る(効果量が大きいものの発見にはサンプル数が小さいデータでも十分だという意味だと思われる).必要なのは正しいデータであり,さらに正しい問いが重要だ.そしてこれをうまく使えば,これまで得られなかった驚くべき知見が得られるのだ.スティーヴンズ=ダヴィドウィッツによる例示が面白い.
- 失業率の上昇時に人種差別的検索が増えることはない.
- 不安に関する検索頻度は都会より農村地域の方が多い.テロ直後に増えることもない.但しジョークについての検索は月曜日,曇りや雨の日に少ない.テロ事件のような悲劇の後にも減る.
- 性的嗜好を巡る検索には思ってもみないデータが現れる*4
第1部 大きなデータ,小さなデータ
第1章 直感は裏切り者
第1部はデータサイエンスのコツ,いかに直感を排除して正しい分析に至るかが解説されている.データサイエンスとは結局パターンを見いだしてある変数が別の変数にどう影響するかを予測することだ.そしてそれはヒトは毎日にように直感的に行っていることであり,実は思ったほど複雑ではないのだとスティーヴンズ=ダヴィドウィッツはいう.ここで直感的にもわかりやすい驚くべき発見の1つ例があげられている.
- 後に膵臓がんになった少数のユーザーとその他のユーザーの健康関連の検索データを分析すると,「腰痛」→「肌の黄ばみ」,「消化不良」→「腰痛」と検索する人は後に膵臓がんと診断されやすく,単に「腰痛」や「消化不良」だけを検索しても膵臓がんに診断されやすくなるわけではないことがわかった.(このような順序で検索する人の5~15%は後に膵臓がんと診断される)
しかし直感には落とし穴がある.直感のもとになるデータ数は総じて小さい.特に自らの経験に大きな重みを与えてしまうし,偏見や印象的な物語にも惑わされやすいのだ.スティーヴンズ=ダヴィドウィッツはそれをよく示す例を1つあげている.
- 「貧困家庭で育つ方がNBAで成功しやすいか」という問題について,多くの人はハングリー精神が役に立つだろうと考えyesと答える.しかし人種差を調整し,出生数あたりのNBA選手の割合を豊かな地域と貧困な地域で比較すると,「豊かな地域に生まれた方がNBA入りするチャンスが遙かに高い」ということがわかる.アフリカ系のNBA選手がシングルマザーの元で育った比率は,全米のアフリカ系の男性の平均より30%少ない.またいわゆる黒人っぽい名前*5を持つ比率も全米平均より小さい.
- なぜか,まず貧困層の方が身長が低いことが大きく効いているだろう.統計的には身長が1インチ伸びるとNBA入りするチャンスは倍増する.もう1つの理由は.貧困育ちだとNBAに指名されるためのある種の社会的スキル(周りと問題を起こさない,ドラッグに手を出さないなど)に欠ける傾向にあるためかもしれない.
第2部 ビッグデータの威力
第2部は見つかった様々な知見が紹介される.
第2章 夢判断は正しいか?
スティーヴンズ=ダヴィドウィッツは面白いデータサイエンスの例として,フロイト理論の検証という興味深いテーマを最初に取り上げている.
- フロイトの理論は興味深いが,検証する方法がないとされ,最近ではあまり真剣に取り上げられなくなっている.しかしデータサイエンスはついにこの検証方法を見いだした.
- フロイトは性的願望は夢に現れるとする.これはどのように検証できるか.ユーザーが夢を記録するアプリ「シャドウ」のデータを使て調べると,バナナなどのペニス状の野菜や果物の夢の頻度が特に高いわけではないことがわかった.
https://wired.jp/2013/09/27/shadow-a-beautiful-app-that-helps-you-remember-your-dreams/
- また失言や誤記に無意識の願望が表れるとする主張,フロイト的錯誤理論はどうか.マイクロソフトにあるスペルミスのデータを調べたが,性的なスペルミスが有意に多いわけではないことがわかった.この2つの理論は偽だったのだ.
- では近親相姦願望説,エディプスコンプレックス理論はどうか.ポルノ動画サイト「Pornhub」のデータを調べたところ,男性ユーザーの検索上位フレーズ100のうち16は近親相姦がらみで,その過半数は母と息子に絡むものだった.さらに女性ユーザーの検索上位フレーズ100のうち9は近親相姦がらみで,過半は父と娘の絡むものだった.Google検索の「私は〇〇とセックスしたい」の〇〇に最も多く入るフレーズは「母」であり,検索の3/4が近親相姦がらみだ.Google検索データはやや禁忌に傾く傾向があるが,しかしこの結果は何かを物語っている.
- 「Pornhub」のデータをさらに分析し,私は性衝動の新しい理論への道筋が見えたように感じている.それはフロイトの理論とそっくりではないが,要因としてはフロイトが主張したいくつかのテーマを含むものになりそうだ.幼少期と母親はとても重要であるだろう.
なぜ10年前には不可能に思えたフロイト説の検証がビッグデータを用いて可能になったのか.スティーヴンズ=ダヴィドウィッツはビッグデータのメリットを以下の4つの要因に分けて説明している.これが第3章から第6章のテーマになる.
- かつては入手できなかった新しいデータソースの出現:これまでポルノのデータは社会学者がほとんど利用してこなかった.彼等は伝統的なサーベイとデータに安住している.しかしポルノの普及による関連データの入手可能性は最近大きく進展した.
- アンケートでは得られない正直なデータの出現:性的な欲望についてアンケート調査に正直に答える人は少ない.GoogleやPornhubはいわばデジタル自白剤のようなものなのだ.
- データ数が大きいことにより小さな部分集団についても有意義な分析ができる.
- 手軽に比較対照試験ができる:これにより単なる相関ではなく因果に迫ることができる.
フロイト説の検証の話は衝撃的だ.しかし進化心理学を学んだ者としては,「男性は(幼少期の条件によっては)母親との近親相姦願望を持つ」という示唆は疑問だ.確かにポルノには近親相姦ジャンルがあり,一部の男性はそれを見たがるのだろう.しかしそれは,「誰かが彼の母親(つまり自分の母親ではない女性)と絡んでいるのを見たい」ということであり,「自分の母親とやりたい」というのとはかなり異なっているのではないだろうか*6.とはいえエビデンスにはオープンな態度でありたいし,続報を待つことにしたい.
第3章 何がデータになるのか
第3章では新しいデータセットの威力が次々に紹介される.
- これまでマーケットを左右する最も重要なデータは月次の雇用統計だった,それが最近の経済の姿を最も早く示すものだったからだ.しかしGoogle検索データでもっと速く経済動向をつかめないだろうか.
- Google Correlateで失業率の動向と相関の高い検索語句を調べると(こうした単語はどんどん移り変わるが,そのときは)「Slutload」だった.これは有名なポルノサイトで,おそらく失業者は暇をもてあましてこういう検索をかけていたのだ.様々な暇つぶし検索を統合すれば失業率の趨勢を雇用統計より速くつかむことは可能だろう.
- 新種のデータはネット関連に限られるわけではない.競走馬のオーナーへどの馬を競り落とすべきかを助言する会社のジェフ・セダーは業界に革命を起こした.彼は皆が使っている「血統」以外の有効なデータソースを探し求め,ついに心臓の大きさ,特に左心室の大きさが馬の戦績を予測する有効な変数であることを見つけたのだ.(このほかにも脾臓の大きさ,足並みのパターンなどの有効変数も見つけている)
- 教訓は2つある.1つはこれまでいい加減なやり方がまかり通っていた領域をあたるということ,もう1つは自分のモデルがどうして有効かを気にしすぎる必要はないということだ.
ここからスティーヴンズ=ダヴィドウィッツは相関を見いだしたり,回帰予測をすることによって,それまでの専門家たちを出し抜いた逸話,Google Ngramによる分析例が紹介される.これらは「その数学が戦略を決める」「カルチャロミクス」で紹介されている話と同じだ.
新しいビッグデータの分析例としては「用語分析」の例が数多く紹介されている.男女のデートの成功と会話の用語選択を分析する例*7,フェイスブック投稿文章の用語使用を性別などの様々なカテゴリー別,時期別の分析をした例*8,小説の用語選択からストーリーラインをグラフ化する例,シェアされる記事の用語選択の例,新聞記事の政治姿勢を用語分析から定量化する例などが取り上げられている.いずれも詳細がいろいろと面白い.
第4章 秘められた検索
第4章はビッグデータの第2の力,正直なデータが得られるというテーマを扱う.アンケート調査においては人々は嘘をつくことは古くから知られている.それはヒトには様々な嘘をつく動機があり,アンケート調査には真実を述べるインセンティブがないからだ.これに対してオンラインでは,1人であり,調査員が介在せず,より正直になりやすい上に,例えばGoogle検索には「本当に知りたいことを得られる」という本音を吐かせるインセンティブがあるとスティーヴンズ=ダヴィドウィッツは説明する.そして挙げられているいくつかの例は面白い.
- アメリカでは天気よりポルノ検索の方が多い.
- 「子どもを持てば後悔するか」という問いかけより「子どもを持たないと後悔するか」という問いかけの方が7倍多いが,「子どもを持ったことを後悔している」は「子どもを持たなかったことを後悔している」よりも3.6倍も多く入力されている.(検索窓は告解の場としても機能している)
- ゲイ人口比率をアンケート調査すると寛容な州の方が比率が高くでるが,ポルノのゲイ検索比率は全米で一定であり,ほぼ5%となっている.
- 「私の夫は」に続く検索用語は「ゲイか」の方が「浮気しているか」よりも10%も多い.
本章はこのほかポルノの検索や,セックスに関する検索についての様々なデータ,そして差別的意識に関するデータや分析が満載になっている.これらはまさに過去にはなかったデータであり,いろいろと興味深い.いくつか紹介しておこう.
- これまであまり論じられていない男性の欲求対象には女装した男,おばあちゃん,ペニスのある女性などがある.女性による検索の上位には「女性に対する暴力を含むポルノ」が入っている.この比率は男性の2倍ある.
- 男性はペニスの大きさに悩み,女性はおしりの小ささに悩んでいる.女性は相手のペニスの大きさをあまり気にしていないが,男性には(巨乳に対して1/20だが)巨尻への願望がある
- 親は自分の子どもの才能について,男児の場合の方が女児の場合より遙かに頻繁に検索する.容姿についての検索は女児の場合の方が多い.
- 多くの人はインターネットは似たもの同士が同じようなサイトに閉じこもることにより分断的に働いていると考えているが,実際に調べてみると,ニュースサイトで遭遇する相手が対極的な政治信条を持つ確率は45%もある.実生活より仮想空間の方が自分と対極的な人物と共存しやすいのだ.それは一部のサイトが非常に巨大なこと,人はしばしば議論をふっかけるために対極的な立場のサイトを実際に訪れるからだ.
- 公式統計ではリーマンショックの景気後退中も児童虐待は増えなかったが,「ママが僕をぶつ」などの検索は増加していた.児童虐待に対処すべき人々が手一杯だったか失業していた可能性が高いと思われる.
スティーヴンズ=ダヴィドウィッツは最後にこのデジタル自白剤についての考えをまとめている.
- ネットのビッグデータがすべてデジタル自白剤であるわけではない.フェイスブック,インスタグラムなどのSNSはデジタル自白剤ではなく,自分がこんな良い暮らしをしているのだと見せびらかす「デジタル自慢剤」として作用している.
- デジタル自白剤により得られる真実には価値がある.それは巨大な利益を生む可能性がある.(フェイスブックやNetflixの成功の一部の要因が語られている)
- またその情報は,不安や気恥ずかしい行動を抱えているのは自分だけではない*9と人々に自信を与えることができる.また苦しんでいる人々がいることに気づかせてくれる.そして様々な問題を解決するために役に立つのだ.
心理学の最も伝統的なリサーチ手法は質問紙によるアンケート調査だ.通常被験者はアンケートに嘘をつくインセンティブを持たないが,テーマが微妙なもの(特に本人のレピュテーションに効いてきそうなもの)については意識的,無意識的に話を盛ることは避けられないだろう*10.そういう意味で,この「答えを知ることができる」が正直になることのインセンティブとなっている検索データは非常に貴重なデータソースだろう.心理学への今後の影響に興味が持たれるところだ.
第5章 絞り込みという強力な方法
ビッグデータはその名の通りサンプル数が多いので,その一部集団に絞り込んでもなお意味のある分析が可能になる.スティーヴンズ=ダヴィドウィッツはその良い例として「少年期の経験が地元野球チームを熱狂的に応援するようになることに影響を与えるか」という問題を取り上げる.
- ニューヨーク在住の男性がメッツファンである比率を生まれ年ごとにプロットすると二山の分布になり1962年と1978年がそれぞれのピークになる.メッツが1969年と1986年にワールドシリーズを制覇していることを考えると,7~8歳の時の経験がひいきチームを持つかどうかに大きく効いているのではないかと推測できる.
- その仮説を検証するためにフェイスブックの「いいね!」を分析すると,1962年生まれの男性にオリオールズ(1970年優勝),1963年生まれの男性にパイレーツ(1971年優勝)のファンが飛び抜けて多いこともわかった.さらに全チームについて調べグラフにプロットすると8~11歳ぐらいの時に地元チームがワールドシリーズで優勝するとファンになりやすいというカーブが得られた.(なお女性について調べると,パターンは遙かに不鮮明だが,ピーク年齢は22歳頃だそうだ)
同様な研究に,人は年齢を重ねるにつれて政治的見解が保守的になるわけではなく,生まれ年によって保守的になるのか,リベラルになるのかの傾向が異なっていることがわかったというものがあるそうだ.同様な絞り込み型のリサーチには地域別の分析もある.ここで健康との関連,脱税の頻度,子どもの成功などいくつかのリサーチが紹介されている.またある特定の問題について予測するために同じような条件を持つデータを大量に集めるという方法(人の場合には分身検索法ということになる)もある.これらの研究はデータが大きいから初めて分析可能になるものだ.いくつか面白い知見を紹介しよう.
- 貧しい家庭に育った子どもが成功できる確率は米国内の都市により様々だ.成功確率の高さは,教育投資が多い,宗教心が厚い人が多い,犯罪率が低いなどの特徴と相関している.
- 脱税の頻度は地域による分散が非常に大きい.頻度の高さと相関する特徴は勤労所得贅沢控除対象者が多い,税の専門家が多いの2つだった.これは脱税の情報の入手のしやすさが脱税の頻度に効いているためだと思われる.
- 子どもの成功確率と相関する変数には,大学街,大都市のほかに移民人口比率がある.州の教育費投資は相関がなかった.
- 妊婦が気にすることは世界各国でばらばらだ.(「〇〇して良いか」の検索用語の詳細な表が添付されていて興味深い)
- 人気のある暴力映画が公開された終末には犯罪が減る.分刻みのデータを分析した結果,それは犯罪予備軍が映画を見るために路上からいなくなり,飲酒量も減るためらしいことがわかった.
- 分身検索法はスポーツ選手の年齢効果を予測するのに有効だった.医療においてはさらに有益な成果が期待できる.
これはまさにデータが「ビッグ」であることによるメリットの本質的な部分だろう.様々な現象について分析の解像度が増すのだ.
第6章 世界中が実験室
ネットでは因果を調べるためのコントロール実験が容易に行える.これはA/Bテストと呼ばれる.A/Bテストの結果の多くは事前の予測とは全く異なったものになる.(様々な例が紹介されている)またごく小さな条件の違いが大きな結果の違いに結びつくことも多い.Googleをはじめとする大手のネット企業のサイトはこのテストを常に大量に繰り返してサイトの向上を図っている.スティーヴンズ=ダヴィドウィッツはA/Bテストはネットの依存性にかなり貢献しているだろうと示唆している.
また自然実験もビッグデータがあればより利用しやすい.ここでは自然実験によるリサーチがいくつか解説されているが,やはり面白いものが多い.いくつか紹介しよう.
- テレビCMの効果を図るのは難しい.しかし2012年と2013年のAFCチャンピオンシップ(勝ったチームがスーパーボウルに出場する)が同じチームの組み合わせで結果が逆になった(2012年はペイトリオッツ,2013年にはレイブンズが勝利)ことでスーパーボウルTVCMの効果を測る素晴らしい自然実験が可能になった.これに引き続いて開かれたスーパーボウルの視聴率が,ボストンとボルチモアでちょうど逆になったからだ.(進出チームの地元都市の方が10%高くなった)観測された効果は事前予測より遙かに大きかった.リサーチはスーパーボウルのCM枠の価格が非常に高価ながら実は割安であることを示している.
- ニューヨークの有名私立高校(スタイベサント高)の教育効果を測るために,合格点ぎりぎりで受かった生徒と落ちた生徒のその後の成功を追跡調査した.その結果、教育効果はゼロで,スタイベサント高卒業生の成功はもともとの資質によることが明らかになった.
サイトデザインやゲームデザインならいくらでもA/Bテストが可能だが,普通の問題に何でも応用可能なわけではない.だから自然実験の話はなかなか興味深い.このリサーチは広告業界にかなり影響を与えそうだが,実際にはどうだったのだろうか.
第3部 ビッグデータ.取扱注意
第3部ではビッグデータの限界が解説されている.
第7章 できること,できないこと
ビッグデータは万能ではない.その良い例が市場予測だ.スティーヴンズ=ダヴィドウィッツはラリー・サマーズと組んでそれに挑戦したことがあるそうだ.そしてその難しさについてこう解説している.
- まず市場予測あるいは企業業績予測には既に優秀な人々により膨大な努力がつぎ込まれている.これに対抗するのは容易ではない.
- さらに本質的な難しさがある.市場を予測しようとすると関連する変数は指数関数的に増えがちになる.それは結果にフィットする変数を見つけ出しやすくするが,予測力は下がるのだ.これは「次元の呪い」と呼ばれる.
- 次元の呪いにはまらないためには,自分の発見に謙虚になることだ.何らかの予測変数を見つけたと思っても,しばらく追跡してみるべきだ(アウトオブサンプルテスト).ほとんどの場合相関はすぐになくなる.(自身の試みである検索データと新製品の成功,検索データと将来の投資動向などの例が紹介されている)
スティーヴンズ=ダヴィドウィッツはもう1つの罠をここで語っている.それはデータサイエンティストにとって数字はあまりに魅力的であり,それに入れ込んでしまう危険性だ.
- 最初は,知りたいことの代理変数として何かを測定し始めるが,測定値自体にこだわってしまうことはよくある(「いいね!」の数が本当にユーザーの使用体験の評価を表すのかどうかは明らかではない).データの集めにくい問題を軽視しがちになることもある(セイバーメトリクスにおける守備の評価はその一例になる).
- 解決法はビッグデータではない.人間的な判断力や小規模なサーベイが補完として有効になる.フェイスブックも時にはユーザーに感想を直接聞いている.彼等はそのために心理学者,人類学者,社会学者を雇ってもいるのだ.
スティーヴンズ=ダヴィドウィッツが語っている次元の呪いは統計の本質でもある.モデル化にあたってAICのようなアプローチは解説されていない.ビッグデータでは取り扱いが難しいということなのだろうか.2番目の罠は以下にも数字オタクたちのはまりそうなもので面白い.
第8章 やってはいけないこと
ビッグデータを用いるリサーチもリサーチの1種である以上,当然倫理的な問題を引き起こしうる.スティーヴンズ=ダヴィドウィッツのあげる例は,手法の倫理性ではなく,その結果が応用されることによる問題だ.
- ピアトゥーピア型融資サイトの借金申し込み文言とその後の債務不履行の関係をリサーチした結果,不履行になる人達は「神」「お返しします」「病院」「約束します」「ありがとう」をより有意に使っていた.(履行する人達は「負債なし」「税引き後」「学卒」「低利率」「最低支払額」」をより有意に使っていた)
- これは情に訴える人は借金を踏み倒しやすく,支払計画を示す人は履行しやすいことを示していると解釈できる.
- ここまでは単なる学術リサーチだが,これを融資機関が利用するとなると,そこには倫理的な問題が生じるだろう.
- さらに就職に関しては倫理的な問題が大きくなる.SNSの「いいね!」の数とIQに相関があることが明らかになりつつある.例えば「ハーレーダヴィッドソン」に関するページに「いいね!」をつける人は低IQと相関しているようだ.これらは利用可能だろうか.
- このような問題は過去からあったが,データ革命はこのような代理的判断基準が一層秘技的に物事に浸透していく危険性をもたらしているのだ.
- もう1つの問題は,個人個人のデータに沿って提示価格を変動させることができることだ.個人的データを握られるとぎりぎりまで搾取される可能性が増す.カジノは客から最大限に搾り取れる方策を充実させるだろう.
- 犯罪予測の精度が増すと,どこまで事前介入が許されるかという問題が生じるだろう.これは殺人などの被害を防げるかもしれないだけに難しい問題を引き起こす.ただ現在の時点では個人レベルでの予測精度はまだ高くなく,ごく慎重に取り扱うべきだろう.
本章のスティーヴンズ=ダヴィドウィッツのコメントは総論にとどまっている.企業利用の問題は最後は法的規制のあり方ということになるのだろう.犯罪予測の問題は非常に悩ましい.犯罪予測は不可能だという前提で現在の制度は構築されている.本当にある程度の予測が可能になれば,最後は被害防止によるメリットと刑事手続きにおける人権をどう考えるかという問題になるのだと思われる.
結びに
スティーヴンズ=ダヴィドウィッツは最後にいろいろな思いを語っている.
- 本書の主張の核は「社会科学はいまや本物の科学になりつつある」ということだ.これまで社会科学は,時に空疎な専門用語を振りかざすだけの学問とみられがちだった.しかしビッグデータ革命は状況を大きく変えつつある.
- そして我々の前にある多くのデータセットのほとんどはまだ手つかずだ.公衆衛生問題への応用は非常に有望だ.A/Bテストは教育効果を測るのにも使えるだろう.テキストデータからの知見も増えるだろう.
- そして本書は実は「ヤバい経済学」の現代強化版なのだ.データ分析の将来は明るい.
本書はビッグデータによる分析のメリットは何か(今までにないデータセット,正直なデータ,絞り込み利用可能,コントロール実験が容易)を中心テーマにし,その利用のコツや限界にも触れている本ということになる.しかし本書の最も面白いところは最後に書かれているように「現代強化版のヤバい経済学」であるところだ.例として紹介されている様々なデータ分析は,差別意識やセックスがらみの正直なデータが得にくかったものをはじめとするこれまでなかった領域のもので本当に興味深い.ピンカーが「Enlightenment Now」でたびたび引用しているのも頷ける.本家ヤバい経済学のように第2弾,第3弾を期待したいし,日本に関する分析についても是非知りたいところだ.世の中の真実に興味にある人には強く推薦したい.
関連書籍
原書
- 作者: Seth Stephens-Davidowitz
- 出版社/メーカー: Dey Street Books
- 発売日: 2017/05/09
- メディア: Kindle版
- この商品を含むブログを見る
ヤバい経済学.これは増補改訂版.私の初版の書評はこちらhttps://shorebird.hatenablog.com/entry/20060517/1147872703
- 作者: スティーヴン・J・ダブナー,スティーヴン・D・レヴィット
- 出版社/メーカー: 東洋経済新報社
- 発売日: 2016/07/01
- メディア: Kindle版
- この商品を含むブログ (2件) を見る
続編の超ヤバい経済学.私の原書の書評はhttps://shorebird.hatenablog.com/entry/20100610/1276122383
- 作者: スティーヴン・D・レヴィット,スティーヴン・J・ダブナー
- 出版社/メーカー: 東洋経済新報社
- 発売日: 2016/07/01
- メディア: Kindle版
- この商品を含むブログ (1件) を見る
- 作者: Steven D. Levitt,Stephen J. Dubner
- 出版社/メーカー: William Morrow
- 発売日: 2009/10/18
- メディア: Kindle版
- この商品を含むブログを見る
第3弾はこれ.ブログをまとめたお手軽本になっている.
- 作者: スティーヴン・D・レヴィット,スティーヴン・J・ダブナー
- 出版社/メーカー: 東洋経済新報社
- 発売日: 2016/04/15
- メディア: Kindle版
- この商品を含むブログ (2件) を見る
単純な回帰分析が専門家の予測より遙かに信頼性があることをこれでもかと紹介する本.A/Bテストも紹介されている.最初に読んだときは結構衝撃的だった.私の書評はhttps://shorebird.hatenablog.com/entry/20071219/1198070155
- 作者: イアンエアーズ,Ian Ayres,山形浩生
- 出版社/メーカー: 文藝春秋
- 発売日: 2010/06/10
- メディア: 文庫
- 購入: 34人 クリック: 303回
- この商品を含むブログ (76件) を見る
Google Ngramの誕生経緯についての本.私の原書の書評はhttps://shorebird.hatenablog.com/entry/20140217/1392639068
- 作者: エレツ・エイデン,ジャン=バティースト・ミシェル
- 出版社/メーカー: 草思社
- 発売日: 2016/07/01
- メディア: Kindle版
- この商品を含むブログ (1件) を見る
Uncharted: Big Data as a Lens on Human Culture (English Edition)
- 作者: Erez Aiden,Jean-Baptiste Michel
- 出版社/メーカー: Riverhead Books
- 発売日: 2013/12/26
- メディア: Kindle版
- この商品を含むブログ (1件) を見る
*1:著者の経歴はちょっと面白い.スタンフォード大学で哲学を専攻し,ハーバード大学で経済学博士号を取得.Googleのデータサイエンティスト,ペンシルバニア大学ウォートン校の客員講師などを経て,ニューヨーク・タイムズ寄稿者となっている
*2:北部の中でもニューヨーク州北部,ペンシルベニア州西部,ミシガン州の工業地帯やイリノイ州の農村地帯などは人種差別が濃いことが観測されるそうだ
*3:スティーヴンズ=ダヴィドウィッツは人種差別的なヒトの割合は共和党支持者でも民主党支持者でもあまり変わりないが,共和党支持者は自分が差別的であることを認めやすいのかもしれないとコメントしている
*4:「夫は」の次の検索語で多いのは「私に授乳して欲しいのか」だそうだ
*5:アフリカ系のキラキラネームのようなもので,貧困層で多いとされる
*6:それでも妹ジャンルより母親ジャンルの方がより検索されているというのには驚かされる
*7:これは詳細が結構面白い.相手への興味は,男性では,女性のジョークに笑うことや声が単調になることに現れ,女性では自分語りをすること.「I mean 」「ya know」などの表現に現れる.女性が「sorta」「kinda」などの婉曲表現を使うときは相手に気のないときだ.相手の気を引くには,男性は女性のリードに従うことが有効だ.女性側は「I」を使って自分語りすることが有効だが,容姿の重要性が圧倒的なために効果は小さい.質問が多いのは退屈している証拠だが,成功を示す最高のサインは「またあってくれる?」になる
*8:フェイスブックには自分の暮らしぶりについて嘘をつく傾向があるというスティーヴンズ=ダヴィドウィッツによる留保がある
*9:代表的な夫の評価はフェイスブックなどのSNSでは「最高」「親友」「驚異的」「すごい」「可愛い」になるが,検索では「ゲイ」「嫌なやつ」「驚異的」「うんざり」「嫌らしい」になるそうだ.「驚異的」が両方にあるのもちょっと面白い
*10:性がらみのもの,差別感情にかかるもののほかにも,サイコパス傾向の測定などのアンケート調査も結構怪しいのではないかと思っている