書評 「「誤差」「大間違い」「ウソ」を見分ける統計学」

 
本書は「統計学を拓いた異才たち」の著者デイヴィッド・サルツブルグによる一冊.「統計学を拓いた異才たち」は統計学史を中心に一般向けに逸話をたくさん交えて楽しく書かれていて,同じような楽しい本だろうと手を出した.ところが実は本書はもともと「科学と社会のための統計的推論」シリーズの一冊として書かれており,ある程度専門知識がある読者が想定されているようで,統計的論理になじみのない読者にはやや取っつきにくい本になっている.内容的には,統計学全般ではなくいくつかのテーマに絞って書かれている.原題は「Errors, Blunders, and Lies: How to Tell the Difference」
 
序文では自分は50年以上も統計学の裏庭の泥や汚泥を掘り返すことに喜びを感じてきたと振り返り,その経験も含めて統計学の利用に関するいくつかの例を示すつもりだと語っている.
 

第 I 部

第1章 金星の太陽面通過

第1部は導入部で,本書のテーマである「誤差」「大間違い」「ウソ」とは何かが解説されている.私の乱暴な理解でいうと「誤差:errors」とは,(適切な測定において生じる)正しい値の周りに小さな正規分布もしくはそれに近い分布を作る測定誤差のようなもの,「大間違い:blunders」とは測定機械の故障や操作ミス,目盛りの単位間違いのような,通常の計測誤差とは全く異なる分布を持つ値の散らばりで,「ウソ:lies」とは捏造データということになる.
ここでは18世紀の金星の太陽面通過の観測を具体例として解説されている.地球の様々な地点に観測隊が派遣され数多くのデータが集まった.(統計モデル理論のなかった)当時のキャベンディッシュ委員会はそのデータの中からもっともいいデータを選ぼうとした.今日ではこのやり方は研究不正とされるが,ではどう扱うべきなのかが第2章以降の内容となる.そして慎重に同じ手続きで観測して得られたデータのばらつきを「誤差」,経度を間違って観測したデータを「大間違い」の例としている(捏造の例は16世紀のカボットの大西洋横断の報告が挙げられている).
 

第 II 部 誤差

第2章 確率 vs. 尤度

統計モデルの基本的な考え方は「観測値=真値+誤差」とするものになる.誤差は不確実性の雲のようなもので確率分布を用いて表すことができる.ここではそのような確率分布の例としてポアソン分布と正規分布が説明され,そこからパラメータ,推定量,一致性,分散,最小分散,尤度,最尤推定量などが簡単に解説されている.
 

第3章 中心極限予想

冒頭で正規分布を表す確率分布式
https://latex.codecogs.com/svg.image?\left&space;(&space;\frac{1}{\sqrt{2\pi&space;\sigma&space;^{2}}&space;}\right&space;)exp\left&space;(&space;-\frac{1}{2}\left&space;(&space;\frac{x-\mu&space;}{\sigma&space;}&space;\right&space;)^{2}&space;\right&space;)&space;
の歴史的な起源(1738年にド・モアブルがある種の小さな確率変数をいくつも足しあわせたときの平均確率分布として発見,そしてそれをラプラスが惑星の位置決めのための観測値に利用して誤差関数を作る)が語られている.ここでこの「ランダムな誤差を小さな誤差の和として表現でき,上記の式がそれを表す」ことが中心極限定理であり,いまだかつて証明されていないのでそれは中心極限予想と呼ばれるべきだという解説がある.私は中心極限定理とはある母集団から無作為抽出した標本の平均が持つ性質についてのもので数学的に証明されていると思っていたのでやや混乱してしまった.このあたりは定義とか成立条件とかが絡んで難解だ*1
ここから正規分布の性質が解説され,それを利用した具体的な問題(納入企業が規定重量が平均になるように製品を生産しているか,許容範囲を悪用して意図的に軽くしているかを見分ける)に適用する話になる.また最後に最近のコンピュータの発達により正規分布以外の誤差分布も統計モデルとして取り扱い可能になってきたことにも触れられている.
 

第4章 病気を測定する

第4章から第8章では,誤差の確率分布が正規分布と扱える場合の推定方法として回帰モデルが取り扱われる.第4章では具体的に疾病診断が具体例として説明される.病気か正常かはどうやって見分けるのか.もっともナイーブなモデルは「検査値=全人口の平均検査値+誤差」とし,誤差が正規分布するとして(たとえば)95%範囲を正常と決めるようなものだ.しかし様々な人がいるので,これだと正常値が広くなりすぎる.そこでモデルに性別,年齢,身長要素を盛り込むことになる.そしてその典型的なやり方(「検査値=性別全平均+年齢要因+身長要因+誤差」と考える性別ごとの多重線形回帰モデル)が解説される.
 

第5章 多重線形回帰モデルの使い方

第5章では前章で説明された多重線形回帰モデルを具体的な問題(カルテルにより消費者がいくら損害を被ったか)に当てはめる.ここでは物価変動要因,需給要因をいくつか定め,そこに共謀の有無をダミー変数として加えて解析する手法が解説されている.またフィッシャーのロザムステッド農業試験場での利用などのその他の応用例もいくつか紹介され,最後に「多重線形回帰モデルの変数はどんなものでもよいのか」について,例外があると指摘している.*2
 

第6章 多重線形回帰モデルが適当でない場合

推定したい値が確率の場合,数値の範囲は0から1までになるが,これを単純に回帰モデルに組み込むと推定値がマイナスや1以上の数になりうる.第6章ではこのような場合に用いられるロジスティック回帰の考え方(および対数線形モデル)が解説されている.
 

第7章 相関 vs. 因果

第7章では回帰モデルが相関や因果について何を語るかが取り扱われる.最初は回帰式のR2が,回帰式が目的変数の分散のどのぐらいの割合を説明できているかを示すことについての説明だ.
そして因果については「原因と因果」は明確には定義されていないと述べている.ここではヒュームの(不十分な定義を含む)議論を紹介したのち,定義の試みとして,意図的な力がある結果を目的として働くというもの,コッホによる病原体証明条件,フィッシャーによるランダム化された計画実験法,記号論理学の実質含意,ラッセルによる原因と因果の否定*3,グラフ理論による因果分析を挙げ,いずれにせよ相関のように数式によるきちんとした因果の定義はないと締めくくっている.ここは反事実条件法による定義(やはり数式にはならないが)を取り扱っていないのでやや物足りない.
 

第8章 回帰とビッグデータ

回帰の最後はビッグデータ.ここではビッグデータを用いて多重線形回帰モデルを回そうとするときの実際的な問題が扱われている.まずビッグデータはしばしば小さなN(統計的に独立な個体の数)と大きなp(独立の個体が持つ要素の数)という構造になっている.そして多重線形回帰分析は基本的にはNがpよりかなり大きい必要がある*4.この問題に対してはコンピュータを用いたいくつかの統計手法が提案されているそうだ.
次に説明変数の数をどう選ぶかという問題がある.これについては罰則関数と調整済みR2,ボンフェローニの不等式,小規模サンプルでの予備解析後に本解析を行う手法などが説明されている.ここもAICに触れていないのはやや物足りないところだ.
 

第III部 大間違い

第9章 汚染された分布

最初は軍の多くの新兵を使った光学式距離計の計測誤差の話から始まる.新兵に斜視があると観測できないが,パワハラ気味の上司に対しては適応に観測値を出してしまう.するとデータには通常の計測誤差のあるデータと斜視の新兵による全然別の分布を持つ誤差(大間違い)のあるデータの混合物になる.このような全く性質の異なる誤差分布が混合してしまった場合について著者は「汚染した分布」と呼んでいる.そして汚染を取り除く方法があるかどうかは汚染の本質に依存するが,基本的には捉えにくいことが多いと説明し,回帰分析を始める前にデータをよく眺めることを勧めている.
 

第10章 プリンストン大学の頑健性研究

第10章では汚染された分布に対してどのような統計手法が頑健性を持つかをモンテカルロ法で調べたプリンストン大学の研究が紹介されている.この研究では汚染分布は左右対称のものが前提とされていた.
そこでわかったことは,汚染がある場合の平均値はかなり根拠が弱くなること,多重線形回帰を行う一般的アルゴリズムも頑健性がなくなること,平均値の推定には(中央値を含む)トリム平均(最も小さい値n個と最も大きい値n個を捨てて計算する*5)やウィンザー化平均(トリム平均で捨てるデータを最も近い観測値にして計算する)の方が頑健であるということだった.これらの知見はのちに多重線形回帰分析を含むより複雑なモデルに拡張されることになった.
 

第11章 もとめられているものが大間違いであるとき

第11章は大間違いを検出する話になる.新薬の臨床試験においては,被験者に薬に反応する患者も反応しない患者も混じっている.反応しない患者の観測値には誤差があり,反応する患者の観測値はそれに対する「大間違い」と考えることができる.この場合大間違いが左右対称の分布になることは期待できない.そして試験はこの大間違いを通常の誤差から区別して検出できるかが問題になる.これを解決するのが検出力分析であり,試験の必要最小規模*6を算定できる.
これはここまでの統計的推定の話ではなく,基本的に検定の話であり,普通の検定の仕組み,第1種第2種の誤謬などの議論がまずあるところだ.そこを飛ばして,データに2つの分布がある場合の検定というややトリッキーな話題が扱われているということになる.
 

第12章 大間違いを分類する

第III部の最後では2つの確率分布の合わさったサンプルのモデルが解説されている.例としては(プライヴァシーに配慮する場合の)アンケート調査のランダム化回答法,どの遺伝子(SNP)が疾病に関与しているかの分析などが使われている.
 

第IV部 ウソ

第13章 王の在位期間

冒頭ではローマ建国神話に現れる古代ローマ王政期の王の在位表と英国王の在位表を比べ,捏造したデータの顕著な特徴はデータのばらつきが小さいことだと指摘する.しかしこれは捏造者がこのことを知らない場合のみ役に立つ知識になる.ここではそのような巧妙な捏造データの例として行動遺伝学の基礎を作ったシリル・バートのデータが上げられている.
シリル・バートのデータが捏造だったかどうかというのはもはや政治的な議論の様相になっていて,ここで捏造と決めつけて説明するのはいかがかという感想だ.
 

第14章「真の」デイヴィー・クロケットを探す

アラモの砦で有名なデイヴィー・クロケットには「クロケットのテキサスにおける冒険と功績」という著書があるが,これが真筆かどうかについて歴史家が疑義を唱え,議論になっていた.ここでは単語の使用頻度分析を使うことによりこれが代作であるという結論が得られたことが解説されている.
 

第15章 偽造された数を見破る

次の捏造看破話は聖書の記述になる.外典のエラドラス記にはバビロン捕囚から戻った各氏族の人数が記されている.この数字列には1の位に明らかな癖(非ランダム性)があった.また民数記には100人単位で記された兵士数の記載がある.この数字列を見ると千の位はランダムだが百の位には癖があった.おそらくのちの時代の書写者が分隊を意味するelefという語を1000と誤解し,もっともらしく見せるために百の位の数字をでっち上げたのだろう.
 

第16章 秘密を暴く

ここでは隠されている数字を統計的に推測する手法が扱われる.第二次世界大戦のアフリカ戦線ではロンメルが持ち込んだドイツの軽戦車が砂漠の戦車戦では圧倒的に優勢だった.英国は要塞に立てこもり戦闘機でドイツ戦車を削ろうとする.ここでロンメルが持ち込んだ戦車の総数が問題になる(残存数が一定以下になれば数の優位で総攻撃できる).英国はそれまでに入手できた破壊された戦車の製造番号(ドイツ人の几帳面さ!)をリスト化して番号の最大値と最小値を統計的に推測することにより持ち込み総数に当たりをつけることができた*7.これは生態学の再捕獲法と原理的に同じものになる.
 

第17章 誤差.大間違い,虚偽報告

最終章では国勢調査の品質管理が扱われる.特に不面目な調査員の(実際にアンケートをとらずに適当に捏造する)虚偽報告ヘの対処が問題にある.これに対してはランダムサンプルの再調査,特定調査員の特定項目の数字を使ってベンフォードの法則*8との乖離を見る,独立な回答者の回答一致がワイブル分布(モンテカルロシミュレーションによってこの分布になると推定されている*9)に従っているかを見るなどの手法がある.これらは捏造のないデータの分布モデルに実際のデータが合致しているかを検定するものになると解説されている.
 
以上が本書の概要になる.内容的には(誤差が正規分布すると考えてよいデータについての)線形回帰分析についての記述が半分ほど,あとは2種類の確率分布が合わさったデータの扱い方,捏造データの見破り方が主に扱われているということになる.通常の統計本とはかなり異なったアプローチで書かれていて,ちょっとひねった専門的な部分,異なるフレームで捉える興味深い部分,何だかわかりにくい部分などがランダムに現れ,その間を楽しい逸話がつないでいるような構成になっている.
サルツブルグはもともとファイザーに務めていた統計家で1931年生まれ,著書はいずれも統計絡みのもので8冊ほどあるが,訳されているのは本書と「統計学を拓いた異才たち」の2冊のみのようだ.原書刊行時(2017)には80歳代後半で,その意欲や素晴らしいが,何が自明で何が自明でないかの感覚が(一般的な読者と)ちょっとずれているような部分もあり,そのあたりにも取っ付きの悪さの原因があるのかもしれない.統計を学びつつある人にとっての副読本としては興味深い一冊になるのではという印象だ.

 
関連書籍
 
原書

前著.私の書評はhttps://shorebird.hatenablog.com/entry/20060415/1145065110


同原書

*1:予想が正しい条件はリンデンベルグ=レヴィ条件を満たす必要があり,少なくともヘフディングが示したクラスはそれをみたしているとあるので,母集団からの無作為抽出標本はそのクラスに入っているということなのだろう.

*2:本章のいくつかの記述は難解だ.最初のカルテル問題についての要素の性質の説明は極めてわかりにくいし(適切な説明とは思えない),最後の例外の指摘も謎めいた書かれ方になっている

*3:ラッセルはそれを馬鹿げた迷信と呼んだと説明されている

*4:理由については明示的に説明されていない.互いに独立なデータ数がどこまで説明できるかを大きく決めるからだということだろう

*5:2つの誤差の確率分布がわかっているときにはどのように捨てるかを機能停止点として求めることができるそうだ

*6:製薬会社としてはコストの面からできるだけ規模を抑えたいということになる

*7:最大値と最小値の推定というより単に標本数と標本の数字がどのぐらい密になっているかで全体数を推測できそうな気もするが,それは最大値と最小値の推定と同じことになるということかもしれない,このあたりも記述の真意がどこにあるのかは難解だ

*8:ここでこの法則について「先頭の数字が1から4のどれかの数字に集中している傾向を持つ」と説明しているが,これはかなりミスリーディングな説明で納得感がない.

*9:ということらしい.この手法について簡単な説明があるが難解だ.またこの手法が真に有効かどうかについて論争があることも記されている