「異端の統計学ベイズ」

異端の統計学 ベイズ

異端の統計学 ベイズ


本書はベイズ統計学の学説史にかかる本で,アメリカのサイエンスライターの手によるもの.原題は「The Theory That Would Not Die: How Beyes’ Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy」ということでまるでスパイ小説のようなタイトルだが,邦題はより論争史を意識したものになっている.私としてはソーバーの「科学と証拠」を読んでベイズ主義と頻度主義の論争の中身がようやくわかってきたところなので,今度は論争史も読んでみようとして手に取った一冊だ.

物語はもちろんトーマス・ベイズから始まる.ベイズは18世紀の人でニュートンなどと同じ時代を生きた.ヒュームが因果論から神の存在に懐疑的な議論を提示したのに対して,神の存在を擁護したいと考えたベイズは因果を数学的に扱うことを検討し,逆確率を考察する.この逆確率とは,当時の議論では通常の確率がある原因があるときにその結果が生じる蓋然性を考えるものであったのに対して,ある結果が得られたことからその原因があった蓋然性を考えようというもので,ソーバー本では事後確率の形で「ある観察結果から仮説が真である確率」P(H|O)を求めようとするという整理になっているものだ.そしてベイズはそれを求めるにはまず何らかの事前確率があってそれを得られた結果で修正していけばいいことに気づく.彼は「正方形の区画のどこかにボールが落ちる」という形で問題を整理し,事前確率としてはすべての区画で落ちる確率が等しいという前提(等事前確率,一様分布確率)を用いた.ベイズはこの考察を原稿としてまとめたが発表しないまま1761年に死去し,友人のプライスが1764年にロイヤルソサエティーに投稿し,掲載される.

次の登場人物は18世紀後半から19世紀初頭を生きたフランス数学界の巨頭ラプラスだ.彼は革命前のフランスの貧しい家庭に生まれ,苦労しながらその才能を認められ,革命の嵐を生き延び,ナポレオンに認められ,さらにナポレオン没落後のブルボン復古王政期にも政治的に生き残り活躍する.彼は「天文学の誤差を含むデータをどう解釈するか」という極めて実務的な問題意識から,ほぼ独自にベイスの法則にたどりつき,それを数学的に洗練させて証明し,定式化,拡張化,体系化し,応用に生かした.だからベイス統計学の実際上の基礎はほぼラプラスが作ったといってもよいのだ.ラプラス天文学の他,人口推計,特に男女比の推計にベイズ的アプローチを用いた.しかしラプラスは晩年になり,データが増えてくるとベイズ的アプローチでも頻度主義的アプローチでも同じ結果に収斂することに気づき,データが整備された問題については頻度主義に大きく転換した.

ラプラスの死後,ベイズ的アプローチは批判に晒された,その最大の根拠は等事前確率に何ら客観的な根拠がないというところにある.19世紀後半には数学界の主流ではベイズ的アプローチは葬り去られた.このあたりは現代の論争の萌芽と見ることができるだろう.
しかし限られた時間とデータで何かを推測し決断しなければならない実務ではベイズは独自に発見され使われていった.本書ではフランス軍の砲兵隊の誤差修正,アメリカのベル電信会社の自動接続システム設計の経路選択問題,アメリカの雇用主に対する無過失賠償責任加入義務に対応した州別産業別の保険料の算定方式などの例を紹介している.

20世紀になって統計学が勃興し,フィッシャー,ピアソン,ネイマンの時代になる.彼等はいずれも超個性的で互いにののしり合いながら頻度主義の統計学を洗練させていく.彼等の頻度主義アプローチは怪しげな事前確率を使わないである仮説の真偽を決めるには,繰り返し可能な実験計画を設計して頻度主義のアプローチを用いればいいという形にまとめられる.ベイズ的アプローチはその客観性のない事前確率の概念により学界の主流から忌み嫌われることになる.
そのような中で繰り返し実験のできない分野の学者にはベイズを擁護するものも少数ながらいた.本書では地震津波を研究した地学者のジェフリーズが紹介されている.このジェフリーズとフィッシャーの間で生じた論争は10年たっても双方譲らずドローとなった.本書では,他の学者への影響という点ではフィッシャーの勝ちだったし,それは当時興隆途上にあった量子力学が実験を繰り返すことが可能な頻度主義に親和的な学問であったことにもよったのだろうと評価している.

ここで世界は第二次世界大戦に突入する.同盟国フランスが早々とナチに全面降伏し,なおアメリカの参戦を得られなかった英国にとって食糧や戦争資源を運び入れる輸送船隊が生命線で,ドイツのUボートは最大の脅威だった.そしてとにかく何かを決断しなければならない問題ではベイズ的アプローチは頼りになるという現象がまたも現れる.本書ではUボートへの指令に使われていたドイツのエニグマコードを破るに当たってアラン・チューリングがどのようにベイズ的アプローチを使ったかが丁寧に解説されている.同じ頃ソ連のコルモゴロフは砲術にベイズを応用し,アメリカではシャノンが暗号とコミュニケーションに共通の要素があることに気づきやはりベイズ的アプローチを用いていた.さらにUボートの位置探索にもベイズはオペレーションズリサーチの中で応用される.しかし大戦後,連合国におけるこれらの成果は厳重な軍事機密になり*1世界にベイズ的アプローチの優秀性を気づかせることはできなかった.

戦後,機密指定のため統計学の主流は引き続き頻度主義の天下だった.ベイズ擁護論は別の分野から現れる.最初は保険数理士のベイリーだ.彼は当初ベイズ的アプローチを忌まわしいものとみていたが,戦前に損害保険業界が策定していた保険料算定方式がベイズ的であり,そしてそれがうまくワークしていることに気づきそれを公表する.またグッド,サヴェッジ,リンドレーという3人の数学者がベイズ的アプローチをより一貫した方法論に仕立てる.医療分野ではコーンフィールドがベイズを導入する.その際に特に扱われたのは「タバコと肺ガンの関係」という問題だった*2.「ある喫煙者が肺ガンになるリスク」を頻度主義的に評価するには大規模な追跡調査が不可避になる.手元にあるデータでそれを推測するにはベイズを使うのが実際的なのだ.さらに1960年代に入り,コーンフィールドは因果にかかる数理モデルを用いるより深い分析にもベイズ的アプローチを用いる.このあたりからベイス的アプローチはベイズ主義という認識論の1つとして哲学的な議論のテーマになり始める.
そこからいよいよ頻度主義とベイズ主義の激しい論争がスタートする.本書ではスタインのパラドクス,フィッシャーのフィデューシャル確率の意味,リンドレーのパラドクスなどを巡る論争を簡単に紹介している.また両方のよいところを使おうとする折衷派も現れる.

ベイズが最も威力を発揮する「とにかく限られた時間で何らかの推測を行い意思決定をしなければならないような場面」への応用に,ビジネス上の意思決定も加わった.シュレイファーとライファはビジネススクールにこの手法を持ち込んだ.片方でベイズの軍事応用は続いていた.本書では核兵器の事故による暴発リスクの評価,水中に没した水爆の位置探索,大西洋に沈没した潜水艦の位置探索,地中海に入り込んだソ連の原潜の位置探索などの例が詳しく紹介されている.

ベイズ派の泣き所は,多くの実務的な問題にベイズ主義を適用するにはあまりに計算が複雑になり手に負えなくなることだった.それまでも様々な近似計算法が開発されていたが,この本質的な問題は残った.本書ではそのような困難を乗り越えた取り組みの例として,モステラーとウォリスによるフェデラリスト・ペーパーズ問題*3への応用,チューキーによるNBCの選挙速報への応用が語られている.

そしてついに実務的な問題にベイズ主義を応用する上でのブレイクスルーが現れる.それは1970年代以降,階層ベイズ手法,コンピュータパワーの増大と数値積分法,マルコフ連鎖モンテカルロシミュレーションにより計算の問題がより容易に取り扱えるようになったことだった.これにより時間的な確率変異の分析,画像解析が革新された.さらに容易に扱えるベイズ統計のソフトウェアが普及し,ベイズ統計は生態学社会学,地質学,遺伝学,認知科学,医学など多くの分野で使われるようになった.本書では,癌検診,鯨の頭数推測,金融市場の予測,自動運転ソフトウェア,スパムメールフィルター,機械翻訳などの応用事例を紹介してベイズの勝利を歌い上げ,最後にヒトの脳自体もベイズ的に動いているのではないかと示唆してこの学説史を終えている.


本書は全体として込み入った学説史を数多くのエピソードを拾って構成することに成功しており,また論争の様々な断面が扱われていて読んでいて面白い.論争史全体を読んだ私の感想は以下の通りだ.

  • ソーバーの言う通り頻度主義とベイズ主義はあるデータから何を得ようとするかという認識論のところで異なっているので,それぞれはそれぞれの問題意識の中で正しいというのが改めて実感できた.繰り返し対照実験が行える分野では頻度主義が実用的でかつ事前確率の主観性という問題を避けることができる.片方で事前確率に客観性があったり,とにかく手持ちデータから何かを推測しなければならないときはベイズ主義が実用的なのだ.
  • 論争が必要以上にこじれたのは,「等事前確率」の主観性の問題が必要以上にフォーカスされたこと,フィッシャー,ネイマンが自説に対立するものに偏狭だったこと,ベイズの輝かしい成功例が軍事機密指定により世間に知られることがなかったこと,そして実務的にベイズ統計を使用するにはコンピュータの発達により可能になった数値計算法が重要だったことあたりにあるのだろう.

というわけで統計に興味がある人には大変楽しい論争史に仕上がっている.やはり統計学の論争を描いた「統計学を拓いた異才たち」がフィッシャーとネイマンの論争にフォーカスしていたのに対する補足としての位置づけもできるだろう.頻度主義とベイズ主義の論争の本質についてやや不案内な人はまず「科学と証拠」を読んでから本書に当たるとより味わい深いだろうと思う.
なお本書には巻末付録がついており,キャンベルによる皮肉たっぷりのフィッシャーたち論争当事者への当てこすりエッセイが収められており,最後にクスッとさせられる.そういうちょっと小粋なところもある本だ.


関連書籍

原書


科学哲学者エリオット・ソーバーの本の中から統計の科学哲学を書いた章を訳出したもの.私の書評はhttp://d.hatena.ne.jp/shorebird/20130811

科学と証拠―統計の哲学 入門―

科学と証拠―統計の哲学 入門―


統計学の論争史を扱った本.ピアソン,フィッシャー,ネイマンたち巨人の変人振りが読みどころ.私の書評はhttp://d.hatena.ne.jp/shorebird/20060415

統計学を拓いた異才たち―経験則から科学へ進展した一世紀

統計学を拓いた異才たち―経験則から科学へ進展した一世紀



 

*1:冷戦下で暗号解読手法が重大な軍事機密になったのはある意味不可避であっただろう.

*2:フィッシャーはあれほど明晰な人でありながら,タバコの肺ガン原因説に終生懐疑的な立場に立ち,疫学の相関データは因果を証明するものではないとがんばったことで知られているが,その深い理由は頻度主義とベイズ主義の争いにあるということのようだ.私ははじめて納得がいった.なおフィッシャーを深く敬愛するハミルトンもタバコの肺ガン原因説には懐疑的で「ヒトは進化的に数百万年もたき火の煙に燻されてそれに適応しているはずだからネズミの実験を当てはめるべきではない」とNarrow Roadsのエッセイでコメントしているのを読んだことがある.これがフィッシャーの主張に影響されているとすれば,遠因としてこのベイズを巡る論争の歪んだ影響もあるということになるだろう.

*3:1787年から1788年かけて匿名で出された12本の政治論文の著者がマディスンなのかハミルトンなのかという問題.それぞれの論文について等確率から初めて,様々な文体の癖を統計的に処理して推測する手法がとられた.