「科学と証拠」

科学と証拠―統計の哲学 入門―

科学と証拠―統計の哲学 入門―


本書は,科学哲学者エリオット・ソーバーの手による「Evidence and Evolution」(2008)の全4章のうち「統計の哲学」を扱った第1章のみを訳したものになる.原書は全体として進化生物学の哲学を論じたもの*1なので,その後の議論を理解するために必要な導入部分のみが訳されていることになる.なぜこのような形で翻訳したかについては詳細な訳者解説が付されている.簡単にまとめると以下のような事情になる.

  • 原書第1章は後の3章の生物学哲学議論の準備として統計の哲学が整理されているもので,内容的にはかなり独立したものになっている.
  • 日本には本格的な統計の哲学に関する議論をまとまった形で読める本が出版されてなく,本書を訳して刊行すれば貴重な本になるであろうと考えられた
  • しかし全訳にすると進化生物学の本になってしまい*2,統計の根本的な議論に興味のある人には手が出しにくくなることが予想された.
  • 以上をふまえて第1章だけを独立した本として訳したい旨を著者に相談したところ快諾を得た.

というわけで統計の哲学に関する本として本書が刊行されたわけだ.進化生物学にこそ興味のある私にとっては第2章以降がカットされたことには少し残念なところもあるのだが,考えてみると私も統計の哲学に関しては「なんだかベイズ主義者と呼ばれる人たちとそうでない人たちの間で泥沼の議論があるらしい」以上のことはよく知らない.ちょうどいい勉強の機会だと思って読むことにした次第である.


新しく付された日本語版への序文で著者の立場が明快に示されている.本書は統計的推論の本質についての本で,頻度主義者とベイズ主義者の論争に割って入るものだというものだ.そして本書ではベイズ主義と頻度主義と尤度主義が扱われる.著者による各主義のスタンスの説明は以下のようなものだ.(ここでP( | )は条件付き確率,Hは仮説,Oは観察を表す)

  • ベイズ主義:ある観察結果を得たときに「真であることが確からしい仮説はどれか」を求めようとする.つまりP(H|O)を考える.
  • 頻度主義:もしある仮説が正しいとすると観察はどれほど確からしいか,そして特定の仮説を棄却するか受け入れるかを考える.P(O|H)が念頭にある.
  • 尤度主義:観察事実から何が分かるかだけを考える.


「はじめに」でより広い俯瞰図が示される.

  • 科学理論(仮説)は観察事実を普遍化し,より広い現象を記述しようとする.
  • その場合「科学は『この理論が真であることが確からしい』かどうかを判断する立場にあるかどうか」を巡ってベイズ主義と頻度主義の大論争がある.


第1章ではその各主義の立場の違いが,「あるデータを得たときに何を求めるか」によるものであることを「ロイヤルの3つの問い」を元に説明する.「何がわかるか」は尤度主義に,「何を信じるべきか」はベイズ主義に,「何をなすべきか」は(仮説の受け入れ,棄却という意味で)頻度主義に対応することになる.


ここまで3つの導入を振り返るとなんだか冗長な印象があるが,(私のように統計の哲学の議論になれていない読者にとっては)実際に読むと全く冗長な印象はなく,何度もかみ砕いてもらってようやくおぼろげながら「主義」の違いが頭にはいるという感じだ.要するに,これらはあるデータの存在から,何を認識しどう行動するかに関わるもので「認識論」だということになる


第2章はベイズ主義について
ベイズ主義はP(H|O)を求めるためにベイズの定理を「信念の更新規則」として利用する.だからある仮説が正しいことについての事前確率P(H)(主観的信念)と観察の無条件確率P(O)があれば,ある仮説が正しい場合に観察が得られる確率P(O|H)(尤度)を利用してその仮説が正しいことの事後確率P(H|O)を得ることができる.



これは2つの仮説H1, H2が対比的に扱われる場合には事前確率比と尤度比を用いて事後確率比を求めることができるという形にもなる.



ここでソーバーはコインを投げてその表がでる確率を考えるという例を出してベイズ主義をより深く解説している.
「20回投げて6回表がでた.このコインが表を出す確率の期待値を求めよ」
実はベイズ主義ではこれだけでは解答できない.事前確率分布が必要なのだ.もしそれがすべての確率がフラットな一様分布であったなら(つまり事前の期待値は1/2)その事後の期待値は7/21になる.
ではいかにも直感的な6/20とは何か.ソ−バーはそれは最尤推定値だと指摘している.


ベイズ主義は無条件確率,事前確率,尤度(2仮説間の比較ならば事前確率比と尤度比)が客観的に求められる場合には非常に合理的な方法だと評価できる.ソーバーは,ある人が結核検査を受けたとして,(当該者を代表するカテゴリーの)全人口の結核羅患率,検査の感度,正確性がわかっている場合に,当該者の検査後の結核感染確率が推定できる例を挙げている.
しかし事前確率や尤度が客観的にはわかっていない場合*3には問題が生じるというのがソーバーの考えだ.これは客観的な基礎がないと相手を説得できず,そうでないものは科学とはいえなくなるという立場(客観主義)からくるのだろう.
これに対してベイズ主義者たちは,「事前確率や尤度が時に客観的にはわからないのは世界の現実だ.そこから逃げようとするのは砂の中に頭をつっこむダチョウと同じだ」と反論するということになる.
この主張に対してソーバーはどう答えるか,それが第2章の尤度主義につながる.


第2章は尤度主義.
先ほどの主張に対しては「無理に仮説が真である確率を考えようとする必要はない.明確な尤度を持つ仮説のみを扱えば,観察が対比する二つの仮説のどちらをより支持するかを決めることができる」と答えることができる.この後段が尤度主義の立場になる.
具体的にはある観察が得られたときには,尤度の法則に従い,より尤度の大きな仮説の方が支持されると考えることができる.


尤度の法則

  • OがH2よりH1を支持するのは  のときに限る.
  • そしてその支持の度合いは尤度比  で与えられる.


ソーバーはこの主義に対する様々な批判*4を取り上げ,いずれも誤解であったり,ロイヤルの別の質問に答えようとするものであることが理解できていないものだと切って捨てている.
その上で尤度主義の限界を整理する.

  • 結局2つの仮説のどちらを支持するかしか答えられない.
  • 複合的な仮説には対処できない.(複合的な仮説の尤度を決めるのは難しい*5

ではどうすればいいのか.ソーバーの提案は第7章に持ち越される.


第3章からは頻度主義の解説になる.ソーバーによると頻度主義は統一されているわけではなく様々な考え方の緩い連合体だということになる.最初はフィッシャーの有意検定.


フィッシャーの有意検定は,ある実験を何度も繰り返したときに何が生じるかを考察することにより,ある仮説(帰無仮説と呼ぶ)を特定の実験結果をもって棄却するかどうかを考えるものだ.だから頻度主義に属することになる.具体的には次の手続きに従う

  • 事前に有意水準αを決めておく.
  • ある実験結果が得られたときに,帰無仮説が正しいとするならそれと同程度かまたはそれよりありそうもないすべての結果が生じる確率を考える(これをp値という)
  • p値がα以下であれば仮説を棄却する.


ソーバーはかなり批判的だ.
まず論理的な問題

  • これは確率論的MT(モーダス・トレンス:後件否定)だ.演繹的MTは論理的に正しいが,確率論的MTは推論形式として正しくない.
  • 実験結果を,ありそうか,ありそうもないかの2種に分けてしまう.これはデータを論理的に弱い形式に変換するもので,全証拠の原則に違反する.


そして実務的な問題点

  • データの記述方法によりp値が変動する可能性がある*6
  • 帰無仮説をどう選ぶかに主観的要素がある.
  • サンプルデータの大きさに敏感.


フィッシャーの有意検定はダメダメだというのだから,私のようなハミルトン経由でのフィッシャーびいきには衝撃的なところだ.
MTとは,「HならOである.Oではない.だからHではない」という論理形式のことだ.確率的MTというのは有意検定が「P(O|H)が1−α以上である.Oではない.だからHは棄却される.」という構成になっていることを指している.私は最初有意水準以下で正しい仮説を棄却してしまうことを批判しているのかと思ったが,よく読むとそうではない.
まずソーバーがあげているのは,独立した実験を繰り返せば,その結果が連言として生じる確率はどんどん小さくなり,いずれは有意水準以下になるという問題だ.私の感想としてはこれは結局「ありそうにない結果」という領域をどう設定するかという問題のように思う.主観的だといわれればその通りということになるだろう.
2番目の問題は排他的な対立仮説H1,H2があるとして,尤度的にはH1を支持するデータであっても.有意検定ではH1を棄却してしまう場合がある*7というものだ.もちろんこれは問題設定が異なっていることはソーバーも承知している.これは帰無仮説をどう選ぶかという問題にも絡むのだろう.
またソーバーは有意検定の確率論的MTをまともにするためのベイズ確率論的MTも示している.これからわかることは,有意検定は,帰無仮説の事前確率が非常に高い場合や,反帰無仮説の尤度が高い場合にも問題になるということだ.いい例はなかなか思いつかないが,以下のような場合がそれに当たるだろう.

  • 赤玉95個と白玉5個があってそれぞれ内3個には星印がついている.それを壷に入れて1個引く.
  • 有意水準は5%,帰無仮説は「それには星印がない」とする.
  • 引いた1個は,星の有無はわからないが白玉だった.
  • するとP(O|H)は2/94となりこの帰無仮説は棄却される.しかし実際にこれに星がついている事後確率P(H|O)は60%にすぎない.


要するに結局フィッシャーの有意検定を使う場合にはいろいろと細かな配慮が必要になるということなのだろう.


第5章はネイマンーピアソンの仮説検定.
これはフィッシャーの有意検定と異なり,2つの対比仮説があるときに,それぞれを棄却するかの手続き選択に関するものだ.これも棄却の手続きの中で実験を繰り返した場合の結果を考えるので頻度主義になる.

  • 対比仮説のうち片方を帰無仮説と決める.
  • 帰無仮説を誤って棄却する確率水準(e1)を恣意的に定める.
  • 次に帰無仮説が誤っているのに受け入れてしまう確率(e2)を最小化させるように実験方法を選ぶ.


ソーバーははっきり書いてくれていないが,最初の棄却についての棄却領域は,フィッシャーの有意検定では帰無仮説だけを考えて純粋にありそうもない領域を選ぶのだが,ネイマンーピアソンでは,対比仮説から遠い領域を選ぶことになる.(だから典型例では有意検定では両側検定,ネイマンーピアソンでは片側検定のようになる)


ソーバーはネイマンーピアソンについてはさらに激しく批判する.

  • e1とe2をこのように区別する合理的な理由はない.仮に二つに違いがあるとしても重み付けの方法はいくらでもあるだろう*8
  • 結核検査のように排他的な対比仮説があり,かつ客観的な事前確率がある場合にも,事前確率の受け入れを拒否するが,それには合理性はない.
  • 望ましくない検査方法から得られたデータについては無視するように促すが,これにも合理性はない.


なかなか手厳しいし,説得的だ.ネイマンーピアソン側にももちろん反論はある.ソーバーはそのあたりの議論も書いてくれているがなかなか難解だ.
いずれにせよ2点目,3点目の指摘点が正しいとするとこの頻度主義者たちはかなり教条的でいただけない.そのような強硬な論者も中にはいるというだけのような気もするところだ.


第6章はテストケースとして停止規則の問題が扱われている.これはベイズ主義と頻度主義の論争の発端になったケースだそうだ.問題は簡単に書くとこうなる.

  • コイン投げの実験において,20回振って6回表がでた.実験の際に「20回振ってやめる」として得られたデータと,「6回表がでればやめる」として得られたデータを同じように解釈して良いか.

これに対してベイズ主義はYES,頻度主義はNOと答える.最初ここまで読んだときの私の感想は「そんなもの区別しなけりゃだめに決まっているだろ」だった.私の頭は結構頻度主義的らしい.
頻度主義的になぜNOになるかはわかりやすい.フィッシャーにしてもネイマンーピアソンにしても棄却領域を考える際には実験を繰り返したときの結果の確率分布が問題になり,この形は停止規則によって異なるからだ.
ではなぜベイズ主義ではYESになるのか.実は尤度は実験の停止規則に影響を受けないのだ.ちょっとした驚きだが,計算すると納得できる.*9


ソーバーは激しい論争の様子*10をダイジェストでまとめてくれている.結局それは,どのような状況で,どのような問いに答えようとしているかに依存するというのがソーバーの主張だ.


第7章はモデル選択
ソーバーはAIC赤池情報量基準)を頻度主義の一つとしてここに持ち出す*11.そしてこれについて大変好意的だ.尤度主義で扱えなかった複合的な仮説についてAICでは完全に客観的に扱えるからだ.
ソーバーの説明はAICとは「どの仮説が真であるか」という問題ではなく「どの仮説がもっとも正確な予測をするか」という問題に答えようとするものだというものだ*12.そしてAICについてかなり丁寧に解説している.
ここでソーバーは実在主義と道具主義の対立をAICを使うことにより両方あり得るとして解消できるとしている.AIC的にパラメータが変数のままの「モデル」は道具主義的に,最適なパラメータを入れ込んだ「適合モデル」は実在主義的に解釈できるという主張だ.なかなかこのあたりも難しい.


第8章は第2のテストケース.実際に偶然ありそうもないことが生じたらどう解釈するのかという問題だ.
例としては「ニュージャージー州のアダムズ氏が4ヶ月間に2度宝くじに当たった」という事例をあげている.これを「宝くじに不正があった」という仮説に対してどう扱えばいいのか.

  • 最初の示唆は観察についての記述を緩くするというものだ.「全米のどこかの州で,誰か一人が」という形にする.私にとって穏当な方法に思えるが,ソーバーはどこまでゆるめるのか恣意的だと気に入らない.
  • 二番目は不正がある事前確率を持ち出す方法だ.元々事前確率が小さければ引き続きこの仮説が真である確率はそれなりに低いままだ.ソーバーはこれも気に入らない.そもそも事前確率が主観的な上に最初から「誰かが2回宝くじに当たる」ということを「不正があった」ことの支持証拠として扱っているからだ.
  • ソーバーは代案として,まずデータを増やし,その上で不正あり,不正なしの様々なモデルを作って比較する方法を勧めている.すると不正モデルはパラメータが多いので支持されにくいことになる.


確かにデータを増やしてモデル選択に持ち込むのはいい方法のように思えるが,しかし仮にデータがこれしかない場合に,観察を緩く記述して事前確率を加味するのは至極まっとうにも思えるところだ.客観主義を貫くソーバーとしては譲りにくいところなのだろう.


最後にまとめがある.

  • 尤度の法則はベイズ主義,尤度主義の共通の基礎だ.
  • 頻度主義のうちフィッシャーの有意検定,ネイマンーピアソンの仮説検定の手法にはそれぞれ問題がある.しかしAICは尤度主義と親和的だ.
  • 結局各主義は異なるタイプの問題,異なる目的にそれぞれ適していると考えればいい.事前確率の客観性やキャッチオール仮説の尤度に問題なければベイズ主義を使うことに問題はない.それが満たされず,仮説が単純なら尤度主義を用いるべきだ.そして仮説が複合的な場合にはAICが使える.


以上が本書の議論のあらましだ.なかなか中身の詰まった本で,私的には2回読んだ上でノートに整理し直してようやく議論の筋が見えてきたような次第だ.最終的にはそれぞれの主義は目的が異なるのだから議論がかみ合わないのは当然で,それぞれその前提条件内では正しいという中庸的な結論だが,論争の詳細は大変面白い.訳注や訳者解説も充実していて丁寧な作りになっている.訳者の言うように類書が日本にはないのであれば,統計推論の本質や基礎に興味のある人には必読文献ということになるだろう.



関連書籍


原書
ここまでくると是非続きが読みたいのだが,残念ながらKindle化されていない.もはやタップ辞書なしでは洋書を読む気力が無くなっている自分が情けないところだ.

Evidence and Evolution: The Logic Behind the Science

Evidence and Evolution: The Logic Behind the Science



 

*1:原書は全部で4章構成で,第2章ではインテリジェント・デザイン説への新しい視点からの批判,第3章では自然淘汰理論とインテリジェント・デザイン説を含む創造論の比較,第4章では共通祖先性と自然淘汰との関係が論じられている.

*2:訳者は触れていないが,単に進化生物学の本ということではなくかなり創造論に関する本になるので,日本ではより需要が減るだろう.また相当なボリュームになるのでお値段も手が出しにくいものになることが予想される

*3:事前確率については客観的に明らかでないことが多い.尤度も仮説が大きな理論枠組みになったときには難しい.また2仮説を対比し,ある仮説とそれと排他的な仮説(キャッチオール仮説)を考えるときに後者の尤度を考えるのは難しい.

*4:典型的なものとしては事前確率はきわめて低い(つまりありそうもない)が,尤度は非常に高い仮説にかかるものだ.ソーバーの例は「屋根裏でグレムリンが飛び跳ねている」というもので.天井から物音がすれば尤度1のこの仮説は,「グレムリンなどいない」という仮説より支持されることになる.しかしソーバーは「観察はどちらの仮説をより支持しているか」という質問に対するものとしてこれは馬鹿げていないと主張している

*5:例としてはある形質が浮動によって進化したのか,淘汰によって進化したのかという問題をあげている.浮動ならば尤度計算は簡単だ.しかし淘汰は様々な適応度を持つ過程をすべてあわせた複合仮説であり,尤度を与えるのは難しいということになる

*6:これはありそうかそうでないかの2領域という区分けに主観的な要素があるということだろう.ソーバーはコイン投げに関して,何回表がでたかというデータ形式をとらずに,結果をすべて順列にして記述するというデータ形式をとるなら,もはやどの結果がありそうでどの結果がありそうにないかはよくわからなくなるという例を出している.

*7:壷は当たりくじが1%の壷(H1)か0.1%の壷(H2)のどちらかだとして,そこからくじを引いたら当たりだった場合,尤度的にはそれはH1を支持する証拠となるが,H1帰無仮説として有意検定すると棄却することになる

*8:ソーバーの憤りはまことに激しい.もし(e1+e2)を最小化させようとしたなら統計学の歴史は変わったものになっただろうとまで書いている

*9:ソーバーは次の例をあげている.:コインが表になる確率が1/2だという仮説があり,裏裏表という結果が得られたとする.表がでればやめるという規則でも,3回振ってやめるという規則でも尤度は等しく1/8だ.

*10:ベイズ主義者の「停止規則がわからないデータがあったらどうするのか」,頻度主義者の「棄却されるまで実験を続けるという実験に意味があるはずがない」あたりからはじまる.

*11:これがなぜ頻度主義なのかについては,長期的な試行において意味を持つ不偏推定量を基礎においているからだそうだ.

*12:ソーバーによるとこの違いが,AICベイズ情報量基準との違いを説明するということになる