ピンカーのハーバード講義「合理性」 その3

ピンカーの講義,第5回はベイズ推論,第6回は統計的意思決定(その中でネイマン-ピアソン型の統計検定を取り上げている)を扱う.
 

第5回 「ベイズ推論(Bayesian reasoning)」

harvard.hosted.panopto.com

 
ベイズ推論とは何か,なぜ難しいのか,なぜ重要か,どうすればヒトは良いベイズ推論ができるのかをあつかう. 講義前の音楽はクリーデンス・クリアウォーター・リバイバルの「Green River」(この音楽とベイズの関連は難しい.クリーデンス Creedence が,ベイズ流の主観的確率を表す「確信度: degree of credence 」の credence に似た綴りだということか)
 
最初はベイズの定理の通常の形とオッズ比を使った形を説明.例題には稀な病気の診断問題(ベースレートが低い病気についての偽陽性率があるテストでの陽性結果の解釈)という(この講義の時点ではまだ大きな問題になっていなかったが)今日的に関心が集まるものが使われている.
 

なぜベイズ推論は難しいのか.
  • トヴェルスキーはヒトは代表性ヒューリスティックによってベースレート(事前確率)を無視するからだと指摘した.(法律家エンジニア問題,タクシーの色問題の実験結果が示される.)
  • ではこのことはなぜ重要なのか.それは例題の間違いが医療に与える影響を考えればわかる.無用なパニック,不要な手術につながるだろう.実際にアメリカの医者でこれがきちんとわかっているのは残念ながら2割程度にすぎない.
  • これは稀な事象を偽陽性率のあるテストで検出しようとしたときに普遍的に現れる問題になる.テロリストのプロファイリング,自殺リスクのテスト,嘘発見器による不正の検出などは皆この問題を抱える.

 

  • ヒュームはベイズ的なことを言っている:「奇跡があったという証言は,奇跡のありそうもなさと証言が嘘である可能性を秤にかけて考えるべきだ」.カール・セーガンはこのことを「途方もないことを主張するには途方もない証拠が必要だ」と表現している.(これはドーキンスが神の存在についての議論でもよく引き合いに出すところだ.)

 

  • このことは前回話した疫学や社会心理学の「再現性の危機」にも関連する.
  • 現在主流の検証の仕方(p値を使った頻度主義的な検証法)はベースレートを無視している.(予知能力論文を示し)このような物理学的にあり得ないような主張を5%ぎりぎりの有意水準で主張できるはずがないのだ.
  • 実際にこのような検証で主張され,再現できなかった知見は多い:暖かいマグを持つとフレンドリーになる,ペンを噛むとマンガがより面白く感じるようになる.嘘を書かせるとハンドソープを高評価し,嘘をしゃべらせるとマウスウォッシュを高評価するなど (ピンカーはここでコーヒーメーカー料金箱の「目の効果」も再現性がなかったとしているが,「目の効果」は再現性がかなりあるのではないだろうか,ちょっとよくわからないところだ)

 

  • ベイズ推論は予測において有用であることが明らかになっている.(テトロックの予測実験を紹介)多くの評論家達の予測は定義を明確にして時限を切る形(事象Aが3年以内に起こるかどうか)で行わせると偶然レベルでしかあたらない.しかしごく稀にチャンスレベルを超える予測屋(スーパー予測者)がいる.
  • 彼等の手法はベイズ的で,ベースレートをまず考え,そこから得られた証拠や事実の展開によって予測を修正していく.オープンマインドで物事は偶然によって決まることがあると考えているのだ. これはベイズ推論の有用性を示している.

 

ではヒトは常にベイズ推論をすべきなのか.
  • そうではない.そこにはモラルとタブーの問題があるのだ.
  • 知能や犯罪などの社会科学的変数を測定すると年齢,性別,人種,宗教でなんらかの差が得られる. ベイズ的にはこれらはあるカテゴリーのベースレートになる.ベイズ推論をするなら雇用判断,有罪判断などにおいて人種別や性別に異なる扱いをすべきことになる.
  • しかしそうすべきではない.それは偏見を助長するし,そういうことによる社会的な効用改善は個人が受ける不利益を埋め合わせると考えるべきでもないし,そもそも個人の行動予測はゴールではなく,自己実現的な効果を考えるとそれは避けるべきだからだ.
  • もちろん社会科学的変数でもベイズ的に扱うべき場合もある.ある職業において性差別があるかどうかを判断するときには,単純な性比0.5ではなく,その職業における性比(ベースレート)を考えるべきことになる.
  • また保険などではカテゴリーごとの扱いが不可避だ.自動車保険で年齢ごと,性別ごとに保険料が異なるのはこのためだ.(そうしないと保険制度自体がフリーライダーに蚕食されてなりたたなくなるという意味だろう)

 

どうやれば良いベイジアンになれるだろうか.
  • 1つはデバイアシングだ.これは別の講義で扱う.
  • もう1つは問題の提示方法を頻度的に変えることだ(進化心理学者ギゲレンツァーの主張が説明される) 最初の稀な病気のテストの問題も頻度的に提示されると多くの人が理解できる.面積グラフで表してもそうなる.これは一種の生態的合理性ということになる.

 
ベイズ推論はある程度信頼できるベースレートがある場合,とにかく実時間でなんらかの推測をしなければならない場合には非常に強力な手法になる.この辺については「異端の統計学ベイズ」が面白かった.私の書評はhttps://shorebird.hatenablog.com/entry/20131228/1388183026

異端の統計学 ベイズ

異端の統計学 ベイズ

 
テトロックのスーパー予測者についてはこの本に詳しい

 
心理学の「再現性の危機」については心理学評論で特集された.私の当該記事についてのエントリーは
shorebird.hatenablog.com

 
 

第6回 「統計的意思決定あるいは信号検知理論」

 
演繹的推論と実践的推論の橋渡しが扱われる. 講義前の音楽はハリー・ジェイムズの「I’ve Heard That Song Before」
 

不完全な情報の中でどう意思決定すればいいのか
  • 不完全な情報の中で意思決定しなければならない状況は多い.CT検査の結果をもとに手術をするかどうか,証言と証拠に基づいて被告を有罪にするかどうか.一度会ったような気がする人にどう挨拶すべきかなど
  • データはランダムさを持つ変数と考えることができる.あるいは p(データ|世界の状況)は1ではないということだ.
  • ある標本集団について何かの程度を測定するとその結果はヒストグラムに表すことができる.標本数を大きくしていくとなだらかな分布になる.それは様々な形を描きうるが,正規分布になることが多い.
  • その理由は中心極限定理(どんな分布もそこからの標本平均の分布は正規分布になる)にある. また多くの小さな原因が小さな効果を与え合い,その効果が相加的である場合も正規分布に近くなる.

 

  • ここで冷戦中にレーダーによりソ連からの爆撃機を探知するというケースを考えよう.ビープの大きさでみると,ノイズの分布と爆撃機信号の分布はそれぞれ異なる平均を持つ正規分布を描くとする.
  • ここである大きさのビープが観測されたときにどう対応するかが問題になる.信号を正しく検知(正検知),ノイズなのに信号と見誤る(偽アラーム),信号なのにノイズと見誤る(ミス),ノイズをノイズと検知(正棄却)の4状態が生じうる.
  • ある水準以上を信号と見做すことにすると,そこには正検知と偽アラーム,ミスと正棄却の間にトレードオフがあることがわかる.
  • どの水準以上のビープを信号と決めるのかの基準に功利的基準を使うとすると,それは4つの場合のペイオフマトリクスを作って期待値を最大化する基準を選べばいいことになる.(ここで尤度比を使って最適基準を算出する方法が示される)
  • このペイオフにモラル的なものを使う場合もある.犯人でないものに冤罪を着せるコストは非常に高いと考えるのはその1つだ.そしてその評価も大きなテロ被害を防ぐため,(レイプ事件などで)女性の保護のために変えられるようなことも実際にある.

 

  • このトレードオフは不可避なのか.そうではない.ノイズと信号の平均の差が標準偏差の何倍になるかをd’(dプライム)というが,これを大きくすれば,トレードオフを小さくできる. 具体的には検知機器の性能を上げたり,繰り返し検査したりすることによって可能になる.
  • では我々の司法制度(陪審制)はどうなっているだろうか.アンケートによると市民が許容できる冤罪率は5%,許容できる真犯人が無罪になる率は8%だ.(この冤罪許容度の高さはちょっと衝撃的だ.アメリカのデータだろうが,日本ではどうなるのだろうか)
  • ここから要求されるd’を計算すると3.0になる. これは非常に高い数字で,まず間違いなく現在の司法制度はそこまで性能が良くない.(CTスキャンで脳損傷を調べるケースで2.4~2.9,マンモグラフィは1.3,天気予想は0.8~1.7,IQテスト的な適性試験が0.6~0.8だ) 実際には1.0あれば御の字だろう.もしそうなら有罪率が33%の時に冤罪が58%,真犯人無罪が12%いることになる.(有罪率が66%ならその逆になる)
  • ただし明らかに無罪なら公訴棄却されているし,明らかに有罪なら司法取引になっているだろう.それを勘案しても冤罪可能性の数字は大きい.司法制度の議論はこれを踏まえてなされるべきだ.

 

信号検知とネイマン-ピアソンの帰無仮説検定
  • ここでネイマン-ピアソン式の帰無仮説検定のスキームを見て見よう.これは帰無仮説がノイズ,代替仮説が信号としたときの信号検知モデルとパラレルになり,有意水準を示すpは偽信号を一定以下(よくあるのは5%)にしようとするものに過ぎないことが理解できる. このpはp(データ|仮説)の形をしておりベイズ的なp(仮説|データ)ではない.つまり仮説の確からしさを示すものではないのだ.

 

  • しかしこれはしばしば誤解されている.有意水準としてp<0.05をとった場合についての次の命題を考えてみよう.
  • (1)これは帰無仮説が正しい確率が5%未満であることを示す
  • (2)これは代替仮説が正しい確率が95%以上であることを示す
  • (3)帰無仮説を棄却する判断が間違いである確率は5%未満である
  • (4)再現実験をしたときに成功する確率が95%以上である
  • 「これらの中で正しいものはどれか」と尋ねられたときに心理学の教授の90%,統計を教えている教授の80%はどれかを選んでしまった.実はすべて間違いだ.
  • 設問についてどれかが正解であるような誤解があったとしてもこれは嘆かわしい.pはタイプIエラーのキャップに過ぎないのだ.

 

  • ある言語学者からこう聞かれたことがある.「結局有意水準検定を満たした仮説であってもそのうち1/20は間違いなのだろう.なぜ君たち心理学者はこれらの知見にそんなに確信を持っているのかね」
  • これに対しては,仮説の正しさは(ベイズ的に考えるべきで)事前確率(つまりそれまでの知識や経験)に依存するからだというのが答えになる.世の中に真理を決定できるアルゴリズムはないのだ.

 
この問題はピンカーの説明を聞いたあとで解くと正答できそうだが,油断しているときにとっさに問われてどれかが正解だと思い込むと結構間違えそうだ. 
なお結局ピンカーのこの講義ではフィッシャー流の統計検定は扱われない.フィッシャーファンの私としてはちょっと残念なところだ.ネイマン-ピアソンとベイズの関係については以下の本が面白かった.
 
三中信宏による統計学の講義ノートを本にしたもの.私の書評はhttps://shorebird.hatenablog.com/entry/20180610/1528591977

 
科学哲学者エリオット・ソーバーによる統計学の「主義」についての解説.私の書評はhttps://shorebird.hatenablog.com/entry/20130811/1376182928
科学と証拠―統計の哲学 入門―

科学と証拠―統計の哲学 入門―

 
統計学者たちの人間模様という視点から描く統計学説史本.私の書評はhttps://shorebird.hatenablog.com/entry/20060415/1145065110