書評 「NOISE」

 
本書はトヴェルスキーと行動経済学の基礎を作ったカーネマンが,ビジネスコンサルタント出身のオリヴィエ・シボニーと法学者で行動経済学関連の著作も多いキャス・サンスティーンと共著したヒトの意思決定のばらつきについての本になる.カーネマンとトヴェルスキーはヒトの意思決定や行動に様々なバイアスがあることを示してきたことで有名だが,本書では偏り(バイアス)ではなくそのばらつき(ノイズ)が取り上げられることになる.原題は「Noise: A Flaw in Human Judgment」
 

序章

序章では偏り(バイアス)とばらつき(ノイズ)の違いが説明され,ヒトの判断や意思決定にはかなり大きなばらつきがあり,医療診断や司法の世界では大きな問題になりうることが示唆される.
 

第1部 ノイズを探せ

第1部はまず実際にどのぐらいばらつきがあるのかを扱う.
 

第1章 犯罪と刑罰

著者たちによるとこの問題の先見者はアメリカ連邦判事のマービン・フランケルなのだそうだ.フランケルは1970年代に刑事裁判における量刑が裁判官によって大きく左右されることを示す強力な証拠*1を示した.50人の裁判官に架空の事案の量刑を求めたリサーチでは,量刑が一致することの方が珍しいという結果が得られた.これを受けて1985年に量刑ガイドラインが強制適用されることになりばらつきは減少した.しかし現場からの「ガイドラインは事案固有の事情を適切に考慮することを禁じているので不公正だ」という轟々たる非難によって2005年には単なる勧告に格下げされ,またばらつきは数倍に増えているそうだ.
著者たちは得られて知見についてこうまとめている.

  1. 不一致の度合いは予想されるよりはるかに大きい.
  2. ノイズは減らせる
  3. ノイズを減らそうとすると反対が起きてノイズ退治が困難になりかねない.

 

第2章 システムノイズ

第2章では著者たちがこのノイズに気づいたきっかけが書かれている.著者のうち2人はある保険会社のコンサルにかかわっていた.そして損害保険の損害額査定のノイズが問題になる.同一事案を多くの担当者に査定してもらうというノイズ検査に同意した経営陣はノイズの量はたいしたことがないと考えていたが,結果は彼等が驚愕するものとなった.ランダムに選んだ2人の査定額の差の中央値は(経営陣の予想は10%以下だったところ)55%もあったのだ.
このエピソードはノイズが人々に気づかれにくいことをよく示している.個別の査定者は自分の判断が他者の判断とどのぐらい異なっているかを知ることがなく,他者の見方が自分のそれを同じと素朴に信じ込む.部門責任者も判断の大きなばらつきという真実の居心地の悪さからそれに気づきにくいのだ.
 

第3章 一回限りの判断

ここまでの2章は繰り返し行われる判断についてのもの(だからノイズを測定できる)だった.では1回限りの判断ではどうなるのか.著者たちは原理的にそこにもノイズがあるはずであり,やはりそれを減少させる努力をすべきだと指摘している.
 

第2部 ノイズを測る物差しは?

第2部はノイズの測定がテーマになる.
 

第4章 判断を要する問題

第4章は測定の前段が扱われる.
予測的判断を評価するにはその結果から検証すればいい.ただしある種の予測的判断は検証不能だ(ある人物の採用の判断などは1回限りの確率判断であり,結果が示されても事後確率はわからない).この場合判断の評価はそのプロセスを評価するしかない.また予測的判断とは異なる評価的判断もあるが,境界は曖昧であり,多くのプロは同じような手法で判断を行う.
これらの判断のノイズは予測を誤りに導き,評価の公平性や一貫性を損なう.そしてそれを減らすにはまず測らなければならないのだ.
 

第5章 エラーの計測

バイアスもノイズも同じようにエラーに寄与する.だからノイズの計測と削減にはバイアスの計測と削減と同等の優先順位が与えられる必要がある.
ここから本章では予測が正規分布する場合を例にとって平均二乗誤差などの様々な統計概念を説明し,誤差=バイアス+ノイズ,平均二乗誤差=バイアスの二乗+ノイズの二乗という誤差方程式を提示する.(ただしこれが適用できるのは真の値が事後にわかる予測的判断についてのみになる)
 

第6章 ノイズの分析

第6章では裁判官の量刑判断実験(多数の裁判官に同じ多数の事例を与えて量刑を判断してもらう)を例にとり実際の計測例を示す.結果は事案と裁判官のマトリクスで表示され,これをもとに様々な計算を行うことができる.ここでは全体のばらつき(システムノイズ),裁判官ごとのばらつき(レベルノイズ),その残差(パターンノイズ,特定事案にたいする特定裁判官の特定の傾向が現れたもの,たとえばA裁判官は再犯事案に厳しいなど.ここには一過性の機会ノイズも含まれるがその割合は小さいとされている)が計算され,解説されている.
 

第7章 機会ノイズ

第7章では同じ人が同じ案件を判断しても生じるばらつき(機会ノイズ)が扱われる.この計測は容易ではない(実験的に計測しようとしても被験者が前回の判断を覚えていればノイズを減らせるから).ここでは,機会ノイズの存在について「同じ人に同じ推測問題を出せば2回目に成績が向上する傾向があることを,判断に機会ノイズがあり1回目と2回目の答えを平均しているとすれば説明できる」という傍証を挙げている.
そこから著者たちはこのような機会ノイズの発生原因について,気分,疲労,天気,判断順序などを挙げて説明する.またこのノイズは個人間のノイズに比べれば通常かなり小さいことも指摘されている.
 

第8章 集団によるノイズの増幅

第8章では判断や意思決定に与える集団の影響が扱われる.集団においては(判断が独立になされない場合)最初の意見に引きずられる傾向(情報カスケード)や嫌われたくないなどの理由で周囲に同調する傾向(社会的圧力)が生じる.また集団の中でやり取りすると意見が極端に振れやすくなるという傾向(集団極性化)も知られている.これらはいずれもノイズを増幅する.
 

第3部 予測的判断のノイズ

この中間に当たる第3部では特に予測的判断についての各論を扱う.予測的判断は評価的判断と異なり,後日その結果が判明し,予測の精度を確認することができるため,ノイズについてより良く知ることができるからだ.
 

第9章 人間の判断とモデル

まずこれまでいろいろなところで指摘されている「人間のエキスパートによる総合的判断は単純な回帰モデルによる機械的判断にかなわない」という話が詳しく解説されている.この指摘の初出は1954年にさかのぼるそうだ.著者たちはこの原因のひとつが人間の判断にあるノイズの大きさだと指摘する.(別の要因としてはエキスパートが取り入れる繊細で複雑な手順は一般的に正しくなく,正しい場合も適用場面が限られていることが指摘されている.そしてこのような手順はエキスパートに妥当性錯覚を引き起こすことになる)
 

第10章 ルールとノイズ

第10章では,予測的判断についての機械的アプローチは単純な回帰モデルから複雑な機械学習モデルまで様々だが,いずれもノイズフリーであり,人間の判断より信頼できるものになることが具体例を挙げて強調される.
回帰係数で重みづけせずに様々な要因に同じ重みを与える「均等加重モデル」ですら人間の判断を上回る.要因を切り詰めた「倹約モデル」も同じだ*2.そして複雑な機械学習モデルは近年急速に進歩している.優れたモデルは「重要だが稀な要因」も見つけることができ,さらに有効性を高めている.
ではなぜ人々はもっとアルゴリズムを使わないのか.専門家はあれこれ理由を述べるが,説得力のあるものはない*3.著者たちはこれらの議論を通じてわかったこととして,人々は絶対にアルゴリズムを拒否するわけではないが,一度でも判断ミスをしたら信頼しなくなることがあるとしている.人々は完璧なアルゴリズムでなければ受け入れたくないのだろう.
 

第11章 客観的無知

第11章ではそもそもの予測的判断の限界が論じられる.「様々な偶然の要素が入り込むので先のことはわからない」ということだが,著者たちはこれを客観的無知と呼ぶ.
客観的無知の大きさはどのような状況でどのようなことを予測しようとしているかにより異なる.ただプロはおおむね自分の客観的無知の大きさを過小評価している.著者たちはこれを「無知の否定」と呼ぶ.そしてテトロックの有名なリサーチと彼が発見した超予測者たちの特性が紹介される.
 

第12章 正常の谷

次に取り上げられるのは人々の「予測できなかったことも理解はできる」という思い込みだ.
ここでは多くの社会学の予測と結果の相関係数は0.2程度にすぎないが,学者たちは原因を理解していると錯覚しがちであること,因果論的思考法をとると結果が判明すればどんなことにも説明をつけてしまうことが指摘される.
私たちの経験することの大半は驚天動地の出来事と予測可能なことの間(正常の谷)にあり,そこでは後知恵で簡単に原因を想像してつじつまを合わせることができるし,さらに驚きの結果に対してももっともらしい筋書きをでっち上げる途方もない能力がある(因果論的思考).著者たちはそれが「理解した」という錯覚を作り出すのだと指摘している.
そして,因果論的思考はシステム1で極く自然に浮かんでくるものなのに対して,エラーを避けるのに有効な統計的思考はシステム2であり,意識的に相当な努力が必要だと論じている.
 

第4部 ノイズはなぜ起きるのか

第4部ではノイズの原因が扱われる.
 

第13章 ヒューリスティックス,バイアス,ノイズ

まず,バイアスとノイズの関係がもう一度整理され,バイアスの例として置き換えバイアス,結論バイアス,過剰な一貫性が簡単に説明される.そしてこれらのバイアスは判断の偏りを生むが,それだけでなく,バイアスの程度が個人間でばらばらであったり環境(情報提供の順序など)に依存するため,ノイズの原因でもあると解説される.
 

第14章 レベル合わせ

次の原因要素はレベル合わせ(主観的印象をどのような目盛り(尺度)に合わせるか)だ.ここでは2種類の推測が必要な場合に直感的に片方のみを行ってレベル合わせしてしまう例,度合いを評価する心理的カテゴリーが限られているという制限(これを克服するにはこまめな比較が有効だそうだ)などが解説されている.
 

第15章 尺度

前章に引き続いて主観的印象を尺度に当てはめることによるノイズが論じられる.ここでは人事評価の評価段階が個人間で異なってしまう問題,アメリカの民事裁判における懲罰的損害賠償の算定基準の曖昧さに基づくノイズ(陪審員は懲罰の意思や怒りを金額に当てはめようとする.ヒトは心理的には比率尺度で反応する.このため絶対金額として大きなノイズの原因となる*4)が詳しく解説されている.

第16章 パターン

ここでは第6章で説明されたパターンノイズの原因が論じられる.パターンノイズには判断対称と判断者個人の交互作用によるもの(ここでは安定したパターンノイズと呼ばれる)と,一過性の機会ノイズに分解できる.前者は,どの項目にどのような重みをつけるかの個人差,判断の質や能力の個人差,有効な判断ができる分野の個人差などにより生じ,後者は判断時の気分や外部の状況により生じる(厳密な区分は難しいとも説明されている).ここではこの問題が性格と状況が行動にどう影響を与えるかという問題と(交互作用と機会ノイズが現れるという点で)類似しているということも指摘されている.
 

第17章 ノイズの原因

第17章はノイズの原因についてのまとめの章になる.
まず誤差方程式をまとめ,平均二乗誤差がバイアスとシステムノイズに分解され,システムノイズがレベルノイズとパターンノイズに分解され,パターンノイズが安定したパターンノイズと機会ノイズに分解されることを示す.そして特に重要な点として誤差が個人のバイアスにのみよるものではないこと,残差のノイズも単にランダムではないことを強調する.
次にノイズの大きさを実証的に測定した結果が示される.システムノイズのなかでは,レベルノイズや機会ノイズは比較的小さく,安定したパターンノイズがかなり大きいことが示されている.
またここでは,ノイズの問題が世間であまり認識されていないこと,判断ミスをバイアスで説明しようとするケースが増えているが,これ自体後付けバイアスの現れであること,ノイズは統計的な現象であり,システム2的な統計的思考を取り入れる必要があることが指摘されている.
 

第5部 より良い判断のために

第5部では,どのように判断の質を上げるか,そして特にどのようにノイズを低減させるかが扱われる.
 

第18章 よい判断はよい人材から

よい判断を得るには判断の質が高い人材を用いるとよいのは明らかだ.ではどのような人材がそうなのか.予測的判断においては後に判明した結果で検証可能なので良い成績を上げた専門家を用いればよいことになる*5.しかし評価的判断においてはこの方法は使えない.
著者たちはまず世間で信用されている「リスペクト専門家」がどんな人々であるかを示す.それは専門的トレーニングを受け,経験を積み,自信を持って判断を下しその根拠を説明できる人々だ.著者たちは,これらの要素は信頼を得るに有用だが,必ずしも判断の質を担保しないと指摘する.そしてよい判断と相関する特徴として,高い一般知性*6,衝動にとらわれずに熟考する認知スタイル,開かれた思考態度を挙げている.
 

第19章 バイアスの排除と判断ハイジーン

判断の質を上げるにはバイアスとノイズの両方の問題を扱う必要がある.
最初にバイアスが扱われる.バイアスの排除には事前方式と事後方式がある.事後方式はすでになされた判断について何らかの方法で推定されたバイアスを差し引く.プロジェクト管理にかかる判断について過去の楽観バイアスを測定して修正するようなやり方だ.事前方式は環境改善(バイアスのかかりにくい環境に変える,ナッジもその一手法ということになる)や研修によって判断者のバイアスを減らそうとするものだ.しかし多くの場合にはどのようなバイアスが判断に影響しているかを知ることは難しいので,このような排除方法には限界がある.
またプロジェクトに第三者的なバイアスオブザーバーを置き,意思決定プロセスを観察しながらリアルタイムで是正勧告を行うという方法もある.著者たちはこのようなオブザーバー方式をとる場合には,意思決定者の強いコミットメントがあることが重要であること,内部メンバーのオブザーバーは事情がわかってバイアスを発見しやすいが,憎まれ役になって孤立無援になるリスクがあり,外部オブザーバーは中立的に観察できるが内情がよくわからないというトレードオフがあること,いずれにしてもオブザーバーには一定の訓練とチェックリストのようなツールが与えられることが望ましいことを指摘している.
次にノイズが扱われる.著者たちはノイズの減らす有効な方策は予防的な衛生管理(ハイジーン)に似ていると指摘する.手順は面倒でつまらないし,効果があったのかなかったのかも見えにくいという意味だ.そして具体的な手順や方法はここからの章で具体的に論じられることになる.
 

第20章 科学捜査における情報管理

ここからは各論になる.まず犯罪捜査における鑑定の問題が取り上げられる.指紋鑑定は一般的にきわめて科学的なものだと受け取られているが,実際には(採取された指紋の不明瞭さなどの要因により)デリケートな作業となる.専門家は分析,比較,評価,検証という手順を踏む.これは信頼性が高いものだとされていたが,実際に調べてみると一定程度のバイアス(確証バイアス)とノイズが計測された.「一致」の誤鑑定はきわめて少なかった(検査官は冤罪を避けようと判断を安全側に傾けている)が,それでも1/600程度の誤鑑定率が計測された.著者たちは,まずバイアスやノイズがあることを認めることが重要だと指摘し,検査官に予断を与えないための厳密な情報管理手順,数日後の再鑑定を推奨している.
 

第21章 予測の選別と統合

次は予測だ.ここでは,優れた予測者(超予測者)を選ぶ.多数の独立した判断を統合する(予測市場,デルファイ法などが解説されている)という手法が説明される.そしてテトロックのリサーチを紹介し,予測には分析的,統計的に考えることが重要だと指摘する.
 

第22章 診断ガイドライン

次は疾病の診断だ.診断にはしばしば判断が必要になる.検査だけで診断できるようにすることは医療の進歩の大きな側面となる.判断にはノイズがあり,しばしば同じ患者への個々の医者の診断は食い違う(これがセカンドオピニオンを求める意味になる).
ノイズの存在が早くから明らかであったこともあり,医療におけるノイズの計測(どの分野でノイズが大きいかも良く調べられている*7)や判断向上の取り組みの歴史は長く,多くのアイデアが生まれている.著者たちはここで診断ガイドライン(アルゴリズム),教育・訓練による質の向上を解説する.また最後には精神科診断が特にノイズが大きく,またガイドラインの有効性が低いという問題が扱われている.著者たちは問題の根源には不適切な分類法があるのではないかと示唆している.
 

第23章 人事評価の尺度

第23章は人事評価を扱う.人事評価を客観的数値だけで行うことは(状況が千差万別である以上*8)無理がある.そのため人事評価は基本的に人間の判断の固まりになる.人事評価にバイアスやノイズが入り込むことは多くの人が知っているが,実際にどれぐらいの大きさなのかはあまり知られていない.実際にこれを計測した研究は数多くあり,(現在アメリカで流行している)360度評価を調べたものによると全体のばらつきの実に70〜80%がシステムノイズであった.
著者たちはノイズの原因のひとつは戦略的評価の問題(評価者に政治的な動機があるなど)だが,それだけではなく360度評価の統合のやり方が過度に複雑であること,絶対的評価では水増し評価が生じやすいことなどの原因があると指摘する.また水増しを防ぐための強制ランク付けの方がノイズは少ないが,評価の目的との整合性や一部門が全体と同じ平均や分布を持っているなどの条件を満たしていることは稀であり,条件を満たさない場合はエラーや不公平が生じ,社員の志気やチームワークに悪影響がある.
ではどうすればいいのか.ひとつのポイントは正しい尺度になる.わかりやすいケースをもとにした行動基準評価尺度を設定し,評価者に評価準拠枠トレーニングを行うとノイズが減ることがわかっている.ただこの方法は複雑で時間をとられるためあまり普及していない.
結局このノイズを減らすのは難しく,単純に技術的な手法でどうにかできるものではないということになる.著者たちは人事評価について,人事評価を行おうとする組織は「人と人との相互作用に大きく依存する今日の組織で個人の出来不出来がどの程度意味を持つのか」「自組織における能力・実績分布が実際にどうなっているかを計測できているか」「全員の評価を行い,それをもとにアメとムチを与えてやる気を出させようとすることは本当に合理的なのか」を真剣に問い直すべきだとし,最後にこう助言している:「もしあなたの会社が人事評価を行っているなら,そこにはシステムノイズが大量に存在すること,したがってそのような評価は本質的に無意味であってほぼ確実に非生産的であることをわきまえてほしい」
 

第24章 採用面接の構造化

第24章は採用判断だ.採用判断における面接という手法については古くから膨大に研究され,それにあまり意味がないことがはっきりしている.しかし面接は実務的には圧倒的に広く普及している(著者たちはこれを通過儀礼と皮肉っている).
著者たちは面接のエラーの原因について,客観的無知(基本的にある人物の将来パフォーマンスは予測困難),心理的バイアス(人種,性別,学歴,外見だけでなく自社文化との同質性も問題になる),そしてノイズがあると指摘する.ノイズのなかで安定したパターンノイズ(特定候補者に対すると面接官固有の反応),機会ノイズはともにきわめて大きい.機会ノイズが大きいのは,第一印象が大きな要因になること(標準的面接では面接官は自分の好きなように話の流れを操作でき,第一印象を確かめるような質問をしやすく,確証バイアスが発動する),面接官は候補者のどのような答えにもつじつまの合った人物像を形成してしまう(過剰な一貫性バイアス)ことなどのためだ.
著者たちは,面接をするにしても試験や推薦状などのほかの情報と統合すること,面接を構造化すること(評価の分解,独立の複数の評価者による判断,総合判断は最後に行う*9)を勧めている.
最後に著者たちは,経営側だけでなく採用される側も構造化されていない標準的面接の価値を疑っていないことにふれ,彼等がノイズの大きさを過小評価していることは明らかだとした上でそれを「錯覚の固執」と呼んでいる.*10
 

第25章 媒介評価プロトコル

第25章はカーネマン,シボニー,ロバロにより提唱された企業の質の高い意思決定プロトコルである「媒介評価プロトコル:mediating assessments protocol」を企業買収意思決定の例に沿って紹介する.
ポイントは選択肢の評価を構造的に行うことだ.まず戦略委員会(取締役会)が何を評価項目とするかを決め,それを明確化する.次に調査分析チームが個別の項目ごとに,複数人が独立に評価を行い,それを統合する.評価は統計的視点から基準(参照クラス)に対する相対評価で行い数値化し,評価の信頼度も示す.すべての項目の評価が出そろった段階で,戦略委員会で項目間の評価の矛盾や不一致について議論する.議論では個別論点について個別に判断(採点)してもらいその結果を共有して議論するという過程(デルファイ法)を繰り返す.その後最終的な意思決定を行う.(最後の段階ではすべて数値で決めるのではなく直感的な判断も加味してよい)
著者たちは,このプロトコルは判断ハイジーンの具体的手順を定めたものであること,またこれが一度限りの判断にも繰り返し判断にも使用可能であることをコメントしている.
 

第6部 ノイズの最適水準

ノイズ低減提案はしばしば現場から猛反発を受ける.第6部ではノイズ低減への抵抗勢力の言い訳とそれに対する解答が示される.なかなかシニカルで面白い.
 

第26章 ノイズ削減のコスト

最初の言い訳はノイズ低減にかかるコストが高すぎるというものだ.
これは確かに考慮に値する面があり,低減効果のメリットとそれにかかるコストの状況の把握は重要になる.これがノイズ検査を行うべき理由の1つになる.ただ著者たちは,医療診断のノイズは生死に直結し,人事評価のノイズはモラルに大きく影響するなどノイズ低減のメリットはしばしばきわめて大きく,それほどコストのかからない改善方法がある場合が多いともコメントしている.
コストの言い訳の一種としてノイズを下げようとするとバイアスが増えてしまうという言い訳もここで扱われている.
これに対しては,確かにノイズ低減方法によっては(特に硬直的な方法や慎重に設計されていないアルゴリズム*11では)バイアスを生むことがあると認めながら,その場合やるべきことは低減方法の改善であり,あきらめてしまうことではないと主張している.
 

第27章 尊厳

次に取り扱われる反発は,(しばしばノイズ低減方法として用いられる)ルールやアルゴリズムによる判断は非人間的で非道徳的であり,人がケースバイケースで判断することが尊厳をもって相手と対峙する方法だというものだ.この反発をもう少し合理的に擁護しようとするのが,判断システムは新しく生まれた価値観に適応する余地を持たしておくべきだというものになる(関連する米国最高裁の判例が引かれている).
著者たちは,まずノイズ削減手法の中にはこれに当てはまらないものも多いし,仮に一部当てはまるとしてもその改善を目指すべきだとし,さらに仮に新しい価値観に対応する余地がある方が望ましいと認めるにしても,それだけで高い水準のノイズを容認するのはきわめて不合理だとコメントしている.
ここでは関連する反発として,厳格なルールはハックされてしまう,罰が曖昧な方が抑止効果が高まる,裁量権を与えることが創造性やモチベーションにつながるなどの言い分がある.著者たちはこれらに対してそれぞれ,ハックされる可能性だけでノイズを容認すべきではない(まず調べるべきだ),(リスク回避傾向があるとしても)曖昧な方が抑止力が高まる証拠はないしそもそも抑止力を高めたいなら罰を大きくすればいいだけだ,医療診断に創造性は必要ないしモチベーションを持ち出すのは単なる感情的反発にしか見えないと切って捨て,最後に厳格なルールを導入する際には異議申し立ての受け付け制度を作ればいいとコメントしている.
 

第28章 ルール,それとも規範?

第28章では,前章の最後の言い訳に関連して裁量権を認めるべきかどうかがより正面から議論される.ここではノイズ削減プロトコルについて裁量権のないものをルール,ある程度の裁量権を認めるものを規範と呼んでいる.
基本的に規範の方がバイアスとノイズが増える.それでもしばしば規範が導入されるのは,ルールに対しての多くの人の反発,厳格なルールを定めるためのデータ不足などの事情があるからだ.また片方で不快なルール,ひどい結果が生じることがあるルールは,それを避けようと水面下での裁量的運用を誘発することがあることには留意しておく必要がある.
ではどうすればいいのか.著者たちは判断のコスト(認知負担,時間など),エラーのコスト(バイアスとノイズ)を比較考量して決めることを推奨している.
 

まとめと結論

最後にまとめと結論がおかれている.ここでは判断ハイジーンの原則が6つ挙げられている.あらためて眺めるとなかなか含蓄の深さが感じられる.

  1. 判断の目標は正確性であって,自己表現ではない
  2. 統計的に考える
  3. 判断を構造化する
  4. 直感は最後に一度だけ
  5. 複数の独立した判断を統合する
  6. 評価は基準に対する相対的な尺度で

 
 
以上が本書の内容になる.様々な評価的判断,予測的判断に,判断者によるばらつきがあるのはある意味当たり前だが,それがどれほどの大きさかというのはあまり理解されていないだろう.本書の冒頭で紹介されるそのノイズの大きさ,特に量刑判断におけるノイズの大きさ*12は衝撃的だ.また個別問題で扱われている,人事採用面接の無意味さ,人事評価のノイズの大きさも,薄々何となくわかっていたとはいえ,それが指摘されてから何十年経っても圧倒的にほぼすべての組織で使われ続けているということは,あらためて考えてみるとなかなかすごい話だと思わざるを得ない.そして知られていないだけでなく,これを減らそうとする試みが現場からしばしば猛反発を受けるというのは,いかにもという印象だ.*13
そして後半はノイズをどう減らすのかが書かれていて,判断の構造化と統計的思考が強調されている.これはいろいろな場面で参考になる考え方だろう.何らかの判断を行う人は一度読んでおくべき本だと思う.
 
 
関連書籍
 
原書

 
カーネマンによる主にバイアスを扱った前著.私の書評は
https://shorebird.hatenablog.com/entry/20130403/1364984135

 
同原書

*1:似たような偽造小切手使用案件で懲役15年と30日,似たような着服事件で懲役20年と117日などの実例を示したそうだ

*2:これについては多くの要因は相関していることが多く,倹約してもあまり精度が下がらないという説明がなされている

*3:心理学者ポール・ミールは1996年に発表した論文で,機械的判断に対する反対を17種類列挙していちいち論破して見せたそうだ

*4:何らかの基準値をアンカーにできればいいが,陪審員は事件ごとに一度限りで選ばれ,類似事件の結果を陪審員に伝えることが禁じられているため,この方法は実務的には使えない

*5:ただし実務的にはそれほど簡単ではないともコメントされている

*6:最近はIQではなくGMA(General Mental Ability:本書では一般知的能力と訳されている)と呼ぶのが人気なのだそうだ

*7:ここでは心臓病,子宮内膜症,結核,悪性黒色種,乳がんについての計測の結果が解説されている.いずれも結構な大きさのノイズがある

*8:ここではふれられていないが数値判断基準はハックされやすいという問題もあるだろう.

*9:Googleの構造化面接の手法を丁寧に説明している

*10:進化心理学的にはこれから協力関係を持とうとする人物とは是非顔を合わせたいと感じることが進化環境では当然のやり方(つまりその方が有益)であったのではないかと考えるところだろう

*11:人種や性別に関するバイアスを生む可能性のあるアルゴリズムについては,問題のカテゴリーと相関性の高い変数の使用やソースデータのバイアスなどの問題が詳しく議論されている.

*12:日本ではもう少し量刑ガイドラインがワークしているような印象だが,実証的にどうなっているのかについては気になるところだ

*13:またここでは取り扱われていないが,評価点で勝敗が決まるスポーツ(体操やフィギュアスケートなど)における審判の判断にも同じ問題があるだろう.自国バイアスはよく調べられていて競技によっては対策もとられているが,ノイズ(特にパターンノイズ)がどうなっているのかは興味深い.