書評 「心理学を遊撃する」

 
本書は認知心理学者山田佑樹による,「心理学の再現性問題」についてそれをリサーチ対象として捉えて突っ込んでいった結果を報告してくれる書物である.
「心理学の再現性問題」は,心理学者にとって自分のリサーチの基礎ががらがらと崩れていくかもしれないような重苦しいテーマであるに違いない.しかし著者はそれを軽やかに取り上げ,様々な角度からつつき,本質を見極めようとする.物語としてはその突貫振りが楽しいし,再現性問題が非常に複雑な側面を持ち,かつとても興味深い現象であり,到達点がなお見えない奥深いものであることを教えてくれる.それはまさに最前線からの「遊撃」レポートであり,迫力満点の一冊だ.
 

第1章 心理学の楽屋話をしよう

 
第1章では心理学の「楽屋話」が書かれている.まず著者の駆け出しのころの研究(ランダムネスの知覚),面白い効果を実験で示せたと思った時に別の研究グループが似たような研究の論文を出した時の狼狽*1を語り,研究者は普段研究の中身だけでなく,このような研究の楽屋事情や方法論をよく話しあっており,「再現性問題」はまさにこのような心理学の「バックヤード」にある問題なのだとコメントしている.本書は心理学の「バックヤードツアー」を語る「心理本」なのだ.
 

第2章 再現性問題を攻略する

 
第2章の冒頭では本書が扱う「再現性問題」とは何か,その取り扱いの難しさが書かれている.

  • 再現性には方法,結果,推論それぞれの側面がある.本書ではその中で結果再現性をめぐる問題を取り上げる.
  • この問題は取り扱いが難しい.まず否定的な話にならざるを得ず,相手に反感をもたれかねない.そして分野やトピックごと,個人ごとにこの問題への取り組み方が全く違う.その結果多くの場面でタブー的な取り扱いになりがちだ.
  • そういう意味でこの問題をフランクに話しあう場としてAmy Orbenの提唱したRepruducibiliTea(お茶でお飲みながら再現性問題を気軽に話し合う場)のアイデアは素晴らしい.日本でもRepruducibiliTea Tokyoが平石,池田により設立されており,素晴らしい.

 
次に「再現性問題」とそれを取り巻く流れ,著者がかかわるに至った経緯が説明されている.

  • 2015年8月にサイエンス誌にいわゆるOSC論文が掲載されたとの報が届く.そこでは心理学のトップジャーナルに掲載された論文100本を追試した結果,再現率は4割に満たなかったとされていた.(この論文の内容について詳しい説明がある)これにより「心理学の再現性問題」が世界に知れ渡ることになった.
  • この問題に対して日本の社会心理学者たちは非常に早期から明確な危機意識を持っていた.私は当初受け身でしかなかったが,「心理学評論」の「再現性特集号」への寄稿の話をもらい,問題への対処において研究者自身の認知メカニズムの検討の重要性を指摘する投稿を行った.

 
そして再現性問題がなぜ厄介な問題なのかが簡単に説明されている.著者による「遊撃」の背景ということになる.

  • 再現性問題の本質は,再現性が低いこと自体ではない.再現性が低いなら,その背後の因果モデルと最適な介入法さえわかればいいからだ.しかしこれが一筋縄では行かない.
  • 再現性の低さのポピュラーな説明は,ヒトの行動は社会的文化的文脈によりいくらでも変わるのであり(未観測未認識の撹乱要因や隠れパラメータの排除が難しく)「心理学とはそういうものだ」というものだ.この考え方には魅力的な部分もあるが,しかし現在の科学において再現性は重要な要素であり,あきらめずに文脈要因を探っていくべきだと考えたい.さらにこの見解を突き詰めると研究知見は,実験が行われた文脈でのみ成りたつものということになり,一般化できなくなる.
  • 別の要因は測定と統計にある.測定には誤差があり,社会科学には相関係数に影響してくる説明不能の謎の測定効果(カス因子)がよく現れる.この問題についても様々な議論や提案があるが本書では扱わない.
  • では他に何があるのか.現時点でこれこそがそうだと断定はできないが,関連しているいくつかの側面がある.それを調べるということはある意味研究者の人生そのものを総点検することでもある.

本書はこの最後の研究者人生の総点検を「遊撃」してきた著者の報告ということになる.
 

第3章 研究者のチートとパッチ:QRPsと事前登録

 
第3章は再現性問題が現れた当初に最も話題になった研究実践におけるチート,QRPsが扱われる.冒頭はゲームにおける「やり込み」の話題から始まっていて面白い.

  • QRPs(Questionable Research Practices)と呼ばれる「疑わしい研究実践」(データ捏造,改竄,盗用という研究不正とまではいえないようなグレーな手法)には様々な手練手管がある.
  • 代表的なものがp値ハッキング(p-hackingh)と呼ばれるものだ.この中にも,選択的報告(チェリーピッキング),逐次検定,外れ値の活用など様々な手管がある.(逐次検定と外れ値活用を組み合わせるといかに強力かが具体例として挙げられていて迫力がある)
  • もう1つの代表的な手法がハーキング(HARKing:Hypothesizing After the Results are Known)だ.これは有意なデータを知った後で仮説を作る作業のことだ.Texas sharpshooter fallacyとして知られるが,中国では「事後諸葛亮」と呼ぶらしい.これにもいくつかのバリエーションがある.p値ハッキングとハーキングを組み合わせると効果は絶大なものになる.
  • そして論文の書き方の教科書的な書物ではしばしばハーキング的な手法が推奨されていたりする(これは2022年現在でもそのような教育的な論文が出版されているそうだ).再現性問題について考える際には心理学教育や研究者教育を抜きにすることはできないだろう.

 

  • これらを防ぐために考案されたのがプレレジ(pre-registration:事前登録)だ.これはデータを集める前に変更不可の研究計画を登録して研究者自由度をゼロにするものだ.事前に分析方法が決められているのでp値ハッキングはできないし,事前に仮説が決められているのでハーキングもできない(いくつかのプレレジの登録方法が解説されている)
  • プレレジにもいくつかの問題点が指摘されている.まず仮説が理論から適切に導出されうる場合や方法やデータがオープンにされている場合(つまりp値ハッキングやハーキングがあまり問題にならない場合)には,研究の探索性やセレンディピティを阻害するという指摘がある.そして何よりプレレジもハック可能だ.プレレジは登録後の自由度を制限するが,登録前の自由度は制限できない.プレレジ前にQRPsを行い,美しい結果を確定させてから登録し,あたかもその後にデータをとったかのように見せかければいいのだ(パーキング;PARKingと名付けた).
  • 私は再現性問題に対して日本からも何か発信したいという思いもあり,プレレジもハック可能であることを示した論文を発表した.(論文受理までの経緯,プレレジハックが可能であることを示す実験を「実演用の嘘プレレジをする」研究としてプレレジしたなどの逸話があり楽しい).
  • プレレジもハックされることが認識されて,次に考案されたのがレジレポ(Registered Reports:事前査読付き登録報告)だ.レジレポは序論と方法のセクションだけまず査読を行い,結果と考察のセクションが加筆された段階でもう一度査読するものだ.最初の査読で方法セクションにかなりの修正が入るので,パーキングが使えない.
  • なおQPRsの1つである実験リセマラ(いい感じの結果が出るまで実験を何度でも繰り返す手法*2)を商業的に行う業者が存在することが2023年にSNS上で話題になった.その業者は臨床試験の代行を有料で請け負い,「業界初!有意差,完全保証!」と喧伝していた.突撃したネットニュース社によるインタビューをみる限り,彼らは悪びれずに実験リセマラ的な手法に言及していた.製薬の分野には不案内だが,どういう業界なのかについては興味が尽きない.
  • 私自身はプレレジを多用している.プレレジが探索性やセレンディピティを制限するとは思っていないこともあるが,備忘録としての役割があり,そして制限プレイとしてのやり込み要素に惹かれているからだ.

 

第4章 研究リアルシャドー:追試研究

 
第4章のテーマは追試.再現性問題とは,まさに追試で原論文の結果を再現できないという問題だから,これも重要なテーマになる.素人考えだと,じゃあどんどん追試すればいいだろうと思うわけだが,しかしこれがまた一筋縄ではいかないことが描かれる.

  • 追試には直接的追試と概念的追試がある.前者は先行研究の方法をテストするもので,後者は理論をテストするものということになる.再現性問題の「再現」とは直接的追試が問題になっている.しかし完全な直接的追試は不可能なわけで何を追試と呼ぶべきかにも議論がある.私は追試はある意味三角測量の役割を果たすものだと考えており,適切に実施され,方法とデータがオープンにされるならどのような追試も奨励したい.
  • 誰が追試を行うかという問題も重要だ.しばしば追試は「骨折り損」と形容される.先行研究者にとっても追試が有益(追試で確認してもらわなければ知見を検証済みといえない)でなければ,分業が成り立たない.利益相反の問題もあるので,同じラボで行うのは望ましくない.利益相反状況をオープンにした上でのラボ間の相互追試,大学の授業での実施,追試専門の機関や企業の利用などが考えられるが,最も望ましいのは追試専門の研究者が学術界で尊敬される立場として確立されることだろう.

ここから著者自身が行った追試についての様々な経験が語られる.全然再現できない落胆(あんなにロバストだと書いてあるのに!),追試失敗を論文にして受理してもらうことの困難さ,プレレジ追試*3でうまく再現できた話,プレレジ査読者が実験条件にこだわったので,話がどんどん大きくなって国際共同研究に発展した話,(再現性問題の発端の1つである)Bemの超能力論文の厳密な追試の話*4などいろいろ楽しい.最後に著者の所感と追試をめぐる現在の状況が語られている.

  • 10年前なら追試は自分の研究に入る準備の1つでしかなく,追試結果を論文にするなんて考えもしなかった.自分の価値観が大きく変わったことを実感する.今では追試は攻略要素が多くやり込み甲斐があり,追試プレイヤーがかっこいいと思うようになった.
  • 追試は一般社会からだんだん注目を集めるようになり,学術界の強い関心も集め始めている.その最も顕著な取り組みがOSFのMany Labsプロジェクトだ(詳しい説明がある).研究者の間では「特定の○○効果が再現できるか」から「いかに見事な追試を行うか」という方法論の発展に関心が移りつつあるようだ.

 

第5章 多人数で研究対象を制圧する:マルチラボ研究

 
再現性問題は,より一般的な文脈を目指す研究方向を作り出し,それはマルチラボ研究ヘの流れとなる.第5章ではそのようなマルチラボ研究動向,そして論文のオーサーシップの問題が扱われる.

  • 認知心理学の論文の著者数はここ40年で明らかに増加している.特に2000年代以降は顕著だ.これには再現性問題や一般化可能性問題への突破口として生じたマルチラボ研究のトレンドが関与している.

ここから著者自身のマルチラボ研究の歴史が語られる.最初はお誘いに受け身で参加していたが,どんどん積極的にかかわるようになった様子が描かれている.そしてマルチラボ研究についてどう考えるかが語られる.

  • ビッグチームの利点は(破壊的・革新的になりにくいが)ホットなトピックに対して高スループットの結果を素早く得やすいことだ.これは既存研究の発展,学際化,そして追試において威力を発揮しやすい.また個別研究では出現しにくい結果を得ることができる.広いサンプルも得やすい.これはWEIRD問題を考える際に重要だ.
  • ビッグチームの研究の進め方にもノウハウがある(それについての論文などが紹介され,ツールやファンディングなどいくつかのトピックについての解説もある).
  • ビッグチーム研究の最大の問題はオーサーシップだ*5.著者数が多くなると大して貢献していないフリーライダー的な著者を増加させる.多人数の研究者全員の貢献度や働きぶりをチェックすることは事実上不可能で,フリーライダーを完全に排除することは難しい.また逆に多人数著者論文の著者に加わっていることをどう評価すべきだという問題も生じる.理想的には最適化された量的評価が望ましいが,難しいだろう(このほか著者順の決め方,コンソーシアム・オーサーシップなどの話題も取り上げられている).

 

第6章 論文をアップデートせよ

 
第6章のテーマは論文だ..

  • 再現性の話をする上で論文の話題は避けて通れない.論文がないと追試もできないし,研究者がQRPsを行っているかどうかもわからない*6
  • 研究者にとって論文は昇進や研究費に換算できる学術通貨でもある.しばしば「Publish or Perish」ということがいわれ,論文がなければ学術界を去らねばならないという強いプレッシャーがあるとされる.このような脅威に駆動されて研究を行う実体があるなら,それは非常によくないと考えられる.何より楽しくないし,研究不正やQRPsとも関連する.
  • そしてどの分野にも「とにかく論文を出しまくる人」が存在する.このような「論文マニア」の存在には,一体どのようにして実現しているのか,ギフト・オーサーシップ(研究に関与していないのに著者として名を連ねること)を利用しているのではないのか,このような人をどう評価すればいいのかということが注目される問題として浮上する.

 
ここから論文とはどのようにして書かれるのかが解説され,著者が感じている様々な問題が取り上げられている.
<論文の書き方>

  • 現在原著論文*7は序論,方法,結果,考察と並べるIMRAD方式で書かれることが多い.
  • このIMRAD方式論文をどう書くかという実践的な問題は一昔前までは千尋の谷のライオン的教育*8しかなかった.これは一部の研究者の実力を大きく伸ばすが,落ちこぼれも多く生んでしまう.最近は論文の書き方本が出版され,大学でもアカデミック・ライティングの授業もあり,システマティック・トレーニングも可能になっている.後者を推し進めた方がいいだろう.
  • 意外と重要なのが,図表のクオリティ,カバーレターだ.これらについてもシステマティック・トレーニングの機会が望まれる.

 
<査読>

  • 業績として評価されるのは「査読つき論文」だ.しかし実際に行われた査読がどのようなものだったかが問われることはほとんどない.私はこれを「査読神授」と呼んでいる.
  • かつては私も査読を論破合戦のように捉えていたが,経験を積み少しづつイメージが変わってきた.1つには教育的な意義のある査読もあるということがある(経験談が語られている).そして査読の大部分は説得作業のように感じるようになった.うまくリプライして査読者の心情を巻き込んでいく方が有益だ.(ここでおかしな編集行為;QEPsの問題にも触れている)

 
<査読システムの問題点:再現性問題とのかかわり>

  • 査読を受けるのは煩わしいが,それがないと学術通貨とならない.だから査読もハックされる.
  • まず査読偽装がある.自分の査読を自分に回す(エディターに示唆する査読者のメールアカウントを自分の別アカウントにしておく),劇場型査読偽装(自分のグループにいる研究者をその利益相反を知られないようにエディターに示唆する)などの手口がある.これらはエディターが査読者を探すの苦労しているという背景から可能になっている.
  • 次にまともな査読を行わないような捕食学術誌の利用がある.捕食学術誌の定義や判定には曖昧で難しい問題があるが*9,ブラックリストや判定サイトがあり,真のヤバい捕食誌たちはばれ始めている.
  • これに対して捕食誌側には現存する学術誌へのなりすまし戦略をとるものもある.雑誌名やウェブサイトの見た目をコピーし,SEO対策まで行い,間違って投稿された論文を査読スキップして掲載し,掲載料を取る.まさに学術出版のフィッシング詐欺だ.

 
<ギフト・オーサーシップ>

  • 特に貢献していなくとも著者として連名してもらうという方法もある.これは特殊なハイクラスの人々限定の技になる.この場合当該論文に捏造やら改竄などの不正があれば巻き添えを食らうこともある(毒杯と呼ばれる).
  • 誰にでもできる技としてオーサーシップ売買がある*10

 
<出版の未来>

  • このように原稿の論文システムにはいろいろな課題がある.これに対していくつもの取り組みがある.私は次の3つに注目している.
  • 1つ目は「F1000Research」誌の「オープン査読」への取り組みだ.そこでは「著者と査読者の身元公開」「著者と査読者の自由な会話」「査読前原稿の公開」「最終原稿への自由なコメント」「査読とプラットフォームの分離」が実現されている*11
  • 2つ目は「eLife」誌の「リジェクトしません」宣言だ.まず査読に回すかどうかの判断をし,一旦査読に回した論文はリジェクトせず「査読済みプレプリント」として公開される(査読処理には費用を請求される).このプレプリントが論文として業績カウントされるのかは不明だし,そもそもブランドが弱体化するのではという懸念やエディターの権限が強くなりすぎるのではという懸念も表明され,まだ揉めているようだ.
  • 3つ目は「Peer Community in Registered Reports(PCI RR)」の「プレプリントに査読を行うコミュニティ」という取り組みだ.これはプレプリントサーバーにあげられた原稿を(レジレポの枠組みを用いて)このコミュニティに査読依頼し,アクセプトの判定が出れば,そこと連携した雑誌に推薦してもらえる(雑誌側の査読なしで掲載される)という仕組みだ.

 

  • さらに私たちは「三位一体査読」を考えた.それはレジレポの第一査読の際に倫理審査と研究費審査もやってしまおうというものだ.(この3つのために現状いかに研究者が重複した内容の事務作業を強いられているかが強調されている)
  • 別のアイデアとしては「マイクロパブリッシング」がある.これは序論,方法,結果,考察のうち,方法と結果だけ報告とか,それぞれ別の著者で書くとかの部分的出版のことだ.
  • 今後は論文執筆へのAIの関与という問題もある.すでにDeepLなどのツールは英文校正において有用だ.ChatGPTのようなAIには将来的に様々な利用可能性があるだろう*12

 

第7章 評価というなの病魔

 
そして第7章では研究者の「評価」の問題が取り上げられる.組織内での人事評価はどのような仕組みでも必ずハックされる.それはハックする動機が非常に強い(成功した時の報酬が非常に大きい)からだ.そしてこれはもちろん研究者評価にも当てはまり,そもそもの再現性問題の根幹にある要因になる.

  • これまで議論してきた,各種チート,プレレジへのためらい,追試が評価されないこと,新しい出版システムに消極的なこと,再現性の問題を気にしない態度などは,すべて既存のインセンティブ構造(有力雑誌への査読つき論文の数が高く評価される)に最適化しようとしたゆえの反応だ.
  • 論文の数にこだわる行動を改めさせるために,「スローサイエンス」の勧めや年間発表できる論文数の制限の提案などもあるが,根幹にある評価システムを変えない限り,実現性は乏しいだろう.
  • 別の評価項目に学会等からの受賞歴もある.これには多重授賞,捕食的授賞(金を払えば賞がとれる)の問題がある.学術コミュニティは「賞とは何か」について改めて議論すべきだろう.
  • 日本の研究者の採用においてはオールラウンダーが高く評価される傾向がある.これはとがった人が職を得られないことにつながっており,全体として大きな損失になっているのではないか.分業が科学的生産力に及ぼす影響を検討すべきだろう.
  • また日本社会での研究者に対する一般的評価はかなり歪んでいる*13.そこにも目を向ける必要があるだろう.
  • アンケートによると一般人が心理学に求めているのは「対人場面での対応」「他者の気持ちを見破る」「心理操作」のような事柄であり,心理学はこれらをほとんど研究していない.これは(1)この需要の多い方を研究しなくていいのか(2)「心理学」は一般からはかなり誤解されている*14という問題があることを示している.心理学的には誤情報の影響はデバンキング(訂正)やプレバンキング(事前に正しい情報を与える)で減少することがわかっている.プレバンキングとしては高校等の部活に「心理学部」を設置することが有効ではないか.私は現在高校への出前授業に力を入れている.

 

第8章 心理学の再建可能性

 
最後に心理学の将来が語られる.

  • 再現性問題もいずれ徐々に人々の記憶から消えていくだろう.そのパターンは(1)問題解決(2)解決を断念(3)心理学が今と別のものになる,のどれかだ.
  • (1)が望ましいが,これには懐疑論もある.研究者の自由度,あるいは仕様空間は極めて大きい.その仕様空間の極く一部でいくら実験し追試しても理論評価への影響は限定的であり,再現できない理由も判明しない.
  • これに対して「メタスタディ」(マイクロ実験を多数行いメタアナリシスを行う),さらにそれに理論の比較も付け加えた「統合的デザイン」が提案されているが,限界がある.
  • このため(2)のような諦めの空気も出ている.当初は現状を打開しようと努力してきたが,燃え尽きてacadexitする人が続出している.その背景には心理学には再現性問題ではなく*15,一般可能性の危機,測定の危機,検証の危機,推論の危機,規範性の危機などの問題が揃っているということがある.しかし私は遊撃して各個撃破していく道をとりたい.様々な課題は乗り越えるために存在していて,その先にパワーアップしたハイパー心理学が待っていると思っている.

 
以上が本書の内容になる.心理学者にとってはまことに深刻な再現性問題について軽やかに切り込んでいく著者の知的格闘がまず楽しいし,この問題がまさに「悪魔は細部に宿る」厄介なものであることをよく伝えていると思う.本書では問題を「心理学の再現性問題」としているが,この問題は社会科学や生態学などのやや限られたデータセットで仮説検証型の実験を行う分野で多かれ少なかれ共通していると思われ,広い分野の研究者にとって他人事ではないだろう.多くの人にとって参考になる内容が含まれていると思う.
著者も本書で認めている通り,状況はどんどん動いており,本書の内容はあくまで再現性問題についての2023年時点でのスナップショットということになるが,そう割り切った覚悟が本書の記述の活きのよさにつながっているのだろう.というわけで本書については,興味深い知的刺激本であるとともに,一部賞味期限の短い内容も含まれている本として,まず手に取り,できるだけ早く読むことをお勧めしておきたい.
 
 
心理学の再現性問題については当ブログでも何回か取り扱っている.
 
shorebird.hatenablog.com
 
shorebird.hatenablog.com
 
平石界による2022時点での詳細な報告
researchmap.jp
 

*1:これは研究における新奇性の極端な追求や,勝者総取りの「論文かけっこ競争」への疑問を感じ始めたきっかけとなったそうだ

*2:スマホゲームでアプリのインストール,アンインストールを繰り返して当たりがでるまでガチャを回す手法がリセットマラソンと呼ばれており,そこからの命名だそうだ.古くから問題視されているQRPであり,いまのところ防止不能な強力なチェリーピッキングになる

*3:追試には先行研究を否定してインパクトを高めたいという動機がある場合があり,その場合には逆方向のQRPsの可能性があるので,追試の場合にもプレレジは望ましいと解説されている

*4:もちろん超能力は再現できなかった

*5:その他の問題としてプロジェクトをリードする研究者に過剰な負担が発生しがち,長期間になりがち,悪意ある参加者に荒らされるリスクなどの問題が指摘されている

*6:データ捏造しても論文にしていなければセーフなのかという問題にも触れている

*7:論文のタイプとして原著,短報,総説,展望,意見,資料,コメンタリなどがあるとされることが説明されている.原著論文とは何かという定義も実は分野により微妙に違っていて奥深いそうだ

*8:「とにかくたくさん論文を読んでスキルを盗め,書いたら持ってこい」と指示し,いざ原稿が来ると「意味不明,やり直し」とだけ書いて突き返すことを繰り返す方式

*9:捕食学術誌の研究として,実際に捕食学術誌とされる雑誌に「捕食学術誌に掲載されてしまった論文を守る方法」という論文を投稿した経緯が語られている.その学術誌では普通の査読が行われたそうだ.

*10:そのためのサイトがあり,執筆時点で心理学論文の筆頭著者枠は900〜1650ドルで販売されているそうだ

*11:オープン査読にはさらに「査読への自由な参加」という要素もあるとされる

*12:Science誌が2023年1月にAI生成テキストや画像の使用を一律に「剽窃」として禁止するポリシーを発表し,それでは英文校正にも使えなくなるという問題を指摘され(著者もそのような意見論文を書いたそうだ),3月にトーンダウンした経緯も説明されている

*13:個人崇拝的になりがち,特にノーベル賞が過剰に評価される,一旦有名になった研究者に対しては専門外の意見もありがたがるなどが指摘されている

*14:これに大きく貢献しているのは大量に存在するポップ・サイコロジー系の書籍やサイトだろうと指摘されている

*15:再現性問題は実は「四天王の中で最弱」だったと表現されている