心理学評論特集「心理学の再現可能性：我々はどこから来たのか　我々は何者か　我々はどこへ行くのか」

昨年，Science誌に，心理学実験の研究論文について重大な疑義を投げかける論文「Estimating the reproducibility of psychological science」が掲載された．これは心理学者にとってはまさに衝撃的な内容だった．

http://science.sciencemag.org/content/349/6251/aac4716

Estimating the reproducibility of psychological science　Open Science Collaboration

アブストはおおむね以下のような内容だ．

＜導入＞

再現性は科学の決定的な特徴だ．しかし最近のリサーチでそれがどこまでその特徴とできるのかは知られていない．科学的な主張は現著者の地位や権威によって信頼性を得るべきではない．それは支持証拠の再現性によるべきだ．
しかし立派なリサーチであってもランダムあるいはシステマティックなエラーにより再現できない実証的な発見を含んでいるかもしれない

＜基本的な理由＞

再現性についてはその比率や予測性について関心が向けられている．しかしエビデンスは少ない．
潜在的に問題になり得る実践には，選択的レポート，選択的分析，結果を得るための必要/十分条件を不十分にしか詰めないことなどがある．
直接追試は，前回と同じ結果を得るための十分条件を再構築し，新しいデータで再現を試みることだ．
私たちは心理学の再現性に最初の推測値を得るために大規模でコラボレイティブな追試を行った．

＜結果＞

（ハイランクとされる）3つの心理学雑誌に掲載された100実験の追試を行い相関分析を行った．
再現の成功については単一の基準はない．ここでは有意性，p値，効果量，追試チームの主観的評価，効果量のメタ分析を用いた．
再現された効果量はオリジナルの約半分だった．実験結果が有意である比率は1/3となった．

	平均効果量	同標準偏差	有意（p<0.05）の比率
オリジナル	0.403	0.188	97%
追試	0.197	0.257	36%

追試の効果量の95％信頼区間にオリジナルの効果量が含まれる割合は47%だった．
主観的な評価で追試が成功したと評価された割合は39%だった．
オリジナルな結果にバイアスがないと仮定して，追試のデータを加えて再分析すると，有意である比率は68%に低下した．
相関分析によると，追試の成功は，オリジナルや追試のチームの特徴よりも，オリジナルの効果量の強さによってより良く予測できることを示唆している．

＜結論＞

追試成功を十分予測する単一のインディケータはない．ここで示した5つのインディケータも再現性の評価の唯一の方法ではない．しかしながら，これらの結果は明瞭な結論を示している．
原著者のマテリアルを使い，方法的信頼性についての事前のレビューを行い，効果量の測定について強い統計的な方法を用いたにもかかわらず，多くの追試は，オリジナルな主張に対して弱い証拠しかもたらさなかった．
さらに相関分析の証拠は，オリジナルな証拠の強さ（p値など）が，チームの特徴よりも追試の成功をより予測することを示唆している．
個々の科学者は追試よりも新規な発見を行うようにインセンティブを持つので，再現性はあまり理解されていない．イノベーションは発見のエンジンであり，生産的で効果的な科学的な営みにとって重要だ．しかしイノベーティブなアイデアはすぐ陳腐化する．
査読者やエディターは，既に出版された結果についての新しいテストを非独創的として下に見るかもしれない．しかし「われわれは既にそれを知っている」という主張は，科学的証拠の不確かさを誤って捉えているのだ．
イノベーションはある因果のパスの可能性を示し，追試がそのパスはもっともらしいことを示す．進歩はその両者に負っているのだ．追試は成功すれば発見の確実性を高め，失敗すればイノベーションを推進する．
本プロジェクトは心理学リサーチの多くの発見についての累積的なエビデンスを供給した．そして私たちが知っていると思い込んでいることについてそれを確実にするためになおするべきことが多いことを示唆している．

アブストは抑えて表現しているが，追試の成功がわずかに1/3から1/2しかないというのは衝撃的だ．これを普通に解釈すれば，ジャーナルで主張されている心理学的知見の半分以上については主張される効果は疑わしいと扱った方がいいということになる．リサーチャーにとっては，自分たちのやってきたことの信頼性が疑われているということになるし，実務的にも先行リサーチが正しいとしてその上に知見を求めるようなことも多いだろうから，土台の半分はウソかもしれないといわれてはたまったものではないだろう．

当然のことながら以上のような経緯を日本の心理学者たちも重く受け止めている．そして雑誌「心理学評論」ではこれについての特集「心理学の再現可能性：我々はどこから来たのか　我々は何者か　我々はどこへ行くのか」が組まれた．そしてその特集に寄稿された巻頭言，論文9本，コメント論文7本がWeb上に公開されている．
http://team1mile.com/sjpr59-1/
これらは，科学のあり方，そして統計的エビデンスに関心のある人すべてにとって読む価値がある．

「心理学の再現可能性：我々はどこから来たのか　我々は何者か　我々はどこへ行くのか」

内容について簡単に紹介したい．

巻頭言

上記Science誌の論文前後の状況がさらに説明されている．

2015年の初頭に出されたBasic and Applied Social Psychology誌は，そのエディトリアル記事で，今後一切統計的検定(null hypothesis significance testing procedure)に関する記載を行わないと宣言した．
アメリカ統計学会(ASA)が，p値に関する見解を公表．http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108
オキシトシンの経鼻投与研究（スプレーを与えると利他的に振る舞う傾向が強まるなどのリサーチ）は，偽陽性の蓄積に過ぎないと主張する論文が話題になっている．https://www.ncbi.nlm.nih.gov/pubmed/26049207
社会心理学領域では「超能力」を示す実験的なエビデンスがあるという論文（https://www.ncbi.nlm.nih.gov/pubmed/21280961）が出されたり，社会的プライミング効果について論争（http://www.nature.com/news/replication-studies-bad-copy-1.10634）が生じている．

STAP細胞問題のようなあからさまな捏造は別にしても，問題のある研究実践（QRPs（Questionable Research Practices）：p-hacking，HARKingなど）がごく身近に生じうることは改めて認識されるようになっていると思われる．
以上を踏まえ，再現可能性，統計の問題，QRPsなどの相互に密接に関連するこれらの問題についての現状の認識と展望について忌憚のない議論を進めるべく本特集を企画した．

心理学における再現可能性危機：問題の構造，現状と解決策　池田功毅・平石界

総説として問題の構造とこれまで提案されている解決策について解説，特に充実しているので詳しく紹介しよう．

＜問題の構造＞

帰無仮説検定においては以下のような問題がある．（なおベイズ統計でも同様な問題は生じうると考えられていると書かれているが，少なくともp-hackingはなくなるので，一部は軽減できそうな気もするところだ）
p-hacking：行った実験の様々な条件や変数のうち一部しか報告しない．データを足しながら何度も分析し，有意差が出たところでデータ収集を止める．様々な共変量で解析し，有意になった組み合わせのみ報告する．
Simmons, Nelson, & Simonsohn(2011)のおこなったp-hackingのシミュレーションによると，第1種の過誤が生じる可能性はαの設定で意図されていた5%を大幅に超えて61%程度まで上がっていた．

このようなQRPsを自覚することは容易ではない．
一つの理由は「心理学理論の弱さ」にある．物理学理論のような「強い理論」では頑健な実験結果による多くの知見が仮説検証の前提となっており，さらに各仮説間に強い相互依存性があり，厳密な予測を事前に立てることが容易だが，心理学においては事前の予測が難しい．
理論の弱さはHARKing（データを見た後で仮説を作り，それを作ったデータ自体を使って検定すること．なお本論文ではHARKingをQRPsとは別の問題として扱っているが，まとめてしまった方がわかりやすいように思う）につながる．また対立仮説が正しい事前確率を押し下げる．

論文には（リサーチャーの審美的判断基準のために）否定的な結果が報告されにくい，受理されにくいという形で出版バイアスがかかる．
一般的に検定力の基準（第2種の過誤を避けるためのパラメータ）には80％が使われる，これにそもそも検定対象になる対立仮説が正しい事前確率があまり大きくないという事情が組み合わさると，偽発見率（false discovery rate: FDR：対立仮説が正しくないにもかかわらず有意差が報告される確率，これが再現可能性においては重要になる*1）は5％をはるかに超えて大きくなる．

＜提案されている解決策＞

問題の誘因構造は典型的な社会的ジレンマに類似している（率先してQRPs をやめると競争上不利になる）ため，（ジャーナルや学会のガイドラインのような形で）各個人に自主的に行動基準を変更することを求めても効果は薄いと考えられる．（いかにも社会心理学者らしい）
事前審査付き事前登録制度：データ取得以前にジャーナルに研究目的，サンプルサイズ，研究デザイン，統計手法を投稿し（タイムスタンプ付きで登録しておき），その時点で査読に入る．そしてこの事前査読にパスしたものは，結果の如何にかかわらず報告を掲載可能とするもの．これにより出版バイアスが大きく減少することが期待できる，またQRPsを行う誘因もなくなる．
直接的な追試を受理する制度の整備（これ自体も事前登録制が望ましい）
現状では自主的に研究デザインをタイムスタンプ付きで事前登録するOpen Science Frameworkが利用可能である．また事前審査付き事前登録制度を持つジャーナルも増加してきている．

認知心理学における再現可能性の認知心理学　山田祐樹

認知心理学者からの寄稿

メタアナリシス分析は認知心理学分野では少ない．つまり現象ごとの再現可能性が十分かどうかを統計的に検討する試み自体があまり行われていない．
ただし時間知覚についてのみメタアナリシスが多い．これは陽性発見追試バイアス（有意差のある研究をより追試しようとするバイアス）のためかもしれない．さらに特定のトピックや特定の雑誌に掲載された研究が追いかけられやすいという偏好追試バイアスもあるのではないか．
リサーチャーとしてはどの先行研究を信頼すればいいかという悩ましい問題がある．特に最近報告されたような現象については悩ましい．研究者コミュニティの情報（噂）もいいが，予測市場を使うのも面白いのではないか．
追試が全くのボランティアになっている，原著者にとっても追試に協力するインセンティブがないというインセンティブの問題も重要．追試が立派な研究として扱われることが望ましい．教育の一環として学生と追試する，第三者機関へ追試の委託をして，それを提供することにより掲載を有利にするなどの方法も考えられる．
統計専門家とのマッチングも有効だと思われる．

発達科学が発達科学であるために：発達研究における再現性と頑健性　森口佑介

発達心理学者からの寄稿
発達心理学は実験対象が赤ちゃんであるために特有の問題があり，再現性の難しいものがあるという問題がまず扱われる．

乳児の実験的研究：新生児模倣は当初「無力な赤ちゃん」像を覆す重要な発見とされ，その上に多くの認知発達理論が積み上げられている．しかしメタ分析では頑健なのは舌出しだけとされた．
さらに現象があっても結果の解釈の問題がある．舌出し模倣も探索行動という代替説がある．
実践的手続きの問題：ピーターソンは3つの研究室に潜入調査を行ない，研究実践の実態把握を行った（Peterson, 2016）これによると「コツ」とされるものに灰色あるいは黒色の工夫が散見される．（手続き上のエラーをなかったことにする，視線計測の2人の独立の評定者に話し合いを許す，事前に決めたサンプル数に達する前に繰り返し統計分析をかける，乳児の膝に抱える養育者にはその視線が乳児に影響を与える可能性があるため目を閉じるように教示するが，実際には目を開けていることも許容するなど）
サンプルの小ささ：メタ分析によるとサンプル数は20程度しかなく，検定力を80％とすると報告される効果量に対して明らかに不足している．これに対しては一部研究者は「ManyBabies プロジェクト：多くの研究室で共同して重要と思われる知見について事前登録し追試する」を提唱している．
長期縦断研究を追試することは難しい．

続いてなにができるかについてメタ分析とサンプルの大きさの確保が検討され，最後に日本の事情として欧米の研究の追試をして再現できなくても，文化差に要因を求めてしまう傾向についてコメントがある．

システム神経科学における再現可能性　鮫島和行

システム神経科学では動物実験が多いのでその場合の追試あるいは再現性の検証が難しいことが解説されている．

追試のコストが大きいこと（動物を用いることによるいろいろな問題），微妙な実験条件の差の可能性があること
追試において，異なる動物，異なるプロトコルが問題になること

そのほか医学，特に治療薬の研究においては利益相反が生じやすいこと，生データや解析プログラムへのアクセスが重要であることがコメントされている．

動物心理学における再現可能性の問題　澤幸祐・栗原彬

鮫島論文に続いて動物実験の場合の難しさがまず取り上げられている．

同一種間では微妙なパラメータやプロトコルの違いが問題になる．（うまく解決できた例も紹介されている）
異種間では種の特性による問題が生じる
統計解析と実験計画：飼育設備による制限，実験動物飼養のガイドライン（不必要な追試の否定）による制限がある．

ではどうすればいいのか

何が知りたいのか．通常は実験事実そのものではなく仮説構成概念．この両者の差をなくすのであれば徹底的な行動主義は一つの立場，徹底すれば再現性は上がるだろう．
しかし言語教示を用いることのできない動物研究においては，結局のところ研究に用いられる課題は刺激性制御で語られるものであり，その意味では行動分析的立場を無視することはできない
結局再現性を損なわないような仮説構成概念をよく吟味するということが必要になるだろう．
この問題は19世紀からあるアネクドータルなリサーチ手法の是非の問題にも関連するだろう．

帰無仮説検定と再現可能性　大久保街亜

統計の立場からの解説．

現代科学において再現可能性の重要性は分野により異なる．惑星や火山などの自然現象をデータとする場合，事実上再現可能性を要求することは不可能になる．
しかし近年様々な分野で再現可能性の低さが問題となっている．心理学もこれに含まれる．
再現可能性に関わる要因のうち出版バイアス，検定力，知識不足，QRPsのそれぞれには，直接的，間接的に心理統計が関わっている

＜帰無仮説検定の問題＞

慣習的なp値で問題を二分すること．これかp-hackingやHARKingというQRPsが横行する原因．
標本サイズも大きな問題になる．標本サイズと有意水準と検定力と効果量は互いに影響を与える．標本サイズが効果量との関係で小さいと再現可能性は下がる．
検定の繰り返しはやってはならないことを研究者なら知っているが，実際の場面ではしばしば軽視されている．分散分析を探索的に用いることも同様．
データ取得途中に検定を繰り返し，結果を見ながらデータ取得を中止することも再現可能性を下げる．この悪しき実践もしばしば行われている．
p値のみに依存した判断を行うと現象を適切に捉えられない．標本数が大きいと非常に効果量が小さいものでも有意になるが意味のないものである可能性がある．
報告されるp値の分布には理論との不一致が観測される．とくに0.05のすぐ下にスパイクがあるのは再現可能性の低いものが数多く報告されていることを示唆している．

＜日本の現状＞

日本でも有意水準と効果量のアンバランス，p値のスパイクが観察されている．

＜問題解決アプローチ＞

頻度主義をとる場合
p値だけでなく，効果量と信頼区間を明示することが望ましい．
例数設計：効果量を予測し，有意水準，検定力を定め，適切な標本数を得るように実験を設計することが重要．設計のやり方にはいくつか手法がある．

ベイズ主義アプローチの採用
計算能力が上がり，事前確率の設定についても客観的な基準が少しずつ整備されつつある状況
標本サイズが大きければ推定は正確になる．帰無仮説を棄却するかどうかという2値判断ではないのでそれに伴う問題はなくなる．
ただし事前確率の客観性の問題は残るし，ベイズファクターを用いる手法においては基準が厳しいので標本サイズが大きいことが要求される．また主流ではなく，統計的な素養を勉強し直す必要がある．

心理尺度構成における再検査信頼性係数の評価―「心理学研究」に掲載された文献のメタ分析から―　小塩真司

心理学で良く用いられるアンケート調査における尺度（scale）の信頼性，再現性についてメタ分析したもの

質問紙調査では尺度が用いられる．これは様々な変数と尺度の相関を探すという探索的用法によく使用されるが，報告のされ方によってはQRPsにつながりうる．
尺度の信頼性と妥当性：尺度によって本来知りたい情報の正確性が維持されているか，そもそも尺度でしか把握できない情報があるならその正確性は確認できるのかという問題もある．

ここで尺度構成のプロセスを説明してから尺度自体の再現性の問題に進む．

尺度自体に再現性があるか：再検査信頼性（時間をあけて再検査して同じ結果になるか）がよく行われている．
ここでは再検査信頼性をしらべた報告をメタ分析した．結果は以下の通り

内的整合性と再検査信頼性に相関なし
再検査信頼係数には大きなばらつき
再検査の間隔とも相関低い
項目数と再検査信頼係数には正の相関
調査対象者数と再検査信頼係数には低い負の相関

再検査相関係数の受け入れ基準には合意がない．

社会心理学における”p-hacking”の実践例　藤島喜嗣・樋口匡貴

社会心理学におけるp-hackingの実例を詳しく解説したもの

再現性にかかる疑義は実験を多用する領域を中心に生じている．
John et al.(2012)は5964名の心理学者にp-hackingを含む研究実践に関わる匿名調査を行った．その結果，意図的非意図的を問わず実践経験比率は高いと報告されている．（50〜60％）

ここで実例が詳しく詳しく取り上げられている．

空間的距離プライミングがカロリー推定に影響するかというリサーチ：多くの食品で調査し，有意差が出る分析を探す
清浄プライミングが道徳判断に影響するかというリサーチ：多くの質問項目から一部を選んで，有意差が出る分析を探す
いずれも直接的追試が失敗しており，事後的なデータ選択，従属変数の取捨選択，生成，実験条件の削除，不要な共変量によるp-hackingがなされていると評価できる．

解決索としては，事前登録制，否定的結果の公表の推奨が提言されている．

心理学のデータと再現可能性　渡邊芳之

これまで取り上げられてきた出版バイアス，標本数・検定力不足，QRPs以外で再現性が制限される場合を考察している．ちょっと視点が変わっていて面白い．

手続きや分析方法に問題がなくても再現性が制限される場合はある：実験の誤り（不正や捏造を含む），プロトコルが公表されずにわからない，潜在変数がある，現象が確率的で生起確率が小さいなどが考えられる．
再現性が小さいこと自体が問題とは限らない．再現性が低くてもその結果がほかの現象や事象と関係しているなら「何か」を捉えている可能性がある．求められる再現性の大きさはデータの外側で理論的に考察されるべき問題になる．

なぜ再現可能性が最近問題にされるようになったか．実は最近まで心理学は追試に熱心ではなかった．それはデータをデモンストレーションとして扱ってきたからだ．
デモンストレーションとしての心理学データの典型例はミルグラムのアイヒマン実験．（条件や状況によっては本当にこんなことが起こるのだと言うことを見せることに重点がある）時代はエビデンスを求める方向だが，バランスも大切だろう．

このあとにコメント論文が並んでいる．小島康生は人間を対象にした場合の観察研究（仮説生成型のリサーチ，現象の解釈）にも意義があることを述べ，松田一希は野生霊長類のフィールド観察研究は行動パターンの記録とそこからの考察というかたちになること，そもそも再現性のあるほどのデータ量になりにくいことをコメントしている．平井啓は臨床リサーチの立場から，効果量とサンプル数の事前決定が特に重要であることを強調し，事前登録制に賛成している．東島仁は現在の文科省のガイドラインからみた再現可能性の問題を整理し，本特集号のような科学コミュニティの中での議論は意義があるとコメントしている．三中と武田と佐倉のコメントは興味深いのでもう少し詳しく紹介しよう．

統計学の現場は一枚岩ではない　三中信宏

今回のアメリカ統計学会の声明は分野の壁を越えて科学コミュニティに反響している．
しかし以前から「誤用」は現場にあふれていた．p-hackingも生態学においては以前から「有意差決戦主義」と呼ばれていた．（三中は「p値バンザイ突撃戦」と呼んでいた．）
実験系はともかく非実験系では再現性よりもきちんと推定できているか真っ当に説明できているかの方が重いだろう．

＜「誤用」の実例＞

農業試験研究：フィッシャー流の実験計画法は今やレガシーになりつつあるが，適切な使用法と誤用の回避を知ることは重要．フィッシャーの要諦は反復，無作為化，局所管理．事後に計画変更してはならないというところ．
しかし擬似反復はよく行われていた．外れ値の除外，多要因実験で高次の交互作用を恣意的に誤差と見做すという荒技，事後的に異なる分散分析を実施（HARKing）など．

＜統計的推論の目標は何か＞

統計分析ソフトのインターフェイスが快適になるほどユーザーはものを考えなくなる．しかし統計ソフトの使い方ではなく，その考え方（例：p値は対立仮説の真実性や証拠や効果量には関係ないこと）を理解することが重要．
さらに根深い問題は統計的推論の認識論的な考察．統計データ解析を単純な「真実を見つける術」と考えるべきではない．
例：ネイマンピアソンの2対立仮説検定は2対立仮説のどちらが正しいかの証拠を与えない．それは帰無仮説を棄却するかどうかという意思決定の問題になる．データを仮説に対する証拠とみて相対的な重み付けを考えるのが尤度主義となる．データから見たときにもっとも良い仮説を選ぶという推論形式はアブダクションと呼ばれる．

実験科学なら仮説の真偽を適切に設計された実験によって白黒をつけられる．その場合には再現可能性が問われることがあり得るが，綿密な実験計画の元に結論は出るだろう．しかし非実験科学では統計的推論をアブダクションとしてのツールとすれば新しい地平が広がる可能性がある．
根本的な問題は「心理学とはどのようなタイプの科学であるか」だ．

再現可能性の問題から始める心理学研究の「バックヤードツアー」　武田美亜

この再現可能性の問題は市民にどう受け取られるか：ネットでは噂や占いと同列の「信頼できないもの」という扱いもある．結局関心は「で，心理学は信頼できるの，どうなの」
この信頼を取り戻すには市民をバックヤードツアーに招待すべきだ．

科学的方法の多元性を擁護する　佐倉統

あらゆる知識は確率的．再現性は重要だがそれだけではない．仮説構成概念もある．
心理学に対し，生命科学でも同じ問題が指摘されているが，あまりHARKingは強調されていない．片方で成果への圧力は生命科学の方が高いだろう．

問題の要因のひとつは科学の駆動原理（科学者のインセンティブ）
金銭的な管理と知的財産権が絡むとより利己的になり，再現性が低くなる．
科学の駆動原理を「科学者が無私の精神を発揮して真理を追究する」ことから，より科学者の利己性を肯定する方向に見る傾向が強まっている．（これは“PLACE”： Proprietary(知識の独占),Local(局所性),Author- itarian(権威主義),Commissioned(権力からの委託),Expert work(専門家主義)という標語になっている）
そして心理学においては，生命科学ほど産業的な応用に左右されてはいないがPLACE的な側面が皆無ではない．
であらば良心や倫理に頼るよりも，外側からの枠管理を行う制度を整備していく必要があるだろう．事前登録はいい試みだが，動機の問題は残る．追試がボランティアになっているのも問題．

方法的多元主義もいいのではないか．再現性の低い実験結果が多数報告されているという状況が，追試で確認されなければ少しずつ消えていくという過程でもいい．追試成功率40％では信頼性不十分という判断は再現可能性に重みを置きすぎているのかもしれない．
結局は「何をどんな枠組みで明らかにしたいのか」ということ．合理性が担保できていれば多元的であっていい．

それぞれ力のこもった論文とコメントであり重大な問題意識が伝わるところだ．私の感想はおおむね以下の通り．

リサーチャーには手持ちのデータを論文にして査読誌に載せたいという強いインセンティブがある．だからデータに対して様々な分析をかけて有意差が出たものを中心に論文を書くということはどうしても生じるだろう．査読誌側も興味深い知見をジャーナルに掲載したいというインセンティブがあるので出版バイアスも不可避だろう．
これに対して読む方としては，ある程度報告を懐疑的に扱うというバイアスを持てばいいだろうと思っていた．元々αを0.05と置くのは単なる慣習なのだから，それが0.10であってもそれほど差し支えがあるわけではない．また標本数が大きいにもかかわらず効果量が小さい報告はあまり意味がないと扱うべきだとも思っていた．
しかし今回報告された追試成功率や様々なアンケート調査や潜入調査によるQRPsの蔓延度合いは，私の想像を量的にはるかに凌駕していて驚かされた．
データ捏造に対してp-hackingがほとんど心理的抵抗なく実践されている実態はことさら衝撃的だ．そして科学コミュニティ内で，データ捏造が発覚したときの扱いと，p-hackingが発覚したときの扱いが大きく異なっているようにみえることは，さらに衝撃的だ．
確かにp-hackingは何か積極的に嘘をつくわけではなく，一部の過程を報告しないだけだから（モラル問題について作為と不作為で大きく扱いを変えるという）生得的な道徳感覚からみて罪悪感を抱きにくいのだろう．しかし冷静に考えて，この2つの行為の（科学に対する毀損という意味での）結果的悪影響にどれだけの差があるだろうか．
そしてこれだけQRPsが蔓延しているということは，ちょうどスポーツ界におけるドーピングと同じで，まさに社会的ジレンマ状況になっているということだろう．これは問題の解決が何か制度的な枠組みがないと困難であるということだ．

またこれは当然心理学だけの問題ではないだろう．（三中の寄稿によると，生態学にも少なくとも質的には同じ問題があったことが明らかだ）
心理学で問題になりやすい理由として「理論の弱さ」が上げられているが，それによってそもそもリサーチが探索的になりやすいということと，仮説が真である事前確率が低いということがあるだろう．またアンケート調査のデータの弱さ（誤差の大きさ，システマティックに偏りやすい性質など）もあるということだろう．
社会科学で統計を使う分野でも同じようなことがあるのではないだろうか．古生物学あたりはどうなのだろうか．

多くの論者が指摘しているように問題の制度的解決には事前登録制の普及が重要だろう．
また今回の問題は，ベイズ統計が今後主流になっていく契機になるかもしれない．勉強しなければ．

*1:これと有意水準の意味はよく混同されるが別の概念だ．p値は帰無仮説が正しいとしたときに，得られたデータがどれほどありそうでないかを示すもので，対立仮説自体の正しさについての数値ではない

Estimating the reproducibility of psychological science Open Science Collaboration

＜導入＞

＜基本的な理由＞

＜結果＞

＜結論＞

「心理学の再現可能性：我々はどこから来たのか 我々は何者か 我々はどこへ行くのか」

巻頭言

心理学における再現可能性危機：問題の構造，現状と解決策 池田功毅・平石界

認知心理学における再現可能性の認知心理学 山田祐樹

発達科学が発達科学であるために：発達研究における再現性と頑健性 森口佑介

システム神経科学における再現可能性 鮫島和行

動物心理学における再現可能性の問題 澤幸祐・栗原彬

帰無仮説検定と再現可能性 大久保街亜

心理尺度構成における再検査信頼性係数の評価―「心理学研究」に掲載された文献のメタ分析から― 小塩真司

社会心理学における”p-hacking”の実践例 藤島喜嗣・樋口匡貴

心理学のデータと再現可能性 渡邊芳之

統計学の現場は一枚岩ではない 三中信宏

再現可能性の問題から始める心理学研究の「バックヤードツアー」 武田美亜

科学的方法の多元性を擁護する 佐倉統