2018-06-25

東大文学部の社会心理研究室では「新・社会心理学コロキウム」として国内外で活躍する研究者を招聘したコロキウムを本郷で開催している．先月25日開催コロキウムには数理生物学者の大槻久が登場するということで参加してきた．演題は「Can Evolution explain morals?：進化はモラルを説明できるか」

縁者紹介では「協力する種」の訳者解説にも触れていた．あの解説はあの本の問題点をきちんと読者に開示していて確かに見事だった．

進化はモラルを説明できるか　大槻久

これまでヒトの協力についてずっと研究してきた．モラルの定義は分野によって考え方が違うが，それに関連する問題をモデルを組み立てて調べてきた．
特に興味があるのは「間接互恵性」の説明だ．（ここであまり進化的な議論になれていない参加者のために間接互恵性の基本的な説明がなされる）
直接互恵性はヘルプ行動（ここではコストがかかることが前提になる）をされた個体がお返しをするもので，一部は動物にもあるとされていて，ヒトには間違いなくある．
これにツイストが入っているのが間接互恵性だ．AがBにヘルプをするだけでは，そのコストを回収できずに進化的には淘汰されてしまう．間接互恵性はヘルプ行動が第三者のCに伝わってCからAに対してヘルプがなされてこれでコストを回収するものだ．
これは考えてみれば私たちが普段近所づきあいでよく意識して行動していることだ．どぶさらいに参加し，玄関先を掃除することによって近所での評判が良くなり，いろいろなメリットが得られる．このように日常的によく見られる現象であり，進化的にも重要だったと考えられる．
直接互恵性は自分の経験に頼るが，間接互恵性は社会的情報（評判，ゴシップなど）が重要になり，言語進化のあと重要になったと考えられる．

間接互恵性のアイデアを最初に提唱したのはリチャード・アレキサンダーだ．
間接互恵性メカニズムがヒトにおいても働いていることを示したリサーチにはいろいろある．
まず日常会話の2/3以上はそこにいない人の噂話であるというリサーチがある．
また「目の効果」を示したリサーチもある（当初のベイトソン2006のリサーチが詳しく紹介される）また日本人研究者のリサーチでは，実験に使うPCのデスクトップに目のイラストをおいているかどうかで被験者の選択が変わってくるものを示したものがある（三船2011）
ヒトは噂話が好きで自分がその対象になっているかどうかを気にするのだ．

こういうことは人々は直感的によくわかっている．そのいい例はオセロの一節にも見られる

Reputation, reputation, reputation!
O, I have lost my reputation!
I have lost the immortal part of myself, and what remains is bestial. (2.3.281-284)

しかしこれを理論的に考えるにはいろいろ説明しなければならないことがある．そのメカニズムを考えるとそれがそんなに簡単にうまくいくのかが問題になる．
例えばAがBにヘルプしてCからヘルプされる保証があるのかが問題になる．CからのヘルプがないとAは進化的には損なのだ（進化できない）．
間接互恵性が進化的に安定しているかどうかについては次の3点が問題になる．

なぜAはCからのヘルプを期待できるのか
なぜCはAをヘルプするのか．なぜ評判のいい人だけをヘルプするのか．
チーター（ヘルプは受けても自分からヘルプしない）はシステムからどう排除されるのか．

これらを説明するためにはロジックベースが必要で，これを理論モデルにして検討することになる．
最初の基本的モデルは1998年のノヴァクとシグムンドのものだ．
このモデルは以下のような特徴を持つ．評判はG(Good)とB(Bad)の2値，評判は一意に決まり全員がそれを知る．ドナーとレシピエント役割を持ちマッチングはランダム．協力（C）はドナーにcのコストを賦課しレシピアントにbのメリットを与える（b>c）非協力（D）はどちらにも利得0になる．この利得に基づいて進化ゲームを行う（利得の高い戦略が次世代で頻度を増やす．遺伝的子孫とも文化的伝達とも解釈可能）．
評判は行動に影響を与え，行動は評判に影響を与える．
評判→行動はプレーヤーの行動戦略になり，以下の4種類になる．（DISCが間接互恵性を示す戦略ということになる）

戦略＼相手の評判	G	B
all C	C	C
allD	D	D
DISC	C	D
Paradoxical	D	C

行動→評判ルールは前回CならG, 前回DならB

これでシミュレーションしたノヴァクとシグムンドの結果は以下のようになった．
allD, allC, DISCの3戦略でシミュレートすると，初期頻度平面においてallDに収束する部分とallCとDISCの混合になる領域に分かれた．しかしこれにノイズを加えると最終的にすべてallDに引き寄せられる．

片方で人がイメージスコアリングを本当に使っているかも実証的に調べられた．ウェデキンデとミリンスキー（2000）によると実際にそういう行動を行うようだ．

このノヴァクモデルによる協力解の問題点はエラーに弱いことの他に「allCがDISCに侵入してしまうこと」がある．
特に集団にB評判のメンバーがいるとそれに対してDを行ったDISCはB評判になってしまい，B評判が連鎖してしまう．（ここで大槻は解説をしなかったが，集団全体がG評判であってもDISC戦略に認知コストなどがわずかにでもかかるとallCがDISCより有利になり，allCとDISCの混合集団は最終的にallDに侵入される領域に誘因されて互恵性が崩壊するという問題もあるだろう）
ではどのような評判ルールなら協力が保たれるのか，ここからは私のリサーチになる．

まず自分の評判，相手の評判を区別してそれぞれのCDの行動に対して評判形成ルール（社会規範）が決まるという前提を置いた．ルールは全部で256通りあることになる．（直下の表のルールはノヴァクたちのイメージスコアリングの例，なお元表では行動の結果定まる評判もGBで表示されているが，ここではわかりやすいように○×で表示する，以下同じ）

ドナーの行動＼評判（ドナー，レシピアント）	GG	GB	BG	BB
C	〇	〇	〇	〇
D	×	×	×	×

戦略も自分と相手の評判によってそれぞれ変えられるとした．戦略は16通りになる．（直下の表の戦略はノヴァクのDISC）

戦略＼評判（ドナー，レシピアント）	GG	GB	BG	BB
DISC	C	D	C	D

で，この組合せの中でどの規範でどの戦略がESSとなるかをシミュレーションで調べた．
結果は以下の通り

allDは常にESSだった．（これはある意味当然）
協力戦略がESSになりうる社会規範は8通りしか亡いことがわかった．その社会規範とそこでESSになる協力が可能な戦略は以下の通り

ドナーの行動＼評判（ドナー，レシピアント）	GG	GB	BG	BB
C	〇	＊	〇	＊
D	×	〇	×	＊

（＊はどちらもふくまれる．その組合せによって2^3=8通り）

戦略＼評判（ドナー，レシピアント）	GG	GB	BG	BB
DISC	C	D	C	C/D

（最後のC/Dは社会規範によって異なる）

これを見るとまず相手がG評判のときには相手がC行動ならC，D行動ならDと対応しなければならない（これはある意味直感的に当たり前）．そして自分がGで相手がBでD行動のときはDと対応しなければならないことがわかる．後者を平たくいうと現在自分がGのときには相手がBで前回裏切っていれば，自分が裏切っても評判はGで保たれる（これに対して協力してしまうとBに落ちるかどうかは協力進化のための必要条件ではない）ということだ．これで悪評判の連鎖から逃れられる．

ではヒトはこの二次情報（ある人のある行為を評価する際にその相手の評判は良かったか悪かったか）を使っているのだろうか．いくつかリサーチがなされていて，結果は分かれている．ミリンスキ（2000）は二次情報を使っていないという結果を示した（これには条件設定が複雑すぎるという批判がある）．しかしボルトン（2005）は二次情報が使えると協力率が高まるという結果，スワクマン（2016）は人々は二次情報を入手しようとすること（コストを払っても相手の二次情報を見ようとする）を示している．

この8つの社会規範を私はリーディングエイトと読んでいる．これらの規範の元では協力がESSになり得る．では進化はこのどの社会規範を選ぶのだろうか．ここからは私のリサーチを離れてほかのリサーチの紹介になる．
私のリサーチの前提は，すべてのプレーヤーが同じ社会規範に従っていることだ．ではこれがばらばらだとどの社会規範が選ばれるのだろうかが問題になる．
これに関するリサーチには2つの流れがある．グループ淘汰的に調べるものと個体淘汰的に調べるものだ．

まずグループ淘汰的モデル（Pacheco 2016）を説明する．
これは全集団の中にサブグループを作ってその中では皆同じ社会規範を持っているとして，通常はサブグループ内で相互作用しているが，時にサブグループ間で戦争が生じるということを想定している．つまりサブグループ内で最も生産性（全体利得）の高いもの（協力率が最も高いもの）が勝つことになる．
これをシミュレートすると最も勝つのはStern Judgingと呼ばれる戦略であることがわかった．その評判ルールは以下のようになる．（これは経済学者の神取道宏さんが数理生物学とは独立に見いだした戦略で私はこれをKandoriと呼ぶことを提唱している．）この戦略は自分の評判をGに保つにはただ1つの正解を常に選ばなければならないという厳しいものだ．（なのでSternと呼ばれる）

ドナーの行動＼評判（ドナー，レシピアント）	GG	GB	BG	BB
C	〇	×	〇	×
D	×	〇	×	〇

次は個体淘汰モデル（内田 et al．2018）
これは集団の中にいろいろな規範を持つ個人がいて相互作用をするモデル．この場合にはある個人の評判GBはそれを判断する個人の規範ごとに異なるので非常に複雑になる．
これもシミュレーションの結果，Stern Judgingが最もサクセスフルという結果になっている．

どのような規範の下で協力が進化しうるかを調べるとリーディング8が抽出され，その中でどれが進化的に強いかを見ると曖昧さのない厳しいStern Judgingになるということになる．

先ほどこのモデルは遺伝でも文化でもどちらにでも解釈できると説明した．また最近遺伝と文化の共進化にも注目が集まっている．では実際にヒトの間接互恵性の進化は遺伝と文化とどちらだと解釈するのか．
それにはおそらく両方の側面があるのだろうと思っている．ゴシップ好きとか目の効果とかは遺伝的な影響が大きそうだ．片方で社会規範には文化的な要素が強いだろう．
現在残ったBig Questionsをまとめてみると以下のようになる．

社会規範においては遺伝的基盤と文化的基盤はそれぞれどの程度あるのか
我々の実際の社会規範は理論が予測したものと整合的か．もしそうでないならそれはなぜか．
異なる社会間の社会規範の多様性はどこから来ているのか．今後社会がボーダーレスになったときに規範が衝突したり融合したりすることを見据えると，この多様性の理解は重要だろう．

後半は最新のリサーチを紹介しながらのトークで大変興味深かった．

質疑応答

Q：個人の（社会的立場などの）強弱はモデルには入れているのか．自分や相手の立場によって戦略を可変にするというのはありうるのではないか

A：お話ししたモデルはすべて立場的には均一という前提になっている．しかしそういう拡張は可能だし，個人個人で持っている資源に差があって，利他行為をしたくともできないというような場合に評判が下がるというのはどうなのかという問題もある．そのあたりは今後明らかにしていきたいと思っている．

Q：文化と遺伝はどう区別するのか

A：理論的には区別がつかない．モデルの解像度がその部分についてはないということだ．だからどちらにでも解釈できる．これは理論というより実証的な問題だろうと考えている．この理論が正しいとするとリーディング8で固定されている5つのスロットは遺伝で決まっていても文化で決まっていてもいいことになる．何らかの遺伝的基盤が見つかると面白いとは思っている．

Q：文化というときは何のことをいっているのか．先ほどの規範進化のストーリーはグループ淘汰モデルでも個体淘汰モデルでもKandoriがESSになる．しかしKandoriは厳しすぎるという問題がある．先ほどの個体淘汰モデルでは対戦はランダムにマッチングさせていた．しかし実際には規範には社会性や地域性がありネットワーク効果が大きいだろう．そのときには誰とつきあうかという文化が問題になるかも知れない．その場合にはこの文化は規範というよりネットワーク構造の問題になるように思うがどうか．

A：ここでは純粋に規範の伝達のことを念頭においている．

Q：モデルの複雑性の程度はどう決めるのか．解析可能性やシミュレーションしかできないということは考えるのか．

A：私は基本的に「単純さを良しとする学派」に属している．だからモデルは足るべく単純にしたい．先ほど個体差を考慮していないというのもそういう部分だ．しかしモデルをどこまで複雑にするかは何が知りたいかの性質によると思っている．今回のモデルでは規範だけでも非常に複雑で，さらにパラメータを増やすと結果の解釈がよくわからない（結果がパラメータ依存）ということになりかねない．解析可能かシミュレーションしかできないかということよりも出てくる結果が人にわかりやすいものになることが重要だと思っている．

Q：先ほど文化による規範のバリエーションという話が出たが，順位制と関連するか．上の相手にはこう行動するがしたには別の行動をするなど．

A：そういう個人のバリエーションではなく，規範の中身，例えばある行為について善悪どちらの判断になるかが文化によって異なるという部分の話だ．思いついた話でいうと，例えばチームスポーツで大差で勝っているときに日本の高校野球だと最後まで全力で戦うのが良しとされるが，アメリカでそれをやると侮辱したということで乱闘になる．相手によって対応を変えるというのは文化のバリエーションではなく，個人の中の戦略の複雑さということになる．

Q：文化によるバリエーションの話だが，先ほどのストーリーだとグループ淘汰でも個人淘汰でもKandoriが勝つのだからバリエーションにならないのではないのか

A：Kandoriが勝つというシミュレーションは，正確にいうと吸引域が広いという話だ．別の規範も狭い範囲では吸引域を持つ．このような狭い部分でローカルなネットワークを持てばこれは残りうる．そういう意味でバリエーションが生じるのは可能になる．さらにこのシミュレーションにはいろいろな要素が捨象されている部分がある．例えばノイズの存在だ．ノイズがあると厳しいKandoriのもとでは正しい行動をしようとしてもすぐ評判が悪化する．一般的には厳しいルールはノイズに弱いのだ．現実条件をよく考慮してモデルの解釈には注意しなければならないということだ．

Q：予測と現実とでは違いがあるのか

A：高次の情報をどう扱うかは焦点になっている．まず評判がBadなものへの非協力がGoodと評価される部分についてはコンセンサスがある．それを超えると複雑になる．例えば「非協力の人に協力した人に非協力した人」をどう扱うかなど．高次の情報を入れ込むと理論的にはうまく回るが直観的には判断できなくなってくる．どこかにトレードオフがあるのだろう．別の問題としては実験室のモニター越しの意思決定とリアルな意思決定の差という問題もある．
またリーディング8で分かれている「評判の悪い人への協力」は実証研究でもいろいろ調べられているがはっきりとした結果が出ていない．

Q：このモデルでは評判がシェアされることになっているが，これはグループサイズに効いてくるのではないか．実証研究ではどうなっているのか．どのぐらいのサイズで進化したと考えているのか．

A：まずモデルでは全員が評判を知っていることが前提になっている．で，実証の場合，どのぐらいの集団か，ウソが混じる可能性を考慮するか，本人が評判に介入できるかなどが問題になる，これは一概には言えないところ．全員が同じ評判を共有するのは3桁だと厳しいのではないかと思う．この問題を定量的に評価した研究例は知らない．間接互恵のモデルは評判がずれるととたんにうまくいかなくなる．2次情報を使っているとどんどん間違いが連鎖するからだ．すると評判自体がランダムになって意味を持たなくなる．だから何らかの担保が必要なのだ．ゴシップにはそういう機能があるのだろう．それでもそれで均一にできるサイズを超えるとうまくいかなくなるだろう．

Q：2次情報を得ると生理的反応は出るのだろうか

A：ちょっとわからない．認知的なものではないかと思う．

このあたりで時間が来て終了となった．いろいろな質問がでて，個人差とそれに伴う条件付き戦略への拡張，文化的なバリエーションの問題，高次情報の取り扱い，情報のノイズと厳しい規範との関連など深い応答が楽しめた．