社会の数理セミナー「パブリックとプライベート状況における相互作用の評判効果」

東工大の中丸先生は「社会」に関する数理モデルやシミュレーションモデルを内容とする「社会の数理セミナー」を東工大大岡山キャンパスで不定期に開催しておられる．

https://sites.google.com/site/mayukonakamarulab/home/semina-an-nei/she-huino-shu-lisemina

しばらく間が空いていたが，今回2月22日に久しぶりに開催され，前回血縁者間の進化ゲームの講演された大槻先生が今回は間接互恵の話をするというので，参加してきた．

Reputation effects in public and private interactions　大槻久

間接互恵性のモデルにおいて，相互作用の場がパブリックとプライベートの2状況があって，そこでの行動が評判形成に結びつくかどうかの確率が異なる場合に何が生じるかがテーマになる．（大槻久，巌佐庸，M. Nowakとの共同研究に基づく）

＜イントロダクション＞
イントロが結構丁寧になされる．
間接互恵性の定義がまず解説され，それは評判形成が介在しないと難しいことが説明される．

それは個人にとって周りで生じるすべての相互作用を観察することは難しいからだ．しかしヒトの場合には言語を通して（非常に低い情報伝達コストで）評判情報を得ることが可能だ．そしてそれは理論的にも実証的にも支持されている．
ヒトが実際にゲームを行う上で評判情報を利用していることが実験によって確かめられている．ウェデキングとミリンスキ（2000）の結果によると，ヒトはゲーム理論的には使う必要のない評判情報を用いて自分の手を決定する傾向がある．これらは5〜6歳児において既に見られる（加藤，清水　2013）
また評判は既にレシピアントの情報について知っているドナーの行動にも影響を与える．良い評判を知るとより協力的に，悪い評判を知るとより非協力的になる傾向が報告されている．

ここからモデル化の話になる．

＜ベイシックモデル＞

間接互恵性のベイシックモデルには1998年にノヴァクとシグムントにより提示されたものがある．彼等はドナーからレシピアントにコストcを払ってbのメリットを与えるかどうかを選ぶというドネーションゲームをモデル化した．その際の評判は2値（GoodとBad）だ．（近時この評判を3値にしたりよりグラデーションをつけたりする拡張が行われている．本日は割愛）
このモデルでは戦略として行動規則があり，評判形成メカニズムとして社会規範が設定される．
行動規則は相手の評判ごとにどう行動するかで決められ，GoodとBadのレシピアントにそれぞれ協力する（C）か非協力する（D）かなので（CC）（DD）（CD）（DC）の4通りになる．これらをallC, allD, DISC, pDISCと呼ぶ．この場合DISCが間接互恵性を示す行動規則ということになり，常に裏切るallDに対して勝てるかどうかが問題になる．
社会規範はベイシックモデルでは前回のドナーの時の行動がどうであったかによって再評価され，そのアプデートルールとして記述される．最も単純な規範は前回CならGood，前回DならBadになる．
ノヴァクとシグムンドはこの単純規範下でどのような場合にDISCがallDに対してESSなのかを探索した．彼等の結論は以下の場合にESSだというものだった．ただしqはドナーがレシピアントの評判を知っている確率を表す．（つまり1-qで評判を知らない．ここでノヴァクたちの定式化ではドナーはその瞬間レシピアントの評判を忘れただけで，レシピアントの評判自体は影響を受けず行動によって更新され続けているという前提になっている．またこのときにDISC戦略者はCを選ぶ）

$\frac{b}{c}>\frac{1}{q}$

これは利他行為のコストに対してベネフィットが大きいほど，またドナーが評判にきちんとアクセスできるほど間接互恵性が成立しやすいことを示している．前者は当然予想できることで，また後者は検知力が下がると（知らないときにはCを選ぶので）振る舞いがallCに似てきてallDにつけ込まれやすくなることを示していると解釈できる．

＜戦略的な評判形成＞

しかし実際の評判形成過程はより複雑だろう．相互作用が他者に観察される確立は様々だと思われる．エンゲルマンとフィッシャーバッカーはPublic（他者から観察されて評判形成に使われる）とPrivate（観察されず評判形成に影響しない）の2場面に分けるとどうなるかを調べた．
彼等は評判が0から6の6値という設定で実験した．すると予測通り被験者はPublicでもPrivateでも評判スコアが高いレシピアントにより協力したが，協力水準はPublic状況の方が高かった．彼等はPrivate状況での協力率を純粋な協力，Public状況との差分について戦略的協力と呼んでいる．

＜今回のリサーチ＞

エンゲルマンたちの2状況をモデル化してシミュレーションし，（1）正直な戦略（PublicとPrivateで手を変えない）は進化しうるか，（2）する場合にそのESSになる条件は何か，を調べた．
ここでPrivate状況で他者から観察される確率qをパラメータとして導入する．（Public状況では必ず観察されるとする）これはノヴァクたちのベイシックモデルにおけるqと意味合いが異なっていることに注意が必要だ．彼等のqはドナーが評判にアクセスできるかどうかにかかるもので，アクセスできなくとも評判はアプデートされる．ここでは他者から観察されるかどうかにかかるものとして設定しているので観察されない場合には評判のアプデートも起こらないことになる．
もう一つのパラメータpは状況がPublicである確率だ．（相互作用ごとにPublicかPrivateかがpに基づいて決まる）
行動規則はPublicでGoodとBadにどうするか，PrivateでGoodとBadにどうするかの4つの組み合わせで決まる．ここではallC（CCCC）allD（DDDD）Honest（CDCD）Hypocrite（CDDD）の4戦略を考察する．このHypocriteは見られていないときにはひたすら裏切るという戦略で，正直な戦略（Honest）のESSを脅かす最大のライバルという位置づけになる．
社会規範は2状況，相手の2評判，ドナーの2手ごとにGoodかBadを割り当てるので 2^(2*2*2) の256通りある．
シミュレーションにおいてはこの256通りの社会規範下でそれぞれの戦略のESS条件を調べた．またさらにESSの協力率も調べた．

＜結果＞

まず（p, qのパラメータ平面のどこかでESSとなれる）社会規範を探す．

allD：すべての社会規範でESSとなる．これはある意味自明．

Honest：探索した結果ESSが存在しうる社会規範は9通り．

Hypocrite：同じくESSが存在しうる社会規範はかなり広く48通り

社会規範の表記を以下のようにする．

上段を協力した場合，下段を非協力した場合，左からPublic対Good，Public対Bad，Private対Good，Private
対Badを表すとし，〇はGoodに，×はBadになる，#，##は｛上段〇下段×｝以外の組み合わせ，＊は何でもよいことを表す．

＜HonestのESSが生じうる社会規範＞

〇 # 〇 ##

× # × ##

＜HypocriteのESSが生じうる社会規範＞

〇 # ＊＊

× # ＊＊

次にその社会規範の上でESSとなるp, qのパラメータ条件を求める．ここで $\bar{q}$ はqの重み付け平均値，つまり結局見られている確率を表す．

allD：　すべてのパラメータ下でESSとなる.

Honest：　 $\frac{c}{b}>\frac{\bar{q}}{q}$

Hypocrite：　 $\frac{c}{b}>\frac{\bar{q}}{p}$

例として
社会規範が

〇〇〇〇

× 〇 × 〇

b/c=3
のときのHonestとHypocriteのESS条件をpq平面上に図示すると以下のようになる．（適当に描画しています）
また同じ社会規範においてb/cが1.5より小さくなると図の中央部分にallDしかESSにならない領域が出現するようになり，b/cの値が小さくなるにつれてその領域が大きくなる．

このことからPublicとPrivate状況を想定した場合の間接互恵性の成立については以下の知見が得られたとまとめられる．

qが高い場合には間接互恵性が成立する．これは実質Publicな場面が多くなるからだと説明できる．
（驚いたことに）qが低くても，同時にpも低い場合には間接互恵性が成立する．
後者は何故生じるのだろうか．「pも低い」というのはほとんどの相互作用は誰にも見られない場所で生じているということを意味している．qが低くて誰にも見られない確率が高いのだからPrivateではすべて裏切ればいいように思えるが，逆にこのような状況下ではいったんBadとなった評判をGoodにする機会も非常に限られていて，その貴重さがPrivate状況で協力する戦略的重要性を高めていて，裏切りのメリットを相殺していると解釈できる．（そしてこれがノヴァクたちのベイシックモデルとの大きな違いになる．彼等のモデルではドナーが忘れているときも評判はアプデートされる．だからアプデート機会の希少さは生じないのだ）
この知見については是非実験でどうなるか確かめて欲しいと思っている．

b/cが低くなるとallDしかうまくいかなくなる領域がpq平面の中央部分に現れることについては今のところよい説明を思いつかない．今後の課題だ．

なかなか面白い発表だった．
質疑応答ではPrivate状況で直接裏切られた相手の扱いが検討されていた．このモデルではそれは一切考慮されてなく，Private状況で直接裏切られてもそれをすぐ忘れてしまうということになる．

また考えてみると実社会ではPrivate状況での善行はPublic状況での善行より高く評価される．これは戦略的な売名行為でないからまさに純粋な善意と解釈できるからだろう．（だから慈善行為についてドナーが夢見る最高の状況は，匿名で寄付しておいて，それが本人のあずかり知らないところで世間にばれてしまうことだとされているのだろう．直感的にはよくわかるところだ）何らかの形でこのPrivate状況に置ける善行へのより高い評判形成をモデルに組み込んでみるとどうなるのだろうか．興味は尽きない．

〇	#	＊	＊
×	#	＊	＊

Reputation effects in public and private interactions 大槻久

Reputation effects in public and private interactions　大槻久