肥満は伝染するのか

shorebird2011-02-13
「つながり」の著者クリスタキスとファウラーは,2007年の「The spread of obesity in a large social network over 32 years」という論文において肥満が社会的ネットワークの中で伝染すると主張し,これはマスメディアが大きく取り上げ,全米で大きな話題になった.(私が見た中ではテレビドラマの「ボストンリーガル」で,肥満が伝染するという理由で太った職員を解雇することができるかというトピックがコメディとして取り上げられていた)

広範囲で話題になったこともあり,これには強烈な批判がいくつかなされているようである.特にライオンズによるものは統計的手法に関するものでなかなか手厳しい.またクリスタキスとファウラーからは反論も出されている.とりあえず読んでみたところをまとめておきたい.


N. A. Christakis and J. H. Fowler 2007. The spread of obesity in a large social network over 32 years, N. Engl. J. Med., 357, 370-379


Lyons, R. 2010. The spread of evidence-poor medicine via flawed social-network analysis.
Available at: http://arxiv.org/abs/1007.2876.


Nicholas A. Christakis, James H. Fowler. 2010. Examining Dynamic Social Networks and Human Behavior
Available at: http://jhfowler.ucsd.edu/examining_dynamic_social_networks.pdf


まず原論文「The spread of obesity in a large social network over 32 years」
これはアメリカのフラミンガムハートスタディというデータを使っている.これは数千人以上の被験者の健康について1948年以降継続的に計測しているもので,継続的にコンタクトをつけるために,家族や友人のデータが載せられている.クリスタキスたちはこのうち1971-2003のデータを用いて社会的ネットワークを再構成し,肥満の広がりを調べた.
「友人」のデータは「あなたの最も近い友人の名前を一人教えてください」という形で聞かれた回答という形になっていて,ある人と別の人の関係に方向性がある(AはBを最も近い友人とあげているが,BはA以外の友人をあげているということが生じる)
肥満はBMIが30以上か未満かの2値データとして扱い,ロジスティック回帰の手法を使っている.


彼等は以下を主張している.

  1. 肥満は社会的ネットワーク上でクラスターを作っていて,肥満者がランダムに分布しているのと比べてまとまっている.
  2. この影響はおおむねネットワーク上で3次の隔たりまで及ぶ.(それ以上は及ばない)
  3. 原因としては(1)伝染:直接肥満者が友人に影響を与える(2)同類好み:もともと太った人,太りやすい人が友人になっている(3)交絡要因:他の第三の要因がある,があり得るが,期ずれを含むロジスティック回帰式により分析したところ有意な伝染要因がある.

彼等はabstructにおいて次のような文章を記している.

These clusters did not appear to be solely attributable to the selective formation of social ties among obese persons. A person’s chances of becoming obese increased by 57% (95% confidence interval, 6 to 123) if he or she had a friend who became obese in a given interval.

これを読むと,一瞬,友人が通常状態から肥満になった肥満でなかった人たちのうち57%が自分も通常状態から肥満になる事が発見されたかのような印象を受ける.もちろんよく読むと「肥満になるチャンスが57%上昇する」とあり,信頼区間上限が123%とされているのでそうでないことはわかる,しかし肥満になるチャンスが57%上昇するとはどんな意味なのかはすぐにはよくわからない.とりあえず何かしら大きな影響のような印象がある.ジャーナリストが騒ぐのも無理はない.


これに対しては様々な批判があるようだ.批判は(1)3次の隔たり法則の信憑性,(2)伝染要因と同類好み要因を区別できていないのではないかという2点に集中しているようだ.


まず3次の隔たりについてだが,これはクリスタキスたちがさも重大な法則のように喧伝しているが,考えてみると1次の影響が仮にあるなら,それは影響度合いが累乗して減衰しながらどこまでも続いていくはずで,単にそこで有意水準ではなくなるだけではないかとも思われる.また多くの現象に現れるようなそんなに厳密な法則であるはずがないようにも思われるところだ.
クリスタキスたちは反論ペーパーにおいて,これが厳密な法則でないこと,単に有意水準から落ちる状況を示しているかもしれないことを認めている.しかし彼等は,そこで,計測された影響は累乗状況ではなく単純な減衰ではないともいっている.つまりA→B→Cと影響があるときに仮にBが肥満になっていなくても,Cに影響を与えうることがあり得るようで,そのような効果も含めて3次の隔たりまで影響が観測されるのだと.
これはクリスタキスたちが,ヒトの進化過程における所属集団の大きさと絡めて議論しているところなので,私にとってはちょっと興味深いところだ.
私の印象は以下の通りだ.
3次の隔たりの法則には2種類あって,3次の隔たりまでは直接の何らかのリンクができるというもの(A→B→C→Dとなっているときに何らかの関係がAとDの間に発生する.例:友人の友人から配偶相手を紹介されることがあるが,友人の友人の友人の友人からそのような紹介がされることはほとんどない)と,連鎖的に影響があってその大きさの計測が3次まで見られるものがある.この前者については法則の意味を進化的に考える意味が十分にあるだろう.しかし後者については影響の程度から考えて3次以上のところで有意水準以下に下がることが多いというだけの話ではないかと思われる.そして肥満の問題は後者ではないだろうか.肥満が発現しなくとも影響があるという知見は面白いが,影響を受けた人の肥満確率が上がるという形になっているだけで,非発現影響者も含めて影響は減衰していくだけだろう.


激しく議論されているのは2番目の要因の区別の問題だ
ここでインディアナ大学の数学者ラッセル・ライオンズの批判論文「The spread of evidence-poor medicine via flawed social-network analysis.」を見てみよう.


ライオンズの論文はなかなか難解だ.私がある程度理解できた部分について議論のポイントをまとめると以下のようになる.

  • 彼等は有意水準の議論を間違えている.この論文で友情の方向性によって肥満の影響に差があると主張されている数字は95%有意水準を満たしていない.
  • 彼等の伝染と同類好みを区別できたという議論はロジックが怪しい.
  • まず双方向の友人と片方向の友人関係で回帰係数が異なっているというが,それは同類好みで自分に最も近い友人を指定しているとすればそれだけでそのような効果が得られるだろう
  • するとA→BとA←Bで回帰係数が異なっているということが両者を区別できたという主張の根拠ということになる.彼等の論文を読むとBの一期前の肥満状態を回帰式に入れ込むことにより同類好みを取り除けたと主張している.そして彼等の数字を見るとBの一期前の肥満がAに与える回帰係数はマイナスになっていて,Bの同時期の肥満の回帰係数を足すとほぼ影響がない数字になる.何故この結果によって伝染があると主張できるのかまったく明らかではない.
  • 彼等のロジスティック回帰は多くの前提条件があるが,それに注意を払っているように思えない.
  • 特に彼等の前提条件のうち確率の結合分布についてよく検討すると,それは特殊な条件下以外ではあり得ないものであることが示される.(この最後の議論は私にはよく理解できないが,なかなか深刻そうだ)


ではクリスタキスたちのロジスティック回帰はどういうものだろうか.ロジスティック回帰は,1か0かという二値をとる現象を複数の説明要因を用いて回帰的に説明する統計手法であり,ある病気が発現するかどうかについてリスク要因を評価するような際に使われるものだ.


ここではそれは基本的にこういう形になっている.

log\left(\frac{P(Y_{t}^{ego}=1)}{P(Y_{t}^{ego}=0)}\right)=\alpha+\beta_{1}Y_{t}^{alter}+\beta_{2}Y_{t-1}^{alter}+\beta_{3}Y_{t-1}^{ego}+\beta_{4}A_{t}+\beta_{5}B_{t}+\cdots


ここでYは肥満かどうかを表す変数で1か0の二値をとる.egoとalterはそれぞれ影響を受ける本人と影響元である相手を指す.t, t-1は計測時期を示している,A, B以降はその他の要因である.A, B・・には年齢,性別,教育程度,個別の計測時期などがある.

この回帰式で面白いのは当期の本人の肥満を,当期の友人の肥満だけでなく,前期の友人の肥満,前期の本人の肥満で回帰させているところだ.クリスタキスはこの手法によって伝染と同類好みを区別できると主張している.

そして実際の回帰係数はどうなるのかについてその一例が示されている.ここで矢印は自分の一番の友人だという指定方向を示している.つまりego→alterの場合本人は相手を友人と指名しているが相手はそう指名していないということを表している.

ego→alter  ego⇔alter  ego←alter 
β1   0.52   1.19   0.11
標準誤差  (0.23)  (0.33)  (0.28)
β2  -0.62  -1.25  -0.02
標準誤差  (0.25)  (0.35)  (0.29)
β3   4.37   4.35   4.49
標準誤差  (0.18)  (0.31)  (0.22)


まず有意水準の議論から.友人の方向性によってβ1が異なっているかどうかが問題になる.クリスタキスたちはまずego→alterの場合には95%信頼区間は0.52±0.45となり,(帰無仮説をゼロとすると)有意にプラスであるとし,ego←alterの場合には0.11±0.54なので統計的に有意ではない.だからここに差があるという議論をしている.ライオンズは0.52±0.45と0.11±0.54の重なりを見るとこれは95%有意水準では異なると主張できないと指摘している.
これはライオンズのいう通りではないかと思われる.クリスタキスたちは反論論文で,そもそも帰無仮説をどう考えるかによってここは微妙に異なりうるものだといい,さらに追試の追加データを合わせて考えるとここに差があると言ってよいのだと主張しているが,やや弱々しい.


さてここはジャブのようなもので,批判のもっとも厳しい部分はこの後だ.その(仮にここに有意差があるとしても)このモデルとデータでは伝染と同類好みが区別できたことは示せていないというライオンズの主張を考えてみよう.
クリスタキスたちは,このような方向性は同類好みや交絡では説明できず,伝染要因がある証拠だとまず主張する.つまり自分が友人と指名しているなら,彼の行動をより真似たり,無意識に影響を受けることがあるだろうが,一方的に相手から指名されている場合にはそのような効果は低いだろうということだ.ここはよくわかる.しかしクリスタキスたちはさらにこの様に期ずれ回帰により,β1が伝染要因を表す回帰係数であると主張しているようだ.ライオンズは何故そういえるのか理解不能だと批判している.(さらに方向的な因果があるというなら何故β2でないのかもよくわからない(原因があってその後に結果が生じると考えればβ2の方が良いという議論も成り立つ)ともコメントしている)
クリスタキスは反論においてこの問題に直接答えようとはせず,様々な統計学者の論文をあげて自分たちの手法を擁護している.これは高度な統計学的なことで私の理解できない領域なのかもしれないが,自分の言葉で説明しようとしていずに,やや劣勢の印象を与えるものだ.


とりあえず私に理解できない高度な統計学的な正当化理由があるかもしれないことは留保しつつ(私の能力ではではこれ以上の統計学的な議論はギブアップだ),よくこの式と結果を見てみると,確かに相手の前期の肥満の回帰係数(β2)はマイナスになり,相手の当期の肥満の回帰係数(β1)はプラスになっている.もしクリスタキスたちが主張するようにβ1が伝染の影響だとするとβ2は何なのだろう.クリスタキスたちはβ2で同類好みをコントロールできるといっているが,もしそれが同類好みの結果ならそれがマイナスということは理解できない.


また私の理解ではこのような回帰分析は要因同士が独立事象であることを仮定しているはずだ.しかし相手の前期の肥満と今期の肥満が独立であるはずがない.それがこのような理解できない数字となっているのではないだろうか.(ライオンズはそもそもこのモデルが説得力のあるものか大いに疑問だし,多くの前提条件があるものにもかかわらず彼等はそれに注意を払っているようには見えないという言い方をしている)


しかし片方で,この数字は友情の方向によって何らかの影響差が現れていることを示していると思われる.
私の印象は,「たぶん伝染はあるのだろう,しかしそれはおそらくクリスタキスが主張するよりはるかに弱いもので,クラスタリング効果の多くは同類好みで説明できてしまうだろう」というものだ.少なくともクリスタキスは伝染の影響を直接計測できたとは主張できないだろう.



さて,ここで最初の疑問にも触れておこう.クリスタキスたちの表現「友人が肥満になるとあなたの肥満になるチャンスも57%上昇する」とは(仮にこのβ1が伝染の影響を表すとして)どういう意味なのだろうか.
これを考えるにはもう少しこの回帰係数の意味を考えてみる必要がある.これはロジスティック回帰であるから,(先ほどの要因ごとの独立性に一旦眼をつぶるとすれば)この回帰係数は対数オッズ比ということになる.そこで上記の対数オッズ比を通常のオッズ比に変えると以下のようになる

ego→alter  ego⇔alter  ego←alter 
β1オッズ比  1.68  3.28  1.11
β2オッズ比  0.53  0.28  0.98
β3オッズ比   79   77   89


オッズ比はリスク比と異なり,(ある要因がある場合の,現象の発現確率/発現しない確率)/(ある要因がない場合の,現象の発現確率/発現しない確率)を意味している.リスクが非常に小さい場合にはこれはリスク比とほぼ同じであり,ある要因があるときの発病確率が何倍になるか(リスク比)を表していると言える.クリスタキスは医学者でもあるのでこのような意味で,「ある要因があるときに肥満になるチャンスが何%上昇する」という言い方を論文や「つながり」において行っているのだと思われる.
しかし肥満は(少なくともアメリカでは)かなり頻度が高くリスク比とは乖離があるはずだと思われる.またいずれにしても「友人が肥満になったときにあなたの肥満になるチャンスが57%上昇する」という言い方は相当誤解を招くものだろう.
正確には「友人が当期肥満であるときに,あなたの当期の<肥満である確率を肥満でない確率で割った数字>は,友人が当期肥満でなかったときに比べて,ほかの状況を調整した上で,平均して1.68倍になる」*1「ちなみに友人が前期肥満であったときには,その数字は0.53倍になる」というのがこの数字の意味だろう.またあなた自身が前期肥満であったときの<肥満である確率を肥満でない確率で割った数字>は,あなたが前期肥満でなかったときに比べ80倍程度になる.つまり当然だがある時期あなたが肥満かそうでないかを説明するには前期肥満であったかどうかが非常に重要で,友人の影響よりはるかに大きいということだ.
要するに,あなたがある時期に肥満かどうかはまず前回肥満だったかどうかでかなりの程度説明できるのだが,それ以外に友人の肥満の影響を見ると前期友人が肥満だったかどうかについてマイナスの影響が,同時期に友人が肥満かどうかにプラスの影響があるということになる.だから「あるときに友人が肥満になったときに自分も肥満になるかならないか」という問題とは微妙に異なっている.肥満になる確率ではなく,肥満である確率が問題になっている.becomeを使うのは医療関係では発病を問題にするので引きずられたということかもしれないが,あまりいい表現ではないように思う.
いずれにせよオッズ比の説明についてこのクリスタキスの論文の書きぶりは,その影響の大きさの程度も含めてやや誤解を招きかねず,実際に誤解を生んだだろうというのが私の印象だ.


全体としてみると,広範な議論をまねき起こしかねない微妙な事象を扱った論文にしては.結構書きぶりがスロッピーだと言えるだろう.もっともこのようなデータはなかなか面白いものであり,その大きさはともかく,方向性の非対称から見て何らかの伝染の影響はあるのだろう.今後さらにリサーチが進む事を期待したい.なお「つながり」については肥満や孤独の伝染という事象の大きさについてはやや留保付きで読むべき本ということになろう.

*1:何故1.57でないのかよくわからなかった.これは計測の一期分なのですべてを平均すると別の数字になるのかもしれない