シンプソンのパラドックスの図解
まず、シンプソンのパラドックスというのは以下のような状態のこと。新薬の旧薬に対する生存率の優位性を考えてみましょう。
死亡 | 生存 | |
旧薬 | 600 | 500 |
新薬 | 900 | 100 |
これだけみると、旧薬生存のオッズは0.83、新薬生存のオッズは0.11、オッズ比0.13で新薬の方が圧倒的に死亡しやすいということになります。ここで第3の変数である性別を導入し、層別分割表を書いてみると...
女 | 死亡 | 生存 | 男 | 死亡 | 生存 | |
旧薬 | 100 | 5 | 旧薬 | 500 | 495 | |
新薬 | 890 | 88 | 新薬 | 10 | 12 |
となり、女の新薬生存のオッズ比は1.98、男のオッズ比は1.21となり、どちらもプラスになります。男女の区別なくデータを見たときは新薬が不利だったのが、男女別にすると新薬が有利になるため、パラドックスと呼ばれています。なぜこれが生じるかというと、男女で薬の効き方の方向は同じ(プラス)だが、全体的に死亡率のレベルが異なり(旧薬でも新薬でも男性の方が生存率が高い)、そして女性は新薬被験者が多く、男性は旧薬被験者が多かったからです。このため、死亡率の高い女性が新薬を多くとっていたため、性別を隠した場合に新薬が不利に見えた、というわけです。
図にすると次のようになります。
薬→生存の効果が、性別を入れる時と入れない時で逆になります。通常、擬似関係(擬似相関)と呼ばれているものは、第3の変数を入れることで消える関係のことなので、今回の場合とは少し違います。また、たまに抑制変数と呼ばれているものは、2変数だけの場合には見られなかった関係に投入することで隠れてきた関係を顕在化させるものですので、今回のはこれとも少し違います。
この逆転は、分割表をじっと眺めていても理解できるのですが、少々目が慣れてないといけません。そこで、この関係を図示してみます。とりあえずモザイクプロット。
分割表をそのまま面積に置き換えただけなので、性別の逆転効果をここにすぐに見て取るのはちょっとつらい。ちょっと乱暴ですが、カテゴリーを連続変数とみなしてイラストにすると次のようになります。
どんなもんでしょう。
これは回帰モデルでいえば「説明変数と攪乱項(のなかに隠れた未投入の変数)の相関」のために間違った係数が推定された、ということですね。図を見ると分かりますが、被説明変数(生存率)を説明する2つの変数(薬と性別)のあいだに相関があります。
すでにある変数間の関係を変化させる変数について、もっと分かりやすく図にすると、こうなります。
このような関係は回帰モデルであれば容易に統御可能で、単に2つを説明変数にとれば正しい推定値を得ることができます。「説明変数と関連のありそうな変数はモデルに入れておく」という初歩的な手続きで回避可能です。そういう変数がデータの中にない場合にはどうしようもないですが。性別・年齢などは多くの変数と関連するので、「とりあえず入れておく」ということになりますね。