固定効果とランダム効果の区別 - 社会学者の研究メモ

混合効果モデルの話の続き。（引き続き少しテクニカルなので注意。）

「固定効果とランダム効果」の区別については、いくつかの解説テキストやウェブサイトに記述があるが、どうもしっくりこないので私なりの解釈をメモ程度に書いておく。（より詳しくは7/10の研究会にて。）

簡単にいえば、

y=Xβ+◯+ε

という推定式の◯のところに、クラスター・ダミー（個人ダミー）が入れば固定効果モデル、その推定値(u)が入ればランダム効果モデルということになるが、いきなりそのように選択肢を示すのではなく、最初に

y=α+u+ε

の式から話を始めたほうが分かりやすい。ここではα（全体平均）が固定効果パート、u+εがランダム効果パートである。uはクラスター（個体）が個々に持つ真の（変化しにくい）値である。これは動物を対象にした分析などでは遺伝的に決定される部分だと想定されることが多いが、人間を分析対象にした場合は、相対的に不変な個人特性を形成する要因の集積、と考えたほうがよい。これに対してεは環境や測定によるバラつきの集積である。

ランダム効果は無数の固定効果の集積であり、そこから仮にxという固定効果を観察して固定効果パートに移してやると..

y=α+βx+u+ε

となる。まず分析の目的がαとβの不偏／一致推定にあるとしよう。このときxとyの両者に相関する固定要因(z)がランダムパート(u+ε)に残っているとβの推定にバイアスが生じる。ここでzがもしuに含まれるもの（相対的に不変の特性）であれば、いっそのこと個体ダミーを投入してそこにuの効果を吸収させ、xとの交絡を取り除く、ということが可能になる（いわゆる固定効果モデル）。これに対してもしzがεに含まれるとすれば、個体ダミーの投入によっては交絡は除去できない（のでIV推定など他の方法を用いる）。

もし分析の目的がuの推定にあるのだとすれば（複数回のテストによる個人の能力の判定など）、個体ダミーを投入することは意味をなさない（そもそもuの効果がそこに吸収されてしまう）。また、uの効果を個体ダミーの効果と同一視することはできない。有限回のテストのスコア平均値をもってその個人の真の特性とみなすのには無理があるからである。この場合、uの推定は全体平均と個体平均のあいだに入り、そのどちらに近づくのかを個体ごとの信頼性係数によって推定する収縮推定量(shrinkage estimator／経験ベイズ推定量）の一種が用いられる。信頼性係数は個体内の観察数と、uおよびεの分散の推定値を用いて計算される。

基本的にはこれだけで十分だと思うが、いくつかのテキストの解説が混乱しがちなのは、固定効果推定の「目的」（実はかなりヘンな作業をしている）とあわせて混合効果モデルを説明していないからではないかという気がする。同じことだが、固定効果推定の説明でも個体ダミーの効果を「個人が不変に持つ平均的な傾向」の推定値であると解説すると（そういう説明を聞いたことがあるような気がする）、uとの区別がつかなくなってしまうので、そういう説明は避けたほうがよいだろう。