マルチレベル分析の使い方
社会学研究者やその近接分野の研究者から、いわゆる「マルチレベル分析」についてよく似た質問をよく受けるようになったので、簡単な見解を示しておくことにする。
心理学や社会学でマルチレベル分析と呼ばれている分析方法は、基本的には変量/混合効果モデルを使った分析のことを指している。この分析モデルの使い道には、以下のようなものがある。
- 変量効果の推定
- 観察値がクラスターごとにまとまっているときの誤差の調整
- 分散成分の推定を通じた要因の探索
1(変量=個体効果の推定)は社会科学ではほとんど用いられない。その理由はすでに別のところ(説明と選抜:統計学における2つの「関心」)に書いた。反復テストや信頼性の検定など、測定に関するさまざまな研究の蓄積はもちろんがあるが、個体効果の推定それ自体を最終的な目的とすることは社会科学ではあまりないだろう。
2(誤差の補正)については説明を省くが、OLS回帰分析におけるいわゆるi.i.dの仮定に関わる用法である。級内相関があるときに通常の回帰分析を行うと誤差が過小推定されることがあるので、それを防ぐ一つの方法が変量効果最尤推定である。
3(分散成分の分析)が、おそらく最も有効なマルチレベル分析の活用法である。別のところ(Stataでマルチレベル・モデル(2))でも触れたが、マルチレベル分析のひとつのメリットは変量効果の分散の推定のほか、複数の変量効果どうしの相関を設定することができる、ということである。これについては追加の説明が必要かもしれない。この記事では主にこの点について説明する。
ある被説明変数Yについて、切片F0とその変量効果R0、および説明変数X1とX2の固定効果F1とF2、それぞれの変量効果R1とR2からなるモデルを推定するとしよう。分散成分は変量効果どうしの分散共分散であるから、この場合には対角成分と非対角成分がそれぞれ3つずつである。
計算機の処理能力の問題もあるが、分散成分のデザインは経験的に決めるのが筋である。とはいえ、非対角成分が無視できないと判断できたとしても、まずは対角成分に注目するのが分かりやすい。R0(切片変量効果)については、もしそれが攪乱項の分散に比べたときかなり大きなものであるのなら(つまり級内相関が大きい場合)、それは観察されていないクラスターレベルの要因のなかに被説明変数を首尾よく説明できるものが含まれている、ということを示唆している。観察単位が個人でクラスターが家族なら、家族レベルで変動する要因(世帯所得など)を探索することが意味を持つ、ということである。
R1とR2(係数変量効果)については、何かと比べるということは難しい。信頼区間の推定によって「R1の分散が0でないかどうか」を確かめるという方法もあるが、あまりプラクティカルではない。そこで、係数固定効果の大きさと変量効果の標準偏差を比べるという方法を提案しておく。たとえばF1の推定値が2であるとき、ある個体のR1が-2であるなら、その個体についてはXの効果はほぼ0であると推定される。変量効果の標準偏差が2であるのなら、かなりの割合の個体についてXの効果が認められないということなので、R1は無視できないと考えることができるだろう。
切片変量効果に含まれる(未観察)要因は、そのままクラスターレベルの要因であった。他方、R1を説明するのはX1と未観察のクラスターレベル要因との交互作用であり、主効果ではないことに注意すべきである。したがって、クラスターレベルの要因そのものではなくX1とのクロスレベルの交差項を投入することでR1が小さくなるかどうかをみていくことになる。
非対角成分についてだが、これらの分散成分の推定値は上記のような変数探索に追加的な情報を与える、と考えることができる。とはいえ実際上は推察が複雑になりがちなので、あまり気にせず、まずは対角成分のみを注視するので十分であろう。
いずれにしろ、社会科学の計量分析では、変量効果について「特定のレベル(観察単位)における、観察されていない要因の集積」だと考えることによって、おのずと混合効果モデルの「本来」の用途(変量効果そのものの推定)とは異なった使い方を想定できる、ということを少し意識すべきかもしれない。
ついでだが、以下のようなことがマルチレベル分析について言われることがあるが、基本的にはミスリーディングである。
- 階層性のある(マルチレベルの)データの分析ではマルチレベル分析を使う必要がある。
これはケースバイケースである。攪乱項のクラスター内相関が無視できるのならば、自由度を無駄に消費することになるので、端的に使うべきではない。それに、クラスター内で変動する要因のバイアスが気になるのなら、まずは固定効果モデルを検討すべきである。両方の利点をとったモデリングもあるので、適宜そちらも利用すべきだろう。
- 個体ごとに切片・係数をモデリングできる。
通常の回帰分析(固定効果モデル)でも可能である。個体のダミーおよびそれと説明変数の交差項を入れればよい。混合効果モデルとの違いは、混合効果モデルでは必ずしも一致推定が得られないこと(もちろん固定効果モデルでは個体効果そのもの、個体効果と説明変数の交互作用効果については一致推定は得られない)、他方で混合効果モデルの方が自由度が節約できる(有効性が高い)こと、クラスターごとの観察個数の違いを考慮した変量効果の推定が可能である、ということである。
以上、少し難しい書き方になったかもしれないが、より平易な表現で同じような内容の文章(「マルチレベル分析を有効活用するには」)を書いたので、そちらも参照してほしい。また、以上以外にもわかりやすい解説文がいくつかあるのでそちらも適宜みてほしい(ここでは社会学のみ)。
- 筒井淳也・不破麻紀子、2008、「マルチレベル・モデルの考え方と実践」
- 保田時男、2011、「マルチレベル・モデリングによるNFRJデータの分析方法」
- 筒井淳也、2011、「親との関係良好性はどのように決まるか : NFRJ個票データへのマルチレベル分析の適用」