マルチレベル分析のハイブリッド・モデル
阪大の社会学界隈で、マルチレベルデータについてしばしば「ハイブリッドモデル」と呼ばれているモデリングの手法が実践されていたので、下記に目を通してみた。(以前読んでいたのだが、今回改めて。)
Fixed Effects Regression Models (Quantitative Applications in the Social Sciences)
- 作者: Allison
- 出版社/メーカー: SAGE Inc
- 発売日: 2009/07/01
- メディア: ペーパーバック
- 購入: 2人 クリック: 10回
- この商品を含むブログ (7件) を見る
同じような手法は以前からHLMで有名なRaudenbuschたちが提起しており、それは知っていたのだが、何がメリットなのかわからずあまりフォローしていなかった。今回、Allisonの説明を見なおしてやっと理解できたような気がする。結論から言うと、ちょっと面白いのではないかと思った。
ハイブリッドモデルとは、要するに説明変数を、全体平均からの個体(グループ)平均の偏差と、個体内変動に分割した上でそれぞれの効果を推定し、FGLS(あるいはML)推定するというだけのものである。個体内平均による中心化によって個体効果に起因するバイアスは除去できるので、実質的に固定効果モデルと同じ推定結果となる。
なぜいままでハイブリッドモデルのメリットがわからなかったかというと、要するに目的がわからなかったからある。別の本を読むと、「固定効果モデルでは個体内で変動しない(パネルデータの場合、時間不変的な)変数の効果が推定できない。かといって変量効果モデルだと個体内で変動する(時間変動的)変数の効果にバイアスがかかってしまうおそれがある。ハイブリッドモデルでは個体内変動変数のバイアスの小さな推定と同時に個体内不変の変数の推定もできる」といったことが書いてあるが、これではあまり意味が通らない。「固定効果だと消えるから消さないようにする」といってもそもそもバイアスがかかった効果の推定がそれほど重要なのか、ということである。特にパネルデータのメリットを引き出すには固定効果モデルが基本であり、変量効果モデルと結果が変わらないときのみ、有効性をとって後者を選択するという手順で十分である。(もちろんこの辺は機械的に行う必要はない。場合によっては固定効果モデルのほうが誤差が小さくなることもあるので、その場合には固定効果モデルのままでよい。)
このような文脈なら、いっそのことハウスマン・テイラー推定の方が理にかなっている。ハウスマン・テイラー推定では、個体レベル変数および個体内変動変数について内生・外生変数を想定し、後者を操作変数として固定効果推定の残差を回帰する方法である。操作変数の見極めが重要になるし、制約条件もあるので必ずしもあらゆるデータに適用できるとは限らないが、個体内で変動しない変数も同時に推定したいという目的には適している。
他方で、変量効果モデルには独自の「面白さ」がある。変量効果モデルでは個体効果を基本的に撹乱項に残しているので、個体レベルの変数を追加投入することによって個体内変動効果がどれほど変化するのかをみることができる。もし追加によって結果が固定効果モデルと一致した時には、注目している個体内変動変数と相関を持つ個体効果が何だったのかをつきとめることができるわけである。個体効果を最初から除去する固定効果モデルだとこういう過程をみることができない。
同じことはハイブリッドモデルでも可能である。ただし、個体内平均からの偏差の効果は追加投入によっても不変であるので、全体平均から個体内平均の偏差についてみていくことになるだろう。さらに、Allison自身が書いているのは、個々の説明変数の効果について、どの程度が個体効果であり、どの程度が個体内変動の効果なのかを比較しながら分析できる、というメリットである。
ただし注意すべきは、「ハイブリッドモデル」とはいいつつも、このモデルは(変量効果推定量がOLS推定量と固定効果推定量のあいだにあるのと同じような意味で)固定効果モデルと変量効果モデルの「あいだ」にあるというわけではない、ということである。変量(混合)効果モデルによって推定される個体効果(個体レベル撹乱項)はいわゆるBLUP(Best Linear Unbiased Prediction)であり、個体内平均ではない。BLUPは個体内分散や個体内の観察数に応じて通常は個体内平均よりも全体平均に近い値で推定されるので、しばしば収縮推定量とも言われている。
したがって、ハイブリッドモデルは個体効果と個体内変動効果の簡易的な比較を可能にするものの、個体効果の推定量として個体内平均値があてにならないことを考えると、変数の追加投入による個体効果の収縮の検討についてはやはり変量/混合効果モデルのほうが適していると言えそうである。
残念なことに、マルチレベル分析については、ちょっとハラハラするような場面に出くわすこともままある。特に個体効果と説明変数の相関に起因するバイアスについては、通常マルチレベル分析として行われている混合効果(Re)ML推定では取り除くことができないことが多い。(取り除いてしまうこともあるが。)BLUPからの距離のことを、個体平均からの偏差だと説明していることもある。(それだと何のためのBLUP法だか理解できなくなる。)
それぞれのモデルにおいて「なにをやっていることになるのか」についてきちんと把握した上でモデルの使い分けをしたいところである。