読者です 読者をやめる 読者になる 読者になる

社会学者の研究メモ

はてなダイアリーから移転しました。

調査観察データの特徴に関する若干の誤解

以前書いたサンプリングについての記事では、「単純ランダムサンプリングが基本で、他のサンプリング方法はそのバリエーションだ」というよくある整理(誤解)が、サンプリングについての理解を妨げていることを論じた。今回は、「パネルデータは横断データと時系列データの両者の特徴を兼ね備えたデータだ」という、これもよくある整理が、パネルデータの特徴を理解するのを妨げるミスリーディングな記述であることを示してみよう。

パネルデータの特徴:パネルの「優位性」はどこにあるのか?

計量分析、特にマイクロデータの分析では、現在パネルデータの分析がさかんに行われるようになった。しかしその特徴に関しては、理解が共有されていないことが多々あるように思える。横断調査と比べたパネルデータの利点は、どこにあるだろうか。

調査観察の方法としては、しばしば横断調査(cross-sectional survey)、時系列調査(time-series survey)、反復横断調査(repeated cross-sectional survey)、そしてパネル調査(longitudinal / panel survey)の4つがしばしば比較される。このとき、横断調査/時系列調査よりも反復横断調査が、そして反復横断調査よりもパネル調査が優位であると考えられることが多い。しかしこれは正確な理解ではないし、このように理解している限りはパネルデータのメリットをきちんと理解できない。

横断調査とは、時代を限定した観察のひとつのあり方である。つまり、時代をひとつ選んで、その他の要因を観察する方法である。これに対して時系列調査とは、個体を限定した観察である。つまり、個体(特定の個人や集団)をひとつ選んで、その他の要因を観察する方法である。

下の図のAが横断調査、Cが時系列調査である。Aでは時代をひとつ選んで複数個体を、Cでは個体をひとつ選んで複数時代を、それぞれ観察している。

この2つの特性を兼ねそろえたのがパネルデータだ...というのは、ほんとうによく目に入る記述だ。ウィキペディアでもそのように書かれているし、たいていのテキストブックでもそうである。しかしこれは実はミスリーディングな記述である。

このことを示すために、しばしば「パネル調査のなりそこない」のように考えられる反復横断調査の特徴を説明する。図のBがそれにあたるが、時代を複数時点選択して観察していることがわかる。ただし個体は固定していないので、調査のたびに異なった個体が観察される。

これに対して図のDでは、Bとは正反対に、個体を複数選んで固定して観察するが、時代を固定しない観察をしていることがわかる。パネル調査は通常「個体を固定した観察をする」調査であると定義されるので、Dはパネル調査の特徴を満たしている。

このように、個体を固定するパネルデータと時代を固定する反復横断データは一長一短の関係にあり、この点では一方的な優劣の関係に置かれているとは限らない。しかしこのような整理をしたテキストは、あまり見当たらない。その理由は、おそらく以下の2つである。

  1. 実際のパネル調査では個体のみならず時代も固定した観察がなされていることが多いから。
  2. たいていの計量分析(特にマイクロデータ分析)では、時代効果よりも個体効果の方が重要視されるから。

まず1についてだが、個体と時代を固定した観察は、図でいえば下のEのようになる。

実際問題としてほとんどのパネル調査はEの形式で行われているが、厳密には、個体を固定した観察であるパネル調査と区別して、「時系列横断的(cross-sectional time-series)」調査とでも呼ぶべきであろう。「パネル調査というのは基本的には個体を固定した観察だが、実際問題として時代も固定したものだ」という考え方もあるだろうが、もしこのような定義の拡張が許されるのならば、反復横断データにおいても「同一個体を観察する」という特徴を混ぜ込んでしまえば横断時系列データと区別できなくなるので、こういった拡張はあまり生産的とはいえまい。

2については、厳密に言えば分析目的が何なのかに依存する。経済的ショックの影響を推定したいのなら、時系列あるいは反復横断データの方が、横断あるいはパネルデータよりも優位である。というより本来の意味でのパネルデータでは、時代効果の推定はできない。単なるパネルデータではなく同一個人を縦断的かつ横断的に観察したデータならば、(個体ダミーと同時に調査時点ダミーを投入することで)個体効果と同時に時代効果の統制をすることができる。

いずれにしろ、「実質的にデータがそのようになっているから」といって、各種の観察方法に応じたデータの本質的な定義までそれに応じて行う必要はないし、そうしてしまうとデータの特性をうまく理解できなくなってしまう。

調査観察データの構造と特性

ここまで理解できただろうか? では、調査観察データについてもっと根本的な見地から整理してみよう。(以下は少々テクニカルな説明になるので、そのつもりで。)

ある要因を統制するということは、その要因を固定した上で他の要因の効果を観察するということである。血圧が性別に影響するとして、新薬の血圧低下効果を推定したい時は、(他の要因の効果や交互作用効果が無視できるなら)男女別に新薬の効果を測定すべきである。仮に新薬投与と性別が相関するのなら、男女別に観察しないと(あるいは男女の数を揃えないと)新薬効果の推定がバイアスを持ってしまうからである。

ここで、交互作用や他の要因が無視できるのなら、最初から男のみ、あるいは女のみに対象を限定してもよい。交互作用は無視できるが、性別と相関するその他の観察不能要因が無視できないのなら、男女をともに対象とし、性別を観察した上で統制したほうがよいだろう。特に性別内で一定の要因が存在し、そういった要因が観察できない場合はそうである。これが固定効果推定(fixed-effects estimation)の根本的発想である。固定効果モデルを「個体識別ダミーを投入するなどして個体効果を(固定効果として)統制したモデル」として説明するテキストは多く、また実際の分析でもそのようなモデリングを指すことがほとんどであるが、何も個体効果を特別視する必然性はないので、性別変数の投入でも固定効果推定のメリットが発揮されていると理解することは十分に可能である。

要因の水準(値)を限定して観察することと、要因の異なった水準を観察して統制することの関係は、すでに述べた調査の種別と対応する。横断調査は時代を限定して観察する方法で、反復横断調査は時代を統制する観察方法である。同様に、時系列調査は個体を限定し、パネル調査は個体を統制する観察方法である。このように、横断観察と反復横断観察、時系列観察とパネル観察の区別は、男のみ観察と男女を含む観察の区別とパラレルである。

とはいえ、性別、時代、個体とでは、要因の性質として決定的に異なる点がある。マイクロパネルデータがあれほど重宝されるのは、個人という個体に起因する効果(厳密には観察期間中一定であった効果)を、個人識別ダミーを投入すればある程度除去でき、しかも個人という個体の異質性はかなり重要な仕方で他の媒介変数の内生性の原因となっているからである。もちろん、異なった個人を多数観察する方が、異なった時代を多数観察するよりも低コストである、というテクニカルな理由もあるだろう。性別も、個人の多様性を説明する要因の一つであるから、パネルデータがあれば性別を観察しなくてもよい場合がある。

パネルデータに関して、よくある「誤解」

というわけで、最初に戻って、誤解その1。

  • 誤解1:パネルデータは、横断データと時系列データの両方の特徴を持ったデータである。

今回の記事ではこのことを長々と述べてきたのだが、パネルデータの定義を複数の同一個体の反復観察だとすれば、この記述は間違いである。

さらに、以下のような誤解を追加しておこう。

  • 誤解2:反復横断データはパネルデータではない。

実はこれも厳密には間違いである。個体をどこに設定するかは、分析者が決めることである。個体を出生コーホートに設定すれば、反復横断調査でも個体効果を除去することができる。もちろん個人の方が出生コーホートよりもはるかに多様な要因の集積であるので、マイクロパネルデータのほうがその点では優位であることがほとんどだろう。(なお、時代効果が無視できるのなら厳密には横断データである必要もなく、同一集団が異時点で観察可能になっていれば十分である。このような観察は余計にコストがかかるので現実的にはあまりなされないだろうが。)

同様に、時代を年単位で固定していないパネルデータでも、時代をもっと幅広く設定するのなら時代を固定することができる。

  • 誤解3:個体を固定して観察するパネルデータのメリットには、「時点(順番)情報の利用による因果推定」がある。

YとXの両方向の因果が想定できるような場合に、XではなくXのラグで回帰するためにパネルデータが必要だ、という説明はよくなされる。このこと自体はなんら間違いではない。しかしこれは個体を固定して観察することによるパネルデータのメリットではなく、回顧情報に頼らないことからくる測定精度上のメリットである。