社会学者の研究メモ

はてなダイアリーから移転しました。

調査観察データの特徴に関する若干の誤解

以前書いたサンプリングについての記事では、「単純ランダムサンプリングが基本で、他のサンプリング方法はそのバリエーションだ」というよくある整理(誤解)が、サンプリングについての理解を妨げていることを論じた。今回は、「パネルデータは横断データと時系列データの両者の特徴を兼ね備えたデータだ」という、これもよくある整理が、パネルデータの特徴を理解するのを妨げるミスリーディングな記述であることを示してみよう。

パネルデータの特徴:パネルの「優位性」はどこにあるのか?

計量分析、特にマイクロデータの分析では、現在パネルデータの分析がさかんに行われるようになった。しかしその特徴に関しては、理解が共有されていないことが多々あるように思える。横断調査と比べたパネルデータの利点は、どこにあるだろうか。

調査観察の方法としては、しばしば横断調査(cross-sectional survey)、時系列調査(time-series survey)、反復横断調査(repeated cross-sectional survey)、そしてパネル調査(longitudinal / panel survey)の4つがしばしば比較される。このとき、横断調査/時系列調査よりも反復横断調査が、そして反復横断調査よりもパネル調査が優位であると考えられることが多い。しかしこれは正確な理解ではないし、このように理解している限りはパネルデータのメリットをきちんと理解できない。

横断調査とは、時代を限定した観察のひとつのあり方である。つまり、時代をひとつ選んで、その他の要因を観察する方法である。これに対して時系列調査とは、個体を限定した観察である。つまり、個体(特定の個人や集団)をひとつ選んで、その他の要因を観察する方法である。

下の図のAが横断調査、Cが時系列調査である。Aでは時代をひとつ選んで複数個体を、Cでは個体をひとつ選んで複数時代を、それぞれ観察している。

この2つの特性を兼ねそろえたのがパネルデータだ...というのは、ほんとうによく目に入る記述だ。ウィキペディアでもそのように書かれているし、たいていのテキストブックでもそうである。しかしこれは実はミスリーディングな記述である。

このことを示すために、しばしば「パネル調査のなりそこない」のように考えられる反復横断調査の特徴を説明する。図のBがそれにあたるが、時代を複数時点選択して観察していることがわかる。ただし個体は固定していないので、調査のたびに異なった個体が観察される。

これに対して図のDでは、Bとは正反対に、個体を複数選んで固定して観察するが、時代を固定しない観察をしていることがわかる。パネル調査は通常「個体を固定した観察をする」調査であると定義されるので、Dはパネル調査の特徴を満たしている。

このように、個体を固定するパネルデータと時代を固定する反復横断データは一長一短の関係にあり、この点では一方的な優劣の関係に置かれているとは限らない。しかしこのような整理をしたテキストは、あまり見当たらない。その理由は、おそらく以下の2つである。

  1. 実際のパネル調査では個体のみならず時代も固定した観察がなされていることが多いから。
  2. たいていの計量分析(特にマイクロデータ分析)では、時代効果よりも個体効果の方が重要視されるから。

まず1についてだが、個体と時代を固定した観察は、図でいえば下のEのようになる。

実際問題としてほとんどのパネル調査はEの形式で行われているが、厳密には、個体を固定した観察であるパネル調査と区別して、「時系列横断的(cross-sectional time-series)」調査とでも呼ぶべきであろう。「パネル調査というのは基本的には個体を固定した観察だが、実際問題として時代も固定したものだ」という考え方もあるだろうが、もしこのような定義の拡張が許されるのならば、反復横断データにおいても「同一個体を観察する」という特徴を混ぜ込んでしまえば横断時系列データと区別できなくなるので、こういった拡張はあまり生産的とはいえまい。

2については、厳密に言えば分析目的が何なのかに依存する。経済的ショックの影響を推定したいのなら、時系列あるいは反復横断データの方が、横断あるいはパネルデータよりも優位である。というより本来の意味でのパネルデータでは、時代効果の推定はできない。単なるパネルデータではなく同一個人を縦断的かつ横断的に観察したデータならば、(個体ダミーと同時に調査時点ダミーを投入することで)個体効果と同時に時代効果の統制をすることができる。

いずれにしろ、「実質的にデータがそのようになっているから」といって、各種の観察方法に応じたデータの本質的な定義までそれに応じて行う必要はないし、そうしてしまうとデータの特性をうまく理解できなくなってしまう。

調査観察データの構造と特性

ここまで理解できただろうか? では、調査観察データについてもっと根本的な見地から整理してみよう。(以下は少々テクニカルな説明になるので、そのつもりで。)

ある要因を統制するということは、その要因を固定した上で他の要因の効果を観察するということである。血圧が性別に影響するとして、新薬の血圧低下効果を推定したい時は、(他の要因の効果や交互作用効果が無視できるなら)男女別に新薬の効果を測定すべきである。仮に新薬投与と性別が相関するのなら、男女別に観察しないと(あるいは男女の数を揃えないと)新薬効果の推定がバイアスを持ってしまうからである。

ここで、交互作用や他の要因が無視できるのなら、最初から男のみ、あるいは女のみに対象を限定してもよい。交互作用は無視できるが、性別と相関するその他の観察不能要因が無視できないのなら、男女をともに対象とし、性別を観察した上で統制したほうがよいだろう。特に性別内で一定の要因が存在し、そういった要因が観察できない場合はそうである。これが固定効果推定(fixed-effects estimation)の根本的発想である。固定効果モデルを「個体識別ダミーを投入するなどして個体効果を(固定効果として)統制したモデル」として説明するテキストは多く、また実際の分析でもそのようなモデリングを指すことがほとんどであるが、何も個体効果を特別視する必然性はないので、性別変数の投入でも固定効果推定のメリットが発揮されていると理解することは十分に可能である。

要因の水準(値)を限定して観察することと、要因の異なった水準を観察して統制することの関係は、すでに述べた調査の種別と対応する。横断調査は時代を限定して観察する方法で、反復横断調査は時代を統制する観察方法である。同様に、時系列調査は個体を限定し、パネル調査は個体を統制する観察方法である。このように、横断観察と反復横断観察、時系列観察とパネル観察の区別は、男のみ観察と男女を含む観察の区別とパラレルである。

とはいえ、性別、時代、個体とでは、要因の性質として決定的に異なる点がある。マイクロパネルデータがあれほど重宝されるのは、個人という個体に起因する効果(厳密には観察期間中一定であった効果)を、個人識別ダミーを投入すればある程度除去でき、しかも個人という個体の異質性はかなり重要な仕方で他の媒介変数の内生性の原因となっているからである。もちろん、異なった個人を多数観察する方が、異なった時代を多数観察するよりも低コストである、というテクニカルな理由もあるだろう。性別も、個人の多様性を説明する要因の一つであるから、パネルデータがあれば性別を観察しなくてもよい場合がある。

パネルデータに関して、よくある「誤解」

というわけで、最初に戻って、誤解その1。

  • 誤解1:パネルデータは、横断データと時系列データの両方の特徴を持ったデータである。

今回の記事ではこのことを長々と述べてきたのだが、パネルデータの定義を複数の同一個体の反復観察だとすれば、この記述は間違いである。

さらに、以下のような誤解を追加しておこう。

  • 誤解2:反復横断データはパネルデータではない。

実はこれも厳密には間違いである。個体をどこに設定するかは、分析者が決めることである。個体を出生コーホートに設定すれば、反復横断調査でも個体効果を除去することができる。もちろん個人の方が出生コーホートよりもはるかに多様な要因の集積であるので、マイクロパネルデータのほうがその点では優位であることがほとんどだろう。(なお、時代効果が無視できるのなら厳密には横断データである必要もなく、同一集団が異時点で観察可能になっていれば十分である。このような観察は余計にコストがかかるので現実的にはあまりなされないだろうが。)

同様に、時代を年単位で固定していないパネルデータでも、時代をもっと幅広く設定するのなら時代を固定することができる。

  • 誤解3:個体を固定して観察するパネルデータのメリットには、「時点(順番)情報の利用による因果推定」がある。

YとXの両方向の因果が想定できるような場合に、XではなくXのラグで回帰するためにパネルデータが必要だ、という説明はよくなされる。このこと自体はなんら間違いではない。しかしこれは個体を固定して観察することによるパネルデータのメリットではなく、回顧情報に頼らないことからくる測定精度上のメリットである。

質的研究と量的研究について

とある出版企画でそういうお話を書かなければいけないので、社会学におけるいわゆる「質的研究」と「量的研究」の区別についてメモを書いておく。

結論から言うと、次のように考えるとミスリーディングである。つまり、「まずある<理論>があって、それを<実証>する手段として質的な研究と量的な研究がある」という考えである。こういう考え方は、混乱のもとであるから、避けたほうがよい。多くの社会調査論のテキストでは調査手段の選択として「質的調査」と「量的調査」を選択することがあるかのように書かれているが、少々説明不足である。そうではなく、さしあたり量的研究とその他のタイプの研究が、量的研究とどのような関係にあるのか、と考えたほうがスッキリする。

分野外の研究者からすれば見えにくいが、実際には量的研究と言っても様々である。が、現状からして、「複数のパラメータを含むモデルを構築し、それをデータに当てはめて統計学的推定・検定を行う」タイプの量的研究と、それ以外、という分け方ができる。前者は「バイアスと誤差に関するツッコミに数値的に対処している」ということである。後者にはバイアスと誤差にあまり関心を持たない多変量解析の手法(因子分析、クラスター分析、対応分析等)が含まれる。バイアスと誤差に関心を持たないという点では、記述統計的分析(クロス表や相関係数による分析)もそこに入れてよいかもしれない。

いずれにしろこの記事では、様々なタイプの研究が、さしあたり前者のような量的分析の立場からの「統計学的なツッコミ(検証)」に対してどのようなスタンスをとりうるのか、を検討することから話を始める。

「バイアスに関する検証」とは、「それって◯◯を考慮してないからそう見えるだけじゃないの?」というツッコミである。こういうツッコミは、量的研究に限らず様々な日常的コミュニケーションにおいてみられるものである。たとえば、家事分担に関する夫婦のやりとりを考えてみよう。家事を使用としない旦那に対して妻が「隣のご主人を見てごらんなさい!」(いまどきの旦那さんは、普通はもっと家事しているのよ!)と言ったとき、旦那は「隣のご主人は俺より早く家に帰ってるだろ? それに隣の奥さんは君より長い時間働いているよ」と、妻の認識のバイアスに関するツッコミを入れることができるかもしれない。つまり夫は、夫と妻の労働時間を統制すれば、家事の負担は公平だ、といいたいわけである。

また、「それってたまたまなんじゃないの?」と反論することもできるかもしれない。つまり夫は、妻が目撃した隣の旦那の家事は別の時間を観察すれば別様かもしれないし、広く世の中の旦那さんを見渡してみれば自分の家事負担はそれ相応だ、妻の認識は偶然の産物(誤差)だ、と言いたいわけである。

(バイアスと誤差については別記事を参照。)

このように、ある知見に対してそのバイアスと誤差を問うようなコミュニケーションは、量的研究でなくても、またその知見が数値にコード化されていなくても生じうる。しかし相対的に厳密な形で検証する際には、数値化した上で統計学的な手続きを行うことが必要になる。それによってある知見は、相対的に文句の出にくいかたちで、しかもある程度訓練を積めば誰にでもアクセス可能なかたちで、バイアスと誤差に関するツッコミを回避しつつ提示できるようになる。

もう少し科学的な用語を使って言い直せば、バイアスを除去するために科学者は無作為抽出のデータを使ったり、重回帰分析や実験的手法を活用したりする。また、誤差を減らすために層化抽出を行ったり、関連する変数を投入したりする。

実証が「成功」するかどうかについては、何らかの客観的な基準があるわけではない。結局は研究を聞かされた側が「納得するか」どうかにかかっている。数字データを使って実証した研究でも相手(多くの場合は研究者コミュニティ、つまり学会のセッションでの聴衆、ジャーナルの査読者、指導教員など)が納得しないことだってある。

さて、統計学的検証は、いかなる知識の提示においても意味を持つわけではない(というよりほとんどの場合は意味を持たない)。たとえば言葉の意味を定義するようなコミュニケーション(「その言い方って、こういう場合普通するんだっけ?」)の場合、「ああ、その言葉使いにはバイアスがかかっているね」という言い返し方は、かなり特殊な場面でしか通用しないだろう。同じように研究においても、提示された知識に対して統計学的な疑問を投げかけるというのは、ある言明が事実を特定の仕方で指し示しているような知識の提示においてしか意味を持たない。

統計学的な吟味を行うことが意味をなさない知識の代表が、理論的考察であろう。理論的考察とは、典型的には数理モデル上での数式の展開によって行われる。ここで「その数式展開にはバイアスがかかっている」とか「そのデリベーションはたまたまだ」といったツッコミをすることはできない。間違うとすれば、それは数式展開や証明のミスによるものである。

(↓社会学における理論研究の入門書)

数理社会学入門 (数理社会学シリーズ)

数理社会学入門 (数理社会学シリーズ)

また、言語や言語の使用規則を吟味するタイプの研究も、統計学的検討を必要としない。言語学的に文法の分析をする際、統計学的に決着を付けることはあまりないだろう。また、概念分析的研究(一部の哲学的研究やエスノメソドロジー的分析が典型的であろう)は、たとえば研究等で使われている「怪しい」概念(「自己」や「他者」などを思い浮かべるとよいかもしれない)を何らかのフォーマライズされた手続きをもって検討することを通じて、研究における概念使用を正常化するきっかけになるかもしれない。

(↓社会学における概念分析の本)

概念分析の社会学 ─ 社会的経験と人間の科学

概念分析の社会学 ─ 社会的経験と人間の科学

計量分析的研究との関係であるが、理論研究がかなり直接に「そのあとにくる量的検証」を見据えているのに対して、概念分析はそうとは限らない。理論研究が量的研究による検証と結びつきやすいのは、理論によって考察されていないパラメータがバイアス(合理的モデルからの乖離)を引き起こしたり、そもそも理論で予測されたパラメータの効果が誤差の範囲内である可能性が残されているからである。これに対して言語的な研究は、量的研究のための仮説を提示するような知識を与えるわけではないが、量的分析の前提となっている概念使用についてより適切な方針を与えてくれるかもしれない。

さて、理論研究と並んで計量分析的研究の問題関心を提起したり、仮説を提供したりするタイプの研究がある。社会学では特にそのタイプの研究が多いが、ここでは仮にモノグラフ的研究と呼んでおこう。モノグラフ的研究の特徴は、知識の提示の手続きがフォーマライズされていないことにある。既存の研究(古典を含む)、質的調査データ、断片的な統計データをもとに、新たな問題関心を構成したり、仮説に対して統計学的には厳密ではない検証を導いたりする。社会学では学説史研究や古典テキストの読解が「理論研究」と呼ばれることが多いが、これは他の多くの学問分野では通じにくい用語法である。むしろここではモノグラフ研究の一部に加えるべきだろう。

D.リースマンの『孤独な群衆』などは、モノグラフ的研究の典型例である。数式や概念(言語使用)分析のフォーマライズされた手続きを含まないがゆえに、かなり自由に議論が展開されるし、また「名人芸」が入り込む余地が生まれる。たとえ同じ材料が与えられても、研究者によっては別の議論や結論が導かれることもある。なかには、研究者独自の用語を生み出すようなモノグラフ的研究もある(「大文字の他者」とか)。

孤独な群衆

孤独な群衆

さしあたり数理モデル研究でも概念分析的研究でも計量的研究でもない研究をモノグラフ的研究というカテゴリーに押し込めたように感じられるかもしれないが、「フォーマライズされた手続きを研究のメインに据えていない」という共通項はある。「フォーマライズされた手続き」という言葉も少々曖昧だが、知識を導出する手続きがオープンで、訓練を受けた者であれば、手続きに沿って基本的に誰でも同じような結論を導くことができる(再現可能、検証可能)、という意味である。研究のうち、「科学」とカテゴライズされるものはこのように知識の導出手続きが公共的であることを最優先事項とするので、逆に手続きの公共性に気を配らないタイプの自由な論考はヒューマニティ(人文学)としてカテゴライズされやすいといえる。

モノグラフ的研究は「フォーマライズされた手続きを研究のメインに据えない」という共通項しか持たないので、統計学を使った量的研究に対して持つ位置づけは研究によって多様になる。とはいえ、理論研究でも概念分析でもないので、基本的には統計学的ツッコミを受ける知識を多く含んでいる。

たとえばある研究が代表性のない質的データをもとにある知見を導いているとき、概念分析をしているのでなければ、その知見は(コストや時間が許せば)統計学的検証を受ける可能性があると見ることができる。コストが許せば、というのは、こういうことである。たとえば「明治期の恋愛のあり方」について何らかの解釈を提示するような研究は、モノグラフ的研究になりやすい。なぜかというと、データの制約ゆえに小説や雑誌を使うことになるが、その選定や解釈の手続きをフォーマライズすることが難しいからである。(テキストを計量的に分析することはできるだろうが、やはり検証可能性、再現可能性はそれほど保証されない。)それゆえに、最初から型にはまらずに(型にはめようにも無理なので)比較的自由に論を展開しよう、という方針を生みやすいのである。

こういった研究に対しては、統計学的ツッコミを入れるのは野暮になる。が、野暮であるということは、「そもそも意味をなさない」ということと同じではない。ここが理論研究や概念分析的研究とモノグラフ的研究の違いである。時間を遡ることは不可能だろうが、たとえば日本に住む外国人を対象とした調査研究をするとき、現状では台帳の問題でランダム抽出が難しいが、将来的には可能になるかもしれない。

教育社会学の分野でよく見られる、いわゆる「計量的モノグラフ」は、標準的な計量分析の研究と違って、仮説検定の手続きをふくまなかったり、多種多様な統計データを縦横無尽に参照して議論を進めたりするところに特徴がある。厳密な検証をしない理由には幾つかあるだろうが、大きな理由の一つは、比較的長いスパンで社会制度・構造を観察するので、統計学的なモデルを使った検証(推定)をするためのデータがそろいにくい、ということにあるのだろう。また、計量的モノグラフを好む研究者は、検定を伴わないクラスター分析や対応分析の手法(多変量解析)を頻繁に使う傾向がある。社会の大まかな様子を見渡すのに適しているからであろう。

(↓典型的な計量モノグラフの研究。質的データも利用している。)

若者と仕事―「学校経由の就職」を超えて

若者と仕事―「学校経由の就職」を超えて

さて、量的研究者からすれば、モノグラフ的研究はツッコミどころをたくさん含んでいる。というより、モノグラフ的研究は、量的研究からすれば位置づけとしては理論研究と同じで、要するにそこから問題設定や仮説を引き出してくる源泉となる研究なのである。たとえば山田昌弘先生の「パラサイト・シングル」論は、厳密な検証を伴う研究ではなかったが、(イースタリン仮説など類似の問題設定は実は古くからあったのだが)その後の結婚に関する実証研究にひとつの流れを与えた。

パラサイト社会のゆくえ (ちくま新書)

パラサイト社会のゆくえ (ちくま新書)

モノグラフ的研究は、フォーマライズされた手続きを重視しないがゆえに、基本的にあやういものである。学会での議論も空疎な空中戦になりがちである。が、自由であるだけに、しばしば革新的なアイディアを提供してくれる。エスピン=アンデルセン福祉国家の三類型などはその代表例であろう。彼の『福祉資本主義の三つの世界』は、フォーマライズされた手続きをほとんど含んでいない。が、計量的モノグラフのメリットを最大限に活かして、その後の社会学や政治経済学の研究の流れを作ったのである。

福祉資本主義の三つの世界 (MINERVA福祉ライブラリー)

福祉資本主義の三つの世界 (MINERVA福祉ライブラリー)

さて、無茶を承知で以上の議論を単純化した見取り図を書いてみたので、参考(議論のたたき台)にしてほしい。

一見自由で多様な論述に見えて、その後の研究の方向性を規定するようなモノグラフ的研究には一定の特徴があるように思える。それについては、いずれ稿を改めて考察したい。

もう一点。日本の社会学ではモノグラフ的研究が優勢であるが、フォーマライズされた手続きを含まないがゆえに、若手研究者の訓練が難しいという難点がある。若手社会学研究者は、将来モノグラフ的研究を志向するかどうかにかかわらず、どれか一つくらいはフォーマライズされた研究の訓練を受けていたほうがよいような気もするのだが、余計なお世話なのだろうか。

サンプリングについてのひとつのお話

世論調査などでもしばしば「層化二段無作為抽出」という言葉を目にする人は多いのではないだろうか。この手続を簡潔に説明することはなかなか難しいので、何度テキストを読んでもピンとこない、という人は意外に多いようである。その理由の一つは、「単純ランダムサンプリング(unrestricted random sampling)」を最初に説明して、それからその他の抽出法を応用として説明しようとしているからではないか、という気がする。そのせいか、一般の方の中には「母集団の正しい姿を捉えるには単純ランダム抽出が最善で、それ以外は亜流」といった考え方をしている人も多いようだ。

ところが、統計に関わる研究者のほとんどは、実際には「単純ランダム抽出は最善というよりも次善」ということを理解した上でデータを扱っている。それが一般の人には理解しにくい思考プロセスを踏まえているために、いろいろな誤解が生じているようである。したがって以下では、説明の順番を工夫して、最終的になぜランダム抽出が選ばれることが多いのかが分かるように解説している。

また、層化抽出にも様々な方法があるが、多くのテキストでは「比例割当の層化ランダム抽出」の説明しかしていない。これだと「層化/割当/有意orランダム」の3つの関係が理解できなくなってしまう。だが、理論的には「非比例割当の層化有意抽出」でも正しい推定ができる条件もある。サーベイ・サンプリングについての解説は、どういう条件であればどういう抽出方法が最も効率的なのかを説明できていないといけない。

以下、やはり少々煩雑になるが、難しいことはあまり書いていないので、時間をかけて読めば抽出理論の大枠は理解できる。(注:論文ではないのでいろいろ間違い等あるかもしれませんが、ご寛容を。)

バイアス(偏り)と誤差の違い

抽出について説明する前に、いわゆるバイアス(bias)ランダム誤差(random error)の違いについて理解しておく必要がある。バイアスと誤差の違いは、調査や分析においてキホンのキであるから、これを理解しないうちに抽出や計量分析について何かを論評すると、いろいろ間違ってしまうことが多い。

簡単にいうと、バイアスとはシステマティックに生じるもので、ランダム誤差(単純に誤差と呼ばれることも多い)は偶然の要因で生じるものである。といっても理解しにくいかもしれないので、比喩を使って直感的に理解できるように説明してみよう。下の図を見てほしい。

一回矢を放つことは、調査・分析を一回して、不明な母集団の特徴(たとえば「日本人の平均身長」「有権者自民党支持率」「原発廃棄支持率」)を計算することだと考えてほしい。調査対象者ひとりひとりの値ではないことに注意すること。つまり、図は「仮に特定の方法で何度も調査してそのつど平均値などを計算した場合、真の値(母数)に比べてどのようにばらつきが生じるか」を表している。

左上(1)の射的は、完璧である。この人は何度矢を放っても必ず真ん中に当てる。調査・分析の実際では、このような完璧な推定ができることはない。右上(2)はよい推定であり、的の真ん中を中心に小さなばらつきをもって集まっている。実際に調査者・分析者が目指すのはこの状態である。

左下(3)のやり方は、確かに平均すれば的の真ん中になるが、ばらつきが大きいので偶然の誤差に左右されやすい。反対に右下(4)は、ばらつきは小さいがそもそも狙っているところが違う(ズレる)場合である。射撃の比喩で言うと、左下は銃は優秀だが腕が未熟なのでばらつきが生じる、といった場合。右下は、腕はよいが銃の砲身が曲がっている、といった場合である。

調査の知識がない人からすれば、実際には一回だけしか調査しないのに、「なぜ、もし同じ方法でなんども調査したらどう結果がばらつくのかなんて分かるのか」と疑問に感じるだろう。答えは、理論(数理・解析)的にそのように証明できるか、あるいはシミュレーションなどの結果そのように判断しているか、いずれかである。

バイアスの除去と誤差の縮小(および誤差の正しい推定)はいずれも重要な課題だが、量的な調査・分析の世界では、一般にはバイアスを取り除くほうが誤差を縮めることより優先される。(注:研究者によっては誤差という言葉をバイアスとランダム誤差の両方を差して使うこともある。また、バイアスと誤差の両方をミックスした基準(MSE: Mean Square Error)を使うこともある。)

手持ちの情報から「真」の値(母数)を計算することを、推定(estimation)という。推定は計量分析の基本であるが、少なくとも伝統的な統計学においては、推定には2種類のものがある。1つは点推定(point estimation)、もう1つは区間推定(interval estimation)である。前者ではシステマティックに生じるバイアスを除去して代表値を推定することが目指される。後者では正しく偶然の誤差の大きさを推定して、「真の値は◯%の確率で◯〜◯の範囲の外にある」といった信頼区間の推定を行う。

母集団って?

統計学を少し勉強した人のなかには、「母集団を対象とした調査(センサス)ではバイアスや誤差は生じない(から、推定や検定をする必要がない)」と考えている人がいる。私も一時期そのように考えていたのだが、実際にはこれは考え方による。たとえば「日本人の平均身長」を推定するときに、日本人全員の身長をいっせいに測定したらバイアスや誤差が生じないのかというと、実際にはいろいろな仕方で生じる。

たとえば調査に応じない人が体系的にいて、バイアスをもたらすかもしれない。「体系的に生じる」というのは「ランダムに生じない」のことで、たとえば背の高い人が何らかの理由で調査に応じにくい場合、結果に下方バイアスが生じる。また、測定機器の性能のせいで、体系的バイアスあるいはランダム誤差が生じることもあるだろう。つまり、仮に同じ条件で測定しても、異なった結果が得られるかもしれない。

これが「身長」などの比較的ばらつきにくい数値だったらまだよいが、「政党支持率」になると、質問文の誘導でバイアスが生じたり、その日の気分(ムラッ気)で誤差が生じたりする可能性が高くなる。

また、「抽出データでなければ推定・検定には意味がない」と言ってしまうと、マクロ(集計)データ(たとえば国別のデータ)を使って推定を行うことにも意味がなくなってしまう。しかし実際には集計データに対しても推定や検定が行わている。これは、集計データには、いろいろな説明変数を使っても説明できない様々なノイズが入り込んでいると想定しているからである。

いずれにしろ、母集団から抽出(サンプリング)するという作業は、様々にあるバイアス・誤差の発生の仕組みの一部である、ということに気をつけてほしい。

余談だが、twitterをみていて「母集団バイアス」なる言葉を使っている人がいるのに気づいた。もちろん母集団には(正確には、母数には)バイアスはない。おそらく、母集団に属する個体(人)をリスティングした標本抽出枠(sampling frame)、いわゆる抽出台帳が、母集団を反映していないことからくるバイアスのことを言っているのかもしれない。標本抽出枠による歪みのことを「カバレッジ誤差」と呼ぶことがあるが、ここでの用語法でいえば、母集団と抽出枠のズレによって実際に生じるのは体系的バイアスの方だろう。詳しく説明はしないが、カバレッジのミスによって生じる追加のランダム誤差は、それほど問題にする必要はない。問題にすべきはバイアスである。

たとえば「ある地域に住む人」を母集団として政党支持率を推定したいとき、抽出枠に住民基本台帳や選挙人名簿を使うと、その地域に住んでいる外国人は、母集団には入っているが抽出枠からは外れる。もし民族属性と政党支持率が相関しないのなら、特にバイアスは生じない。が、民族属性は政治意識を含む様々な変数に影響を及ぼす可能性がある。もしかしたら身長の推定にもバイアスがかかるかもしれない。地域にオランダ人やデンマーク人がたくさん住んでいると、その人達を外すことによる推定の下方バイアスは無視できないだろう(参考)。逆のパターンもある。知りたいのが「その地域に住んでいる日本人の平均身長」であるとき、地域に住んでいる人全員に調査してしまうと、地域に住んでいるオランダ人やデンマーク人の分だけ上方バイアスが生じるかもしれない。

前置きが長くなったが、以上でバイアスと誤差の違い、母集団と標本の関係は理解できたと思う。で、ここまでが準備体操。ここからは、抽出の話。

層化

たとえば成人日本人の平均的な特定の政党の支持率を測定・推定したいとする。(以下、ここを各自の関心に変えて読むと実感しやすいだろう。「平均的消費性向」「原発推進賛成率」「性別分業についての平均的態度」などなど。)ここで調査の訓練を受けた専門家の思考法だと、「よし、ランダム抽出をしよう」とすぐに結論を出しているわけではない。結果的にはランダム抽出をすることが多いが、その結論にいたるまでには少々複雑な思考プロセスを経ている。

たいていの場合、知りたいこと(ここでは特定の政党支持率)にどういう変数が影響を及ぼしうるのかを専門家は理解している。大きく分ければ属性(性別、年齢、学歴、仕事、所得など)と環境(その時期の景気、災害時・戦時かどうか、など)である。ここで、もし何らかの経験的証拠から、特定政党の支持の度合いが性別と年齢(一歳刻み)<だけ>で、しかも<完全に>決まっていることがわかっているとしょう。さらに、母集団の年齢・性別構成も分かっているとする。このような場合、どういう抽出をするのがベストだろうか?

「できるだけ大きな標本サイズで、単純ランダム抽出」を答案に書いた人は点がもらえない。正解は、性別と年齢ごとにひとりずつ(20歳の男女ひとりずつ、21歳の男女ひとりずつ...)任意の人間を連れてきて測定し、それを母集団の人口構成比に比例するように重み付けをした値(加重平均)を計算する、である。20歳男が65万人いるのなら、そのひとりから測定された数値を65万倍し、同じように他のカテゴリー(層)についても人口分だけ倍にし、合計して最後に総人口で割ってやれば、母集団における平均値を正確に計算することができる。これによって非常に低いコストで調査ができる。

このように母集団を属性別に分けることを、層化(stratification)という。層(strata)というと階層構造をイメージするひとが多いかもしれないが、ここでは層は単なる「グループの分け方」である。そしてこの場合、母集団を性別と年齢で層化(グループ分け)したわけである。そして層化抽出(stratified sampling)とは、各層に属する個人(あるいは集団)を抽出することである。気をつけるべきは、この条件では抽出はランダムである必要はないし、層につき複数人を抽出する必要もない、ということである。友人にたまたま20歳男がいるのなら、その人を20歳男全員の代表にしてもよい。というのは、先ほどの前提から政党支持は年齢と性別で完全に決まるので、20歳男の政党支持はみな同じ値だからである。

(※余談だが、もし特定政党支持の度合いと年齢の効果が線形的で、かつ年齢効果と性別効果に交互作用がないと想定できるのなら、抽出する年齢層は2つ、標本サイズは3人で十分である。もちろんこんなことは現実にはあまりないが。)

さて通常は、層化を使った抽出では「各層にあたる調査単位(個人や、多段抽出の場合は集団)をひとり(一地点)ずつ任意に抽出する」といったことはしない。多くの場合、比例割当(proportinate allocation)層化ランダム抽出(stratified random sampling)を行う。つまり母集団を層化した上で、母集団の人口構成に合うように標本を割り付け、その分だけ各層内部でランダム抽出をするのである。たとえば20歳男が成人総人口の1%いるのなら、標本の1%を20歳男に割り付け(比例割当)、そのなかでランダムに抽出をする。(逆に、最初の例は「比例割り当てしない層化抽出」である。)

ではなぜ多くの場合、わざわざ層ごとに1人の有意抽出ではなく、複数人の観察を行い、また比例割当やランダム抽出をするのだろうか? というのは、少なくとも上記の場合、こういった手間を省いて、層化してひとりずつ調査して加重平均したほうが効率的だからである。

層化抽出して平均値を推定する際には、複数のやり方がある。上記のように「層につきひとりずつ抽出して加重平均」するのも一つの方法であるが、層につき複数抽出するときには、その複数をどういう方法で割当するか、そして割当個体数を有意抽出するかランダム抽出するか、という選択をしなければならない。

ランダム抽出/有意抽出

先に有意抽出かランダム抽出かの選択について考えよう。もし推定したい変数は層化された属性(性別と年齢)<だけ>で決まるが、それらと相関しない撹乱要因があるために誤差が生じるといった場合(つまり層化が完全に行われる場合)、有意抽出でもランダム抽出でも、標本サイズが同じならば結果は同じである(標本サイズが大きければ大きいほど誤差が小さくなる)。逆に言えば、層化が完全ではない場合、ランダム抽出する必要がある、ということになる。上記の例だと、政党支持は年齢と性別だけでは完全に決まらないかもしれない。

たとえば性別と年齢以外には、学歴のみが効いているとしよう。ならば学歴でも層化すればよい。ここで台帳(抽出枠)に学歴の記載がない場合には、あらかじめ層化をすることはできない。しかし有意抽出の場合は台帳を必要としないから、台帳に情報がない属性でも層化が可能である。層にあてはまる人を能動的に探せばよいからだ。有意抽出はしばしばいきあたりばったりのデタラメの、悪い抽出の仕方だと思っている人がいるが、その名(positive sampling, purposive selection)のとおり、ターゲットを明確にした抽出のことである。有意抽出の強みは、層化抽出においてこそ発揮される。

ただしいずれにしろ母集団の学歴構成はやはり既知でなければならない。そうでないと有意抽出したあとでどうやって加重平均をしたらいいのか、あるいは比例割り当て(後述)の場合何人を特定の学歴ごとに集める必要があるのかが分からないからである。

では、台帳に学歴の記載もなく、また母集団の学歴構成も不明なときはどうしたらよいのだろうか。ここで有意抽出をすると、偏った学歴構成で抽出してしまう可能性があり、バイアスが生じるかもしれない。この場合、ランダム抽出によって層(性別と年齢)ごとの学歴構成を母集団に近似させるという方法がある。つまりランダム抽出は、「あらかじめ層化ができないので抽出において擬似的に層化してしまおう」という意味では、層化抽出の次善の策である。

そして実はもう一つ、ランダム抽出が有意抽出に対して持つ優位性がある。それは、政党支持率に影響することは分かっているが観察しにくい(性格など)、あるいはそもそも理論的に予想できない何らかの要因を含めて、分布を母集団に近似できる、という点にある。「なんだかよく分からない影響があるはずだが、ランダム抽出すればそれらを含めて母集団の姿を(誤差はあるが)とらえることができる」ということである。このメリットは非常に大きく、ランダム抽出が好まれる最も大きな理由であると言えるだろう。

ともあれ、ランダム抽出が母集団の縮図として有効であるための条件は、以下のとおりである。

  1. 標本サイズが十分に大きいこと。(誤差の問題。)
  2. 抽出バイアスがないこと。(バイアスの問題。)

1についてだが、たとえば仮に母集団の大卒比率が50%であるとしよう。標本サイズが10人と少なくても、層化が可能であるのなら5人を大卒にすればよい。しかし層化ができないときはランダム抽出するしかない。このとき10人のうち大卒が正しく5人になる確率は24.6%にすぎない。もちろん標本サイズが100人のとき大卒を正しく50人引き当てる確率は約8%とさらに小さくなるが、「10人中4人」よりは「100人中45人」などの方が推定値が母数に近くなるので、50人の周辺の確率をあわせて考慮すれば、ランダム抽出によって母集団分布に近似させるときには標本サイズは大きいほうが抽出誤差は小さくなる。

ただし、標本サイズが小さいことは誤差の拡大要因であって、標本サイズが小さくてもそれによってバイアスが生じるわけではない。つまり仮に同じ標本サイズで何度も抽出すれば、期待値は母数に一致する。

次に2である。調査に慣れていない人は、バイアスは有意抽出の問題であってランダム抽出の問題ではないと考えがちであるが、有意抽出、ランダム抽出のいずれにおいても、抽出であるからにはバイアスが入り込む余地はある。層化できない属性について有意抽出でバイアスが生じやすいのは、たとえば高学歴の人が知人から有意抽出するとやはり高学歴の人ばかりが調査に協力してしまいがちであるからだ。これはどちらかというと調査者側の問題である。反対に、ランダム抽出の場合には調査対象の側が調査に協力するかどうかがしばしば問題になる。

これはいわゆるセルフ・セレクション・バイアスと呼ばれている問題である。いくら標本抽出の段階でバイアスがなくても、標本の全てから回答を得られるわけではない。ここでもし推定したい変数(や回帰係数)と、調査に協力するかどうかが相関していないのなら、回収率の低さは問題ではない。しかしたとえば自民党政党支持率を推定するとき、「自民党支持者のほうが民主党支持者よりも調査に協力的」だとすれば、セルフ・セレクションが生じて、回答者データはバイアスを持つことになる。

有意抽出が調査者によるデータのセレクションだとすれば、セルフ・セレクションは回答者によるデータのセレクションである。いずれも推定にバイアスをもたらすという共通点がある。

このように考えれば、抽出方法としての有意抽出とランダム抽出の選択は一般に考えられているほどランダム抽出優位というわけではなく、意外に検討に値するものだということがわかる。推定したい変数に影響する変数がA、B、Cの3つあり、そのうちCだけが層化できないとしよう。このとき、Cの分布を母集団に近似するためにランダム抽出するならば、標本サイズによる誤差の問題やセルフ・セレクションによるバイアスの問題を考慮する必要がある。これらによる問題がCの分布を考慮しないで有意抽出をすることからくるバイアスの問題をあきらかに上回るようなら、層化有意抽出をした方がいいという判断もありうるだろう。

割当方法

次に割当(allocation)の方法についてである。層化をしない場合には割当の問題は生じないが、層化した場合には、必ず「どの層にどのくらいの個数を割り当てるか」という選択をしなければならない。しばしば層化と割当を混同している記述を見ることがあるが、この2つは全く異なった手続きである。層化とは母集団の分け方であり、割当とは各層への標本の割当方である。どの層に何人/何地点を割当するかは、層化の手続きとは独立に決めることができる(同じ層化方法で異なった割当ができる)。また、「ランダム抽出か割当抽出か」といった言い方をしている記述もあるようだが、これも誤解である。何らかの方法で割当をしたあとに、ランダム抽出をするか有意抽出をするのかを決定することができる。

大きく分けると、割当法には比例割当(proportionate allocation)とそれ以外の割当(任意割当と呼んでおく)がある。層化した属性について母集団の分布が分かっている場合、任意割当をしたときも結果は加重平均しておく必要がある。母集団分布を使って加重平均をする限り、任意割当でも比例割当でもバイアスからは自由である。では誤差はどうだろうか。

比例割当は(データの欠損がないとき)加重(weighting)の作業を行わなくてもバイアスがかからないので分析がしやすいという利点があるが、標本サイズが小さいときに特定のグループに属するケースの数が小さくなり、そのカテゴリーの推定については誤差が大きくなるというデメリットがある。たとえば標本サイズが100しかないときに年齢で層化して比例割当をすると、20代への割当が非常に少なくなってしまう。このとき、当該カテゴリーに属する個人のみを多めに抽出する、という作業を行うことがある。これをオーバーサンプリングという。オーバーサンプリングしたデータは実質的に任意割当をしたことになるので、重み付け(ウェイトバック)によってバイアスを除いてやる必要がある。

参考までに、未回収等によるデータの欠損を埋め合わせる際にウェイト(抽出ウェイト)を用いることもあるが、これは上記オーバーサンプリングの際の補正としての重み付けとは異なる作業であるので注意が必要である。というのは、オーバーサンプリングの作業はあくまでランダム抽出(あるいは完全層化の有意抽出)に付随する作業なのでバイアスからは自由であるが、未回収や無回答によるデータの欠損はセルフ・セレクションによるバイアスを生じさせている可能性があるので、いくらウェイトを使って表面上だけ母集団分布に近づけても、バイアスが補正されるわけではないからである。

任意割当の方法としては上記オーバーサンプリングに加えて、最適割当(optimum allocation)という方法がある。これは限られた標本サイズでいかにして最も効率のよい(最適な)区間推定を行うのかという観点から標本を割り振る作業である。比例割当は母集団の分布に応じて標本を割り振るが、最適割当では各層における母集団の分散に応じて標本を割り振る。つまり値のばらきつが大きい層には多くの数を割振り、小さい層には少なく割り振るのである。この場合も、バイアスを除くために加重の作業を行う必要がある。

オーバーサンプリングや最適割当といった任意割当は、実際にはそれほど用いられることがない。最適割当が重宝されない理由は、そもそも各層における母分散が分かっていることはまずない、という事情があるからである。両者に共通する理由として、加重を伴う推定の煩雑さが挙げられるだろう。バイアスを除くためにケースに加重すると標本数が増えることになるが、そのままだと誤差が過小に推定されてしまうので、クラスタリング補正をしなくてはならない。

多段抽出

多段抽出(multistage sampling)とは、まずは集団(クラスター)を抽出し、そのあとクラスターを全数調査したり、さらにそこから一部を抽出する方法である。多段抽出については説明に多くの言葉を費やす必要はないであろう。通常の調査法のテキストブックに書いてあることで十分である。ここでは2点のみ確認しておこう。

多段抽出をする理由は簡単で、調査コストを削減したいからである。反面、誤差が拡大する。なぜ誤差が大きくなるのかというと、「たまたま偏ったケースを引き当ててしまった」というときの影響が、集団抽出において個人抽出よりも大きい、ということである。平均所得を推定しているとき、たまたま高所得の集団を引いてしまうと、偏った個人をごっそり引いたことになる。特に知りたい情報がクラスターごとに強いまとまりを持っているときは、誤差の大きさが増すことになる。したがってクラスターの選択は、推定したい変数に影響する属性(ただし層化されているものを除く)と相関しないように行うのがよい。さらに、多段抽出による誤差の拡大は、抽出するクラスターの数が多ければ多いほど抑えられる。

次に、多段抽出は推定のバイアスをもたらすのではない、ということには注意すべきだろう。何度も何度も多段抽出をしてその都度の平均値を平均すれば、その値(つまり標本平均の期待値)は母数に一致する(これを数式で証明するのはかなりややこしいが)。ただ、標本分布のばらつき(誤差)が大きい、ということである。

具体例で説明しよう。たとえばあるひとつの学校に属する生徒を母集団として、(何らかの方法で測定できる)計算能力を推定したいとする。全員にテストするのはコストがかかるので、ひとつの教室に収まる人数を考え、一部の生徒のみ(30人)を対象にすることにした。全学年・全クラスを横断して無作為抽出すればよいのだが、時間割の関係で一部のクラスのみをまず抽出し、そのなかで無作為に生徒を選んでテストをすることにした(たとえば6クラス、一クラスにつき5人)。

このとき、クラスごとに知能のまとまり(クラスタリング)がある度合いに応じて、母集団を反映していないかたちでクラス選択をしてしまう可能性が高くなる。たとえば計算能力は学年が上がるにつれて高くなると思われる。クラスを抽出するときは、特に平均計算能力が高いクラスを選ぶのか選ばないのかで全体の平均の推定値が大きく変わる。一段階抽出で個人を抽出するときには、こういったクラスから一部を抽出し、一部を抽出しないわけで、たまたま計算能力が高い高学年クラスを多く抽出した、といった心配をしなくてもよい。

多段抽出の際、調査者は各段階で層化できるのならばした方がよい。また、層化した段階ではどのような割当方法を選ぶのかも考慮する必要がある。

どうして層化二段ランダム抽出なのか

多くの社会調査では、国勢調査基本調査区や選挙区を地点とした多段抽出を採用し、さらに第一段階目の地点抽出においてのみ、地域・都市規模(場合によっては産業人口比率)で層化して地点数を比例割当している。これはなぜかというと、何らかの理由でランダム抽出を組み込むという縛りを設けると、層化に利用できる情報として居住地域の情報(住所と、そこからわかる人口規模などの地域特性)、年齢、性別くらいしかなくなってしまうからである。

さらに多めの標本サイズを確保するために多段抽出は避けられないとなると、第一段階では任意の集団ではなく地点を抽出するしかない。人ではなく地点を層化する情報はというと、地域(県など)と都市規模、そして産業人口比率などになる。マクロ情報が入手できる限り様々な層化の方法はあるが(たとえば平均年齢など)、都市規模や産業比率などは汎用的な説明力が高いと考えられているのだろう。

さらに第二段階では個人を年齢や性別で層化できるはずだが、これはあまり行われていない。ひとつの理由は、一定程度の標本サイズであればかなり正確に母集団分布に近似できることがあるだろう。標本サイズが100もあれば、分布が母集団から大きくズレることはなくなる。また、どうせセルフ・セレクションによるバイアスが生じることが見込めるので、あまり誤差に気を配ってもしようがない、という判断もあるのかもしれない。

OECDデータ講習会の告知

2月16日(水)に、立命館大学衣笠キャンパスOECD東京センターの方をお呼びして、データについての講習会を行います。興味のある方は、チラシにある連絡先までご一報ください。(かなりの人数に対応できる予定ですが、万が一希望者多数の場合は、先着順にします。)

  • 日時:2月16日(水)、13:00〜15:00(申し込みが30人を超えた場合、同じ内容を二回に分けて実施します。その際、第二回の開始は15:15の予定です。)
  • 場所:立命館大学衣笠キャンパス 有心館3F431
  • 内容:主にOECD iLibraryの利用方法についてです。詳しくはチラシを御覧ください。
  • 参加費:無料。

Stataによる予測値のプロット(1)

最近の論文では、回帰モデル推定後に予測値をプロットすることが多いようです。Stataで分析しているときにそれをやる方法についてまとめておきます。

まず、連続量の説明変数による被説明変数の予測値の変化を見たい場合、Stataで最も簡単に直接グラフを出力するやり方は、predictコマンドを使うことです。架空のデータを使って説明します。(変数colは大卒ダミー、age2は年齢二乗項。)

use http://homepage3.nifty.com/sociology/data/predict, clear
reg income male col age age2
predict pincome

これでpincomeという予測値が各ケースごとに出力されました。これを年齢をX軸にとってプロットしますが、何も考えずにすると以下のようになります。

scatter pincome age, scheme(economist)

これは4つのカテゴリー(性別×学歴)ごとに収入予測値がプロットされるからです。年齢との交互作用が推定されていない場合、何かにカテゴリーを決めてプロットしても良いのですが、age以外の変数について平均値をとったとき、という設定で出力するのが一般的でしょう。

オーソドックスな方法は、個々の推定された係数と説明変数の平均値を使って、マニュアル的に予測値変数をつくってやることです。

まずは共変量の平均値をマクロに保存する。

su male
global m_male=r(mean)
su col
global m_col=r(mean)

次にそれを使って、ageとage2以外については平均値を使って予測値を計算する。

qui reg income male col age age2
gen pincome2=_b[_cons]+_b[male]*$m_male+_b[col]*$m_col+
_b[age]*age+_b[age2]*age2
scatter pincome2 age, scheme(economist)

とはいえ、この方法では共変量が多くなったときはかなり面倒になるので、次のような方法(裏ワザ?)を使います。

qui reg income male col age age2
adjust male col, by(age age2) gen(pincome3)

adjustコマンドは引数にとった変数(ここではmaleとcol)については平均値であると措定し、オプションbyの引数にとった変数の個々の値の予測値を出力してくれるコマンドです。ともあれ、これでpincome2と全く同じ数値がpincome3として出力されます。(adjustコマンドはversion 11からmarginsという新しいコマンドに置き換えられています。ただadjust自体はまだ使えます。)

ロジットきょうだい(*logit)の場合、予測値はprオプションを使った確率予測値を使うのが一般的だと思います。ここでもやり方は同じですが、せっかくだから学歴だけ平均値で、性別と年齢ごとのプロットをしてみます。

logit seiki male col age age2
qui adjust col, by(male age age2) gen(pseiki) pr
scatter pseiki age, scheme(economist)

続きは後日。

補足

あとから気づきました。以下のようにすれば、スムーズな曲線になるのでした。

tw (function seiki=invlogit(_b[_cons]+_b[male]*0+_b[col]*1+_b[age]*x), range(30 60)) (function seiki=invlogit(_b[_cons]+_b[male]*1+_b[col]*1+_b[age]*x), range(30 60)), scheme(economist) legend(off)

社会調査法のテキスト

日本でも社会調査法のテキストブックは数多く出版されている。おそらく100冊は下らないのではないか。質の高いものも多く、そのなかでどれを選ぶのか、なかなかに悩ましい問題だ。

講義で使うこともあって様々なテキストブックを眺めてきたが、私見では、下のテキストは出色である。

入門・社会調査法―2ステップで基礎から学ぶ

入門・社会調査法―2ステップで基礎から学ぶ

この本は、社会調査においてほんとうに大事なことを省略していない。たとえば第4章の「社会調査のデザイン」では、調査を設計する前にリサーチクエスチョンを練り上げる必要性を、無作為割り当て実験と調査との違い、擬似相関を除去して因果分析を行う際に必要となる共変量データの採取、という面から丁寧に説明している。選択バイアスに触れているのも貴重である。

その他の章も「かゆいところに手が届く」説明になっており、実査の段階で実際に遭遇する問題もほぼ網羅されているようだ。来年度の社会調査法の講義ではこのテキストブックを採用させていただいた。

計量分析におけるミクロとマクロ

このエントリは関心のない人は読まない方がいいかもしれません。(頭が痛くなるわりにそれほど重要な話でもないので。)

計量分析の世界では、しばしば「性別」や「学歴」が個人レベル変数で、たとえば国の特徴を表す変数(「社会支出のGDP比」など)がマクロ変数だと考えられています。結論から言えば特に問題はないのですが、ではどうして後者がマクロ変数なのかと考えはじめると、意外にややこしい説明が必要になります。

しばしばなされる説明は、マクロ変数は「集団の特性」を示す、というものです。たとえば教育社会学でしばしば利用される学校データだと、個人の特徴(性別、出身家庭のSES、エスニシティなど)に対比して学校レベルの特徴(生徒数、男女比、公立か私立か、学校の人種構成など)がマクロである、と理解されています。

しかしここで「集団の特徴だとマクロレベルだ」と考えると、性別やエスニシティがなぜミクロレベルなのかがうまく説明できなくなります。ある人が「男性であること」と「高偏差値を持つ学校に在籍していること」という二つの特徴を持っており、なぜ後者だけマクロとして理解されるのかが、これだけだと分かりません。実際、賃金関数の推計で企業規模変数を投入するとき、通常この変数はマクロレベルだとは考えられておらず、性別と同様に扱われます。ついでにいえば、性別の方がよほど「マクロ」な変数だという気もします(世の中のほぼ半分の集団を表すものなので)。

要するにあらゆる変数は集団の(厳密にはデータの最小単位の)「分け方」だと言うことができてしまうわけです。

このことを反映して計量分析では、便宜的に特定の変数をマクロ変数と呼んでいるだけで、計量分析の理論からすればミクロとマクロに有意味な違いを設定しないことがほとんどです。国別マクロデータの分析方法は、モデルとしては個人レベルのマイクロデータの分析方法と同じです。国別の女性労働力率で出生力を説明する時などは、データが集計データなので「マクロデータの分析」だと言われますが、モデル自体はミクロの回帰分析と同じものです。

ただ、特定のモデルではデータの「レベル」をモデルのなかで分ける必要があることがあります。混合効果モデルが代表的ですが、この場合しばしば国別のデータと個人レベルのデータの両方を同時に処理します。ただしこのモデルは一般的に考えられているミクロデータとマクロデータに常に適用されるわけではなく、同一個人のデータとその個人の別時点でのデータというレベル分けでもいいのです。

それにレベルが違うとはいえ、基本的にはどの変数も(さきほどの言い方だと)集団の分け方であることに違いはありません。だからデータの様子によっては別にこれらのモデルを使う必要がありません。パネルモデルや混合効果モデルに特徴的なのは、レベルが異なるデータを扱うということではなく、「理論的に意味をなさないが、何らかの影響を持つと思われる変数(分け方)を投入する」という点にあります。

「理論的に意味をなさないが何らかの影響を持つ」というのはわかりにくい表現ですが、例を挙げると理解しやすいと思います。たとえば「鈴木さん」とかです。あるいは「日本人」でもいいでしょう。通常はこういった固有名を示す変数は計量モデルには投入されません。なぜかというと「理論的に意味がない」からです。「この回答者の賃金が高いのは、回答者が鈴木さんだからだ」では、なんだか説明された気になりません。説明する要素はしたがって常に理論的に意味を持たされやすい変数であることが期待されます。もちろんここは多かれ少なかれ学者コミュニティの判断に依存している部分もあります。「賃金が高いのは男だからだ」という説明は「鈴木さんだからだ」より通りやすいのが現状です。

どうしてこういうおかしな変数を投入するかというと、「鈴木さん(個人)ダミー」を投入することで、「鈴木さんであること」からくるあらゆる観測されない効果をそこに吸収させ、個人「内」レベルの変化(「朝食をきちんと取るようにした」)が学力などのパフォーマンスに及ぼす影響を測定しやすくするためです。そして固定効果モデルに限っていえば、単に分析者はこういった変数の効果に関心がないだけで、計量モデルの中の位置づけは他の変数と基本的には同じです。

データによってはランダム効果モデルが使えて、そこでは上位レベルの変数を投入することができますが、上位レベルのまとまり(「鈴木さん」や「日本人」)の効果を除去するという方針に変わりはありません。個体固有の観測不可能な影響を除去する必要がなければ、GDPだろうが朝食だろうが、レベルを気にせず投入して解釈すればいいわけです。

したがって、性別による説明に理論的意味がない(がこの分類に観測しにくい影響がある)と判断する理由があれば、性別に対応する変数(たとえば男の平均友人数)をマクロ変数だと呼ぶこともできるわけです。とはいえ、まとまり固有の効果はそれこそ「まとまっていること(によって影響を及ぼし合い、観測不可能な影響を与えていること)」自体から発生する効果であると少なくとも理論的には想定されているので、性別を固有まとまりに設定する理論はちょっと考えにくい。とはいえ閉じられた世界で男女がそれぞれグループを作っているようなケースを観測する際には、これを上位レベルのまとまりとして統御することはありうるでしょう。

■追記
すみません最初の問に答えてませんでした。「まとまり効果」を想定できる分け方(「鈴木さん」「日本人」「3年B組」など)に対応する特徴(「学歴」「社会支出」「クラスサイズ」など)をマクロ変数と呼ぶことがあり、それに関しては単なる便宜上の呼び方の違いというだけではなく、計量分析上の取扱い方が異なる、ということでした。