読者です 読者をやめる 読者になる 読者になる

社会学者の研究メモ

はてなダイアリーから移転しました。

サンプリングについてのひとつのお話

社会調査 教科書 計量分析

世論調査などでもしばしば「層化二段無作為抽出」という言葉を目にする人は多いのではないだろうか。この手続を簡潔に説明することはなかなか難しいので、何度テキストを読んでもピンとこない、という人は意外に多いようである。その理由の一つは、「単純ランダムサンプリング(unrestricted random sampling)」を最初に説明して、それからその他の抽出法を応用として説明しようとしているからではないか、という気がする。そのせいか、一般の方の中には「母集団の正しい姿を捉えるには単純ランダム抽出が最善で、それ以外は亜流」といった考え方をしている人も多いようだ。

ところが、統計に関わる研究者のほとんどは、実際には「単純ランダム抽出は最善というよりも次善」ということを理解した上でデータを扱っている。それが一般の人には理解しにくい思考プロセスを踏まえているために、いろいろな誤解が生じているようである。したがって以下では、説明の順番を工夫して、最終的になぜランダム抽出が選ばれることが多いのかが分かるように解説している。

また、層化抽出にも様々な方法があるが、多くのテキストでは「比例割当の層化ランダム抽出」の説明しかしていない。これだと「層化/割当/有意orランダム」の3つの関係が理解できなくなってしまう。だが、理論的には「非比例割当の層化有意抽出」でも正しい推定ができる条件もある。サーベイ・サンプリングについての解説は、どういう条件であればどういう抽出方法が最も効率的なのかを説明できていないといけない。

以下、やはり少々煩雑になるが、難しいことはあまり書いていないので、時間をかけて読めば抽出理論の大枠は理解できる。(注:論文ではないのでいろいろ間違い等あるかもしれませんが、ご寛容を。)

バイアス(偏り)と誤差の違い

抽出について説明する前に、いわゆるバイアス(bias)ランダム誤差(random error)の違いについて理解しておく必要がある。バイアスと誤差の違いは、調査や分析においてキホンのキであるから、これを理解しないうちに抽出や計量分析について何かを論評すると、いろいろ間違ってしまうことが多い。

簡単にいうと、バイアスとはシステマティックに生じるもので、ランダム誤差(単純に誤差と呼ばれることも多い)は偶然の要因で生じるものである。といっても理解しにくいかもしれないので、比喩を使って直感的に理解できるように説明してみよう。下の図を見てほしい。

一回矢を放つことは、調査・分析を一回して、不明な母集団の特徴(たとえば「日本人の平均身長」「有権者自民党支持率」「原発廃棄支持率」)を計算することだと考えてほしい。調査対象者ひとりひとりの値ではないことに注意すること。つまり、図は「仮に特定の方法で何度も調査してそのつど平均値などを計算した場合、真の値(母数)に比べてどのようにばらつきが生じるか」を表している。

左上(1)の射的は、完璧である。この人は何度矢を放っても必ず真ん中に当てる。調査・分析の実際では、このような完璧な推定ができることはない。右上(2)はよい推定であり、的の真ん中を中心に小さなばらつきをもって集まっている。実際に調査者・分析者が目指すのはこの状態である。

左下(3)のやり方は、確かに平均すれば的の真ん中になるが、ばらつきが大きいので偶然の誤差に左右されやすい。反対に右下(4)は、ばらつきは小さいがそもそも狙っているところが違う(ズレる)場合である。射撃の比喩で言うと、左下は銃は優秀だが腕が未熟なのでばらつきが生じる、といった場合。右下は、腕はよいが銃の砲身が曲がっている、といった場合である。

調査の知識がない人からすれば、実際には一回だけしか調査しないのに、「なぜ、もし同じ方法でなんども調査したらどう結果がばらつくのかなんて分かるのか」と疑問に感じるだろう。答えは、理論(数理・解析)的にそのように証明できるか、あるいはシミュレーションなどの結果そのように判断しているか、いずれかである。

バイアスの除去と誤差の縮小(および誤差の正しい推定)はいずれも重要な課題だが、量的な調査・分析の世界では、一般にはバイアスを取り除くほうが誤差を縮めることより優先される。(注:研究者によっては誤差という言葉をバイアスとランダム誤差の両方を差して使うこともある。また、バイアスと誤差の両方をミックスした基準(MSE: Mean Square Error)を使うこともある。)

手持ちの情報から「真」の値(母数)を計算することを、推定(estimation)という。推定は計量分析の基本であるが、少なくとも伝統的な統計学においては、推定には2種類のものがある。1つは点推定(point estimation)、もう1つは区間推定(interval estimation)である。前者ではシステマティックに生じるバイアスを除去して代表値を推定することが目指される。後者では正しく偶然の誤差の大きさを推定して、「真の値は◯%の確率で◯〜◯の範囲の外にある」といった信頼区間の推定を行う。

母集団って?

統計学を少し勉強した人のなかには、「母集団を対象とした調査(センサス)ではバイアスや誤差は生じない(から、推定や検定をする必要がない)」と考えている人がいる。私も一時期そのように考えていたのだが、実際にはこれは考え方による。たとえば「日本人の平均身長」を推定するときに、日本人全員の身長をいっせいに測定したらバイアスや誤差が生じないのかというと、実際にはいろいろな仕方で生じる。

たとえば調査に応じない人が体系的にいて、バイアスをもたらすかもしれない。「体系的に生じる」というのは「ランダムに生じない」のことで、たとえば背の高い人が何らかの理由で調査に応じにくい場合、結果に下方バイアスが生じる。また、測定機器の性能のせいで、体系的バイアスあるいはランダム誤差が生じることもあるだろう。つまり、仮に同じ条件で測定しても、異なった結果が得られるかもしれない。

これが「身長」などの比較的ばらつきにくい数値だったらまだよいが、「政党支持率」になると、質問文の誘導でバイアスが生じたり、その日の気分(ムラッ気)で誤差が生じたりする可能性が高くなる。

また、「抽出データでなければ推定・検定には意味がない」と言ってしまうと、マクロ(集計)データ(たとえば国別のデータ)を使って推定を行うことにも意味がなくなってしまう。しかし実際には集計データに対しても推定や検定が行わている。これは、集計データには、いろいろな説明変数を使っても説明できない様々なノイズが入り込んでいると想定しているからである。

いずれにしろ、母集団から抽出(サンプリング)するという作業は、様々にあるバイアス・誤差の発生の仕組みの一部である、ということに気をつけてほしい。

余談だが、twitterをみていて「母集団バイアス」なる言葉を使っている人がいるのに気づいた。もちろん母集団には(正確には、母数には)バイアスはない。おそらく、母集団に属する個体(人)をリスティングした標本抽出枠(sampling frame)、いわゆる抽出台帳が、母集団を反映していないことからくるバイアスのことを言っているのかもしれない。標本抽出枠による歪みのことを「カバレッジ誤差」と呼ぶことがあるが、ここでの用語法でいえば、母集団と抽出枠のズレによって実際に生じるのは体系的バイアスの方だろう。詳しく説明はしないが、カバレッジのミスによって生じる追加のランダム誤差は、それほど問題にする必要はない。問題にすべきはバイアスである。

たとえば「ある地域に住む人」を母集団として政党支持率を推定したいとき、抽出枠に住民基本台帳や選挙人名簿を使うと、その地域に住んでいる外国人は、母集団には入っているが抽出枠からは外れる。もし民族属性と政党支持率が相関しないのなら、特にバイアスは生じない。が、民族属性は政治意識を含む様々な変数に影響を及ぼす可能性がある。もしかしたら身長の推定にもバイアスがかかるかもしれない。地域にオランダ人やデンマーク人がたくさん住んでいると、その人達を外すことによる推定の下方バイアスは無視できないだろう(参考)。逆のパターンもある。知りたいのが「その地域に住んでいる日本人の平均身長」であるとき、地域に住んでいる人全員に調査してしまうと、地域に住んでいるオランダ人やデンマーク人の分だけ上方バイアスが生じるかもしれない。

前置きが長くなったが、以上でバイアスと誤差の違い、母集団と標本の関係は理解できたと思う。で、ここまでが準備体操。ここからは、抽出の話。

層化

たとえば成人日本人の平均的な特定の政党の支持率を測定・推定したいとする。(以下、ここを各自の関心に変えて読むと実感しやすいだろう。「平均的消費性向」「原発推進賛成率」「性別分業についての平均的態度」などなど。)ここで調査の訓練を受けた専門家の思考法だと、「よし、ランダム抽出をしよう」とすぐに結論を出しているわけではない。結果的にはランダム抽出をすることが多いが、その結論にいたるまでには少々複雑な思考プロセスを経ている。

たいていの場合、知りたいこと(ここでは特定の政党支持率)にどういう変数が影響を及ぼしうるのかを専門家は理解している。大きく分ければ属性(性別、年齢、学歴、仕事、所得など)と環境(その時期の景気、災害時・戦時かどうか、など)である。ここで、もし何らかの経験的証拠から、特定政党の支持の度合いが性別と年齢(一歳刻み)<だけ>で、しかも<完全に>決まっていることがわかっているとしょう。さらに、母集団の年齢・性別構成も分かっているとする。このような場合、どういう抽出をするのがベストだろうか?

「できるだけ大きな標本サイズで、単純ランダム抽出」を答案に書いた人は点がもらえない。正解は、性別と年齢ごとにひとりずつ(20歳の男女ひとりずつ、21歳の男女ひとりずつ...)任意の人間を連れてきて測定し、それを母集団の人口構成比に比例するように重み付けをした値(加重平均)を計算する、である。20歳男が65万人いるのなら、そのひとりから測定された数値を65万倍し、同じように他のカテゴリー(層)についても人口分だけ倍にし、合計して最後に総人口で割ってやれば、母集団における平均値を正確に計算することができる。これによって非常に低いコストで調査ができる。

このように母集団を属性別に分けることを、層化(stratification)という。層(strata)というと階層構造をイメージするひとが多いかもしれないが、ここでは層は単なる「グループの分け方」である。そしてこの場合、母集団を性別と年齢で層化(グループ分け)したわけである。そして層化抽出(stratified sampling)とは、各層に属する個人(あるいは集団)を抽出することである。気をつけるべきは、この条件では抽出はランダムである必要はないし、層につき複数人を抽出する必要もない、ということである。友人にたまたま20歳男がいるのなら、その人を20歳男全員の代表にしてもよい。というのは、先ほどの前提から政党支持は年齢と性別で完全に決まるので、20歳男の政党支持はみな同じ値だからである。

(※余談だが、もし特定政党支持の度合いと年齢の効果が線形的で、かつ年齢効果と性別効果に交互作用がないと想定できるのなら、抽出する年齢層は2つ、標本サイズは3人で十分である。もちろんこんなことは現実にはあまりないが。)

さて通常は、層化を使った抽出では「各層にあたる調査単位(個人や、多段抽出の場合は集団)をひとり(一地点)ずつ任意に抽出する」といったことはしない。多くの場合、比例割当(proportinate allocation)層化ランダム抽出(stratified random sampling)を行う。つまり母集団を層化した上で、母集団の人口構成に合うように標本を割り付け、その分だけ各層内部でランダム抽出をするのである。たとえば20歳男が成人総人口の1%いるのなら、標本の1%を20歳男に割り付け(比例割当)、そのなかでランダムに抽出をする。(逆に、最初の例は「比例割り当てしない層化抽出」である。)

ではなぜ多くの場合、わざわざ層ごとに1人の有意抽出ではなく、複数人の観察を行い、また比例割当やランダム抽出をするのだろうか? というのは、少なくとも上記の場合、こういった手間を省いて、層化してひとりずつ調査して加重平均したほうが効率的だからである。

層化抽出して平均値を推定する際には、複数のやり方がある。上記のように「層につきひとりずつ抽出して加重平均」するのも一つの方法であるが、層につき複数抽出するときには、その複数をどういう方法で割当するか、そして割当個体数を有意抽出するかランダム抽出するか、という選択をしなければならない。

ランダム抽出/有意抽出

先に有意抽出かランダム抽出かの選択について考えよう。もし推定したい変数は層化された属性(性別と年齢)<だけ>で決まるが、それらと相関しない撹乱要因があるために誤差が生じるといった場合(つまり層化が完全に行われる場合)、有意抽出でもランダム抽出でも、標本サイズが同じならば結果は同じである(標本サイズが大きければ大きいほど誤差が小さくなる)。逆に言えば、層化が完全ではない場合、ランダム抽出する必要がある、ということになる。上記の例だと、政党支持は年齢と性別だけでは完全に決まらないかもしれない。

たとえば性別と年齢以外には、学歴のみが効いているとしよう。ならば学歴でも層化すればよい。ここで台帳(抽出枠)に学歴の記載がない場合には、あらかじめ層化をすることはできない。しかし有意抽出の場合は台帳を必要としないから、台帳に情報がない属性でも層化が可能である。層にあてはまる人を能動的に探せばよいからだ。有意抽出はしばしばいきあたりばったりのデタラメの、悪い抽出の仕方だと思っている人がいるが、その名(positive sampling, purposive selection)のとおり、ターゲットを明確にした抽出のことである。有意抽出の強みは、層化抽出においてこそ発揮される。

ただしいずれにしろ母集団の学歴構成はやはり既知でなければならない。そうでないと有意抽出したあとでどうやって加重平均をしたらいいのか、あるいは比例割り当て(後述)の場合何人を特定の学歴ごとに集める必要があるのかが分からないからである。

では、台帳に学歴の記載もなく、また母集団の学歴構成も不明なときはどうしたらよいのだろうか。ここで有意抽出をすると、偏った学歴構成で抽出してしまう可能性があり、バイアスが生じるかもしれない。この場合、ランダム抽出によって層(性別と年齢)ごとの学歴構成を母集団に近似させるという方法がある。つまりランダム抽出は、「あらかじめ層化ができないので抽出において擬似的に層化してしまおう」という意味では、層化抽出の次善の策である。

そして実はもう一つ、ランダム抽出が有意抽出に対して持つ優位性がある。それは、政党支持率に影響することは分かっているが観察しにくい(性格など)、あるいはそもそも理論的に予想できない何らかの要因を含めて、分布を母集団に近似できる、という点にある。「なんだかよく分からない影響があるはずだが、ランダム抽出すればそれらを含めて母集団の姿を(誤差はあるが)とらえることができる」ということである。このメリットは非常に大きく、ランダム抽出が好まれる最も大きな理由であると言えるだろう。

ともあれ、ランダム抽出が母集団の縮図として有効であるための条件は、以下のとおりである。

  1. 標本サイズが十分に大きいこと。(誤差の問題。)
  2. 抽出バイアスがないこと。(バイアスの問題。)

1についてだが、たとえば仮に母集団の大卒比率が50%であるとしよう。標本サイズが10人と少なくても、層化が可能であるのなら5人を大卒にすればよい。しかし層化ができないときはランダム抽出するしかない。このとき10人のうち大卒が正しく5人になる確率は24.6%にすぎない。もちろん標本サイズが100人のとき大卒を正しく50人引き当てる確率は約8%とさらに小さくなるが、「10人中4人」よりは「100人中45人」などの方が推定値が母数に近くなるので、50人の周辺の確率をあわせて考慮すれば、ランダム抽出によって母集団分布に近似させるときには標本サイズは大きいほうが抽出誤差は小さくなる。

ただし、標本サイズが小さいことは誤差の拡大要因であって、標本サイズが小さくてもそれによってバイアスが生じるわけではない。つまり仮に同じ標本サイズで何度も抽出すれば、期待値は母数に一致する。

次に2である。調査に慣れていない人は、バイアスは有意抽出の問題であってランダム抽出の問題ではないと考えがちであるが、有意抽出、ランダム抽出のいずれにおいても、抽出であるからにはバイアスが入り込む余地はある。層化できない属性について有意抽出でバイアスが生じやすいのは、たとえば高学歴の人が知人から有意抽出するとやはり高学歴の人ばかりが調査に協力してしまいがちであるからだ。これはどちらかというと調査者側の問題である。反対に、ランダム抽出の場合には調査対象の側が調査に協力するかどうかがしばしば問題になる。

これはいわゆるセルフ・セレクション・バイアスと呼ばれている問題である。いくら標本抽出の段階でバイアスがなくても、標本の全てから回答を得られるわけではない。ここでもし推定したい変数(や回帰係数)と、調査に協力するかどうかが相関していないのなら、回収率の低さは問題ではない。しかしたとえば自民党政党支持率を推定するとき、「自民党支持者のほうが民主党支持者よりも調査に協力的」だとすれば、セルフ・セレクションが生じて、回答者データはバイアスを持つことになる。

有意抽出が調査者によるデータのセレクションだとすれば、セルフ・セレクションは回答者によるデータのセレクションである。いずれも推定にバイアスをもたらすという共通点がある。

このように考えれば、抽出方法としての有意抽出とランダム抽出の選択は一般に考えられているほどランダム抽出優位というわけではなく、意外に検討に値するものだということがわかる。推定したい変数に影響する変数がA、B、Cの3つあり、そのうちCだけが層化できないとしよう。このとき、Cの分布を母集団に近似するためにランダム抽出するならば、標本サイズによる誤差の問題やセルフ・セレクションによるバイアスの問題を考慮する必要がある。これらによる問題がCの分布を考慮しないで有意抽出をすることからくるバイアスの問題をあきらかに上回るようなら、層化有意抽出をした方がいいという判断もありうるだろう。

割当方法

次に割当(allocation)の方法についてである。層化をしない場合には割当の問題は生じないが、層化した場合には、必ず「どの層にどのくらいの個数を割り当てるか」という選択をしなければならない。しばしば層化と割当を混同している記述を見ることがあるが、この2つは全く異なった手続きである。層化とは母集団の分け方であり、割当とは各層への標本の割当方である。どの層に何人/何地点を割当するかは、層化の手続きとは独立に決めることができる(同じ層化方法で異なった割当ができる)。また、「ランダム抽出か割当抽出か」といった言い方をしている記述もあるようだが、これも誤解である。何らかの方法で割当をしたあとに、ランダム抽出をするか有意抽出をするのかを決定することができる。

大きく分けると、割当法には比例割当(proportionate allocation)とそれ以外の割当(任意割当と呼んでおく)がある。層化した属性について母集団の分布が分かっている場合、任意割当をしたときも結果は加重平均しておく必要がある。母集団分布を使って加重平均をする限り、任意割当でも比例割当でもバイアスからは自由である。では誤差はどうだろうか。

比例割当は(データの欠損がないとき)加重(weighting)の作業を行わなくてもバイアスがかからないので分析がしやすいという利点があるが、標本サイズが小さいときに特定のグループに属するケースの数が小さくなり、そのカテゴリーの推定については誤差が大きくなるというデメリットがある。たとえば標本サイズが100しかないときに年齢で層化して比例割当をすると、20代への割当が非常に少なくなってしまう。このとき、当該カテゴリーに属する個人のみを多めに抽出する、という作業を行うことがある。これをオーバーサンプリングという。オーバーサンプリングしたデータは実質的に任意割当をしたことになるので、重み付け(ウェイトバック)によってバイアスを除いてやる必要がある。

参考までに、未回収等によるデータの欠損を埋め合わせる際にウェイト(抽出ウェイト)を用いることもあるが、これは上記オーバーサンプリングの際の補正としての重み付けとは異なる作業であるので注意が必要である。というのは、オーバーサンプリングの作業はあくまでランダム抽出(あるいは完全層化の有意抽出)に付随する作業なのでバイアスからは自由であるが、未回収や無回答によるデータの欠損はセルフ・セレクションによるバイアスを生じさせている可能性があるので、いくらウェイトを使って表面上だけ母集団分布に近づけても、バイアスが補正されるわけではないからである。

任意割当の方法としては上記オーバーサンプリングに加えて、最適割当(optimum allocation)という方法がある。これは限られた標本サイズでいかにして最も効率のよい(最適な)区間推定を行うのかという観点から標本を割り振る作業である。比例割当は母集団の分布に応じて標本を割り振るが、最適割当では各層における母集団の分散に応じて標本を割り振る。つまり値のばらきつが大きい層には多くの数を割振り、小さい層には少なく割り振るのである。この場合も、バイアスを除くために加重の作業を行う必要がある。

オーバーサンプリングや最適割当といった任意割当は、実際にはそれほど用いられることがない。最適割当が重宝されない理由は、そもそも各層における母分散が分かっていることはまずない、という事情があるからである。両者に共通する理由として、加重を伴う推定の煩雑さが挙げられるだろう。バイアスを除くためにケースに加重すると標本数が増えることになるが、そのままだと誤差が過小に推定されてしまうので、クラスタリング補正をしなくてはならない。

多段抽出

多段抽出(multistage sampling)とは、まずは集団(クラスター)を抽出し、そのあとクラスターを全数調査したり、さらにそこから一部を抽出する方法である。多段抽出については説明に多くの言葉を費やす必要はないであろう。通常の調査法のテキストブックに書いてあることで十分である。ここでは2点のみ確認しておこう。

多段抽出をする理由は簡単で、調査コストを削減したいからである。反面、誤差が拡大する。なぜ誤差が大きくなるのかというと、「たまたま偏ったケースを引き当ててしまった」というときの影響が、集団抽出において個人抽出よりも大きい、ということである。平均所得を推定しているとき、たまたま高所得の集団を引いてしまうと、偏った個人をごっそり引いたことになる。特に知りたい情報がクラスターごとに強いまとまりを持っているときは、誤差の大きさが増すことになる。したがってクラスターの選択は、推定したい変数に影響する属性(ただし層化されているものを除く)と相関しないように行うのがよい。さらに、多段抽出による誤差の拡大は、抽出するクラスターの数が多ければ多いほど抑えられる。

次に、多段抽出は推定のバイアスをもたらすのではない、ということには注意すべきだろう。何度も何度も多段抽出をしてその都度の平均値を平均すれば、その値(つまり標本平均の期待値)は母数に一致する(これを数式で証明するのはかなりややこしいが)。ただ、標本分布のばらつき(誤差)が大きい、ということである。

具体例で説明しよう。たとえばあるひとつの学校に属する生徒を母集団として、(何らかの方法で測定できる)計算能力を推定したいとする。全員にテストするのはコストがかかるので、ひとつの教室に収まる人数を考え、一部の生徒のみ(30人)を対象にすることにした。全学年・全クラスを横断して無作為抽出すればよいのだが、時間割の関係で一部のクラスのみをまず抽出し、そのなかで無作為に生徒を選んでテストをすることにした(たとえば6クラス、一クラスにつき5人)。

このとき、クラスごとに知能のまとまり(クラスタリング)がある度合いに応じて、母集団を反映していないかたちでクラス選択をしてしまう可能性が高くなる。たとえば計算能力は学年が上がるにつれて高くなると思われる。クラスを抽出するときは、特に平均計算能力が高いクラスを選ぶのか選ばないのかで全体の平均の推定値が大きく変わる。一段階抽出で個人を抽出するときには、こういったクラスから一部を抽出し、一部を抽出しないわけで、たまたま計算能力が高い高学年クラスを多く抽出した、といった心配をしなくてもよい。

多段抽出の際、調査者は各段階で層化できるのならばした方がよい。また、層化した段階ではどのような割当方法を選ぶのかも考慮する必要がある。

どうして層化二段ランダム抽出なのか

多くの社会調査では、国勢調査基本調査区や選挙区を地点とした多段抽出を採用し、さらに第一段階目の地点抽出においてのみ、地域・都市規模(場合によっては産業人口比率)で層化して地点数を比例割当している。これはなぜかというと、何らかの理由でランダム抽出を組み込むという縛りを設けると、層化に利用できる情報として居住地域の情報(住所と、そこからわかる人口規模などの地域特性)、年齢、性別くらいしかなくなってしまうからである。

さらに多めの標本サイズを確保するために多段抽出は避けられないとなると、第一段階では任意の集団ではなく地点を抽出するしかない。人ではなく地点を層化する情報はというと、地域(県など)と都市規模、そして産業人口比率などになる。マクロ情報が入手できる限り様々な層化の方法はあるが(たとえば平均年齢など)、都市規模や産業比率などは汎用的な説明力が高いと考えられているのだろう。

さらに第二段階では個人を年齢や性別で層化できるはずだが、これはあまり行われていない。ひとつの理由は、一定程度の標本サイズであればかなり正確に母集団分布に近似できることがあるだろう。標本サイズが100もあれば、分布が母集団から大きくズレることはなくなる。また、どうせセルフ・セレクションによるバイアスが生じることが見込めるので、あまり誤差に気を配ってもしようがない、という判断もあるのかもしれない。