社会学者の研究メモ

はてなダイアリーから移転しました。

(非計量さん向けの)統計学の話:誤差編

今回は「誤差」編です。

誤差について説明するためには、どうしても「観察(observation)」の次元に話を差し戻す必要があります。前回に引き続いて「年収」を説明するための観察をする場面を考えます。次のように考えてください。

年収の観察値 = 性別 + 年齢 + ... + 学歴 + 様々な観察要因

最後の「様々な観察要因」ですが、いわゆる標本抽出(サンプリング)による値への影響はさしあたりここに入ります。とはいえ、観察要因による観察値への影響は標本抽出からのみ生じるわけではありません。というより、「センサス(全数調査)/標本(部分)調査」という区別はある程度便宜的な区別なのです。

ある値(年収でもなんでも)が観察されるということは、特定の手続で、特定の時間と場所で行われたときの観察値です。観察という手続を「人」単位で考えたとき、対象「者」全員を観察することはセンサスですが、そうして観察された値の集合は、異なった時間や手続きにおいてはまた異なったものとなるでしょう。その意味では「人」センサスによる観察結果は、ふつうの意味で標本(考えられる観察値のセットの中の一つ)とも呼べるものです。

このように計量分析では、観察するという振る舞い自体、観察に影響する様々な説明要因の中の一つであると考えます。前回の復習をかねて、次のような例を考えてみます。

年収の観察値が、

年収の観察値 = 200 + 280×男性 + その他

のように計算されたとします。次に雇用形態を追加で観察すると、性別の効果(係数)が変化したとします。

年収の観察値 = -50 + 200×男性 + 230×正規雇用 + その他

分析者は分析者の関心に基づいて、かつ公共的に通用しやすい概念連関をもとに、モデル構築をしてデータを解釈して行きます。上記の例だと「性別の効果の一部が正規雇用によって説明できた」と記述できるでしょう。つまり「男性の年収が高いのは、一部には、男性の正規雇用が多いからだ」と解釈するわけです。

他方で(想定される範囲で)性別の効果には関連しないが、年収には関連する要因も考えることができます(たとえば性別で勤続年数が説明できないような社会制度をもつ社会---そういう社会があればですが---での勤続年数)。このように概念的に年収と関連しうるような要素を観察していくと、基本的には年収をほぼ100%説明できることができるはずです。概念的に説明できない要因があるとすればそれは純粋にランダムに発生する要因ですが、年収など社会科学者が説明したいと考えるような事象についてはそれは考えにくいです。(自然科学的現象の説明において「諸要因の集積」ではない純粋なランダム性がどのように扱われているかは私は知りません。)

しかし、ランダム要因は基本的に存在しないものの、観察不足によって説明できない要素はふつう残ります。そういったうちのいくつかには、すでに投入されている変数の効果と関連を持つものもあるでしょうし、年収は説明するがすでに投入されている変数とは関連を持たないような独立的な要因もあるでしょう。これを受けて、要因を次のように区分けすることができるでしょう。

年収の観察値 = 性別と、性別と年収に関連する説明要因(A) + 年収に関連するが性別とは関連しない説明要因(B)

仮にA要因群を観察で網羅できたとします。しかしB要因群については、一部しか観察されなかったとしましょう。次の図のような状態です。

やっかいなことは、この観察されなかった要因が、観察の段階で何らかの理由で観察された要因の効果と関連を持ってしまうことがある、ということです。たとえば下の図の左側は無相関な2要因間の散布図です。

ここからランダムに10個のデータを取り出すと、稀にですが右側の図のように相関が出てきてしまうことがあります。これは偶然生み出された関係性です。サイコロを2個振ってゾロ目が出たからといって「このサイコロに体系的にゾロ目が出やすい性質がある」とは私たちは考えませんが、そういうサイコロからもゾロ目は規則的に出現します。このことと同じです。

先の定義により、観察されなかった要因はA要因群に体系的に影響することはありません。が、通常社会科学においてはひとつの観察された事象に影響する要因は多様ですから、いくら網羅的に観察したつもりでも、観察されない部分はかなり残ります。

このとき観察=分析者は、できるだけ対象をランダムに抽出することで、観察要因がAおよびBと関連しないように注意をはらうことになります。つまりランダム抽出とは、「観察(に起因する要因)が理論的にあらゆる変数と意味的連関を持たないようにする」ために行う観察の手続きのひとつです。「◯◯の効果の一部はランダム抽出したことによって説明」された、と言うことはできないわけです。

わかっていただけると思いますが、もし観察が完全に網羅的なら、観察(に起因する要因)要因は存在する余地がありません。つまりいかなる抽出法をしても---ランダム抽出だろうが有意抽出だろうが---効果の計算結果は同じになります。つまりランダム抽出とは、観察を網羅的できないから行うものなのです。このことは以前の記事で「無作為抽出は層化の次善の策」という趣旨で説明したことと実質的に同じです。

このように、少なくとも社会科学における調査・観察においては、観察要因以外の要因においてランダム性が存在することはまずないといえますが、観察項目の設定が不完全である(不足している)ために、抽出段階で意図的にランダム性を混ぜ込む必要が出てくるわけです。しばしばランダム抽出は「個々の対象者の抽出確率を一様にしてデータに代表性をもたせるため」と説明されますが、このような説明だけではランダム抽出の意味を理解することは実はできません。(少し難し言い方になりますが、実験における無作為割当が、関心のある変数の効果とその他の観察されない要因との相関をなくすための手続であるのに対して、調査におけるランダム抽出にはそこまでの性能はありません。「観察されない固定要因のうち関心のある変数と相関しないものを、ランダム要因に変換してしまう手続きだ」といえるでしょう。)

話を戻しますと、ランダム抽出されたデータでは、観察されなかった要因は偶然AやBに影響することがあります。関連性のない要因間に、偶然に関連性が発生することは上の図で理解できると思いますが、念のため実際の数値で説明してみましょう。

事象yはx1、x2、z1、z2で説明されるとします。x1とx2は相関しており、ともにyを説明します。z1とz2はx1とx2とは無関係ですが、yを説明します。z1はそれほど説明力が高くありませんが、z2はかなりの説明力です。

ここでこれらのあいだに、以下のような関係があるとしましょう(係数はすべて1)。

y = x1+ x2 + z1 + z2

ここから50個をランダム抽出しますが、その際にz2が観察できなかったとします。すると結果は以下のようになりました(Stata出力)。

                                                                                                                                                          • -

y | Coef. Std. Err. t P>|t| [95% Conf. Interval]

                                                                                                                                                          • -

x1 | -2.865885 3.549785 -0.81 0.424 -10.01123 4.279461
x2 | .8293428 1.069765 0.78 0.442 -1.323982 2.982667
z1 | .8136395 .9898257 0.82 0.415 -1.178776 2.806055
_cons | 13.25771 2.456708 5.40 0.000 8.312616 18.20281

                                                                                                                                                          • -

つまり今回の抽出データから計算した結果は、

y = 13.26 + -2.87x1+ .83x2 + .81z1 + 残差

となりました。「真の値」からかなりズレていることがわかります。これが、説明力の高いz2が観察されなかったことからくる帰結です。説明力の高い要因を観察できないと、標本抽出によって偶然に拾いあげられてしまう関連性も強くなってしまうことがあるのです。

詳しくは説明しませんが、誤差の推定の手続きによって、個々の変数の推定値の信頼区間を計算することができます。上記の例だと、[95% Conf. Interval]の欄に書いてありますが、「x1の真の値が-10.01から4.28の外にある確率は5%」となります。真の値である1はちゃんとこの範囲に入っていることがわかりますが、いかんせん誤差が大きすぎて使い物になるデータではありません。たとえば「x1の今回得られた効果(=-2.87)は、真の効果が0のデータからも偶然拾えますよ、今回たまたま-2.87という値が出たけど、マジに受け取っちゃダメですよ」ということです。標本サイズをもっと増やせば、この信頼区間はどんどん狭くなります。(基本的に標本サイズを4倍にすれば信頼区間は半分になります。)

ところで、ここでz2は観察できたものの、x1と相関するx2を観察できなかったとします。すると以下のようになりました。

                                                                                                                                                          • -

y | Coef. Std. Err. t P>|t| [95% Conf. Interval]

                                                                                                                                                          • -

x1 | 2.187766 .3885273 5.63 0.000 1.405701 2.969831
z1 | .9138964 .1447434 6.31 0.000 .622543 1.20525
z2 | .9896107 .0228359 43.34 0.000 .9436444 1.035577
_cons | 1.477965 .3484048 4.24 0.000 .7766624 2.179268

                                                                                                                                                          • -

今度はx1の95%信頼区間は1を外しています。つまり、x1の外れ具合は「誤差の範囲内」ではなく、体系的なバイアスがかかっていることがわかります。ただしx2と相関しないz1とz2については、誤差は非常に小さくなり、かつ95%信頼区間の中にちゃんと真の値である1が入っていることが分かります。z2の投入によって観察できなかった要因の大きさが減り、抽出によってそれが偶然に観察要因に帰属される確率も小さくなるのです。(関心のある変数の効果に関連しなくても、被説明変数の説明力が高い変数はモデルに入れておくとよい、ということですね。)ただし偶然の帰属はありませんが、x1とx2が相関しているために観察されなかったx2の効果が(誤って)x1に帰属されてしまったわけです。

というわけで、とりあえず誤差の説明は終わりです。「観察されなかった要因が標本抽出において観察された要因と偶然に関連性をもってしまう」ことから生じるのが誤差、という話でした。幸いなことに、一定の条件さえ満たせば(特にバイアスの無さは重要)、統計の手続は誤差を正しく推定してくれます。

前回の補足

ここでちょっとだけ前回の補足をします。(少し専門的用語を使いますし、非計量の人にとっては難しいかもしれませんので、ここはスキップいただいても構いません。)

前記事でも指摘したとおり「性別の純粋な効果」を考えても意味がないのは、「性別」の効果をモデル統計学的手法が取り出せないから、ではありません。無作為化実験やパネル分析などをすれば、その他の関連要因の効果を切り離すことができ、かなり多くの「純粋」な効果が取り出せるという説明がしばしばなされますが、それでも「◯◯のバイアスのない効果を抽出した」と---統計学的にではなく---概念的に無理のないかたちで主張するためには、◯◯が他の要因と概念的につながりにくいものであることが前提となるはずです。たとえば「新薬の効果」は◯◯に入れることが可能でしょう。しかし「性別」はそうはいきません。「概念的につながりにくい」とは、ここでは人々の知識(あるいはそれに根ざした社会科学の知識)に照らして因果関係として記述されることがふつうはない、といった意味です。

医療統計学の分野で「新薬」の効果を推定するとき、新薬を投与したグループと投与しないグループの分け方(=新薬変数)を、その他の要因(年齢や性別など)から実験によってテクニカルに切り離してから推定します。「新薬の効果があるように見えたのは、たまたま新薬を摂った人に若年者が多かったから」というツッコミを回避するためです。そのために行う手続きのひとつが無作為化実験、つまり新薬投与をする人を無作為に割当する方法です。無作為に割当するので、「新薬を摂った人に若い人が多かった」というような(バイアスを生む)関連性はなくなります(誤差はありますが)。

しかしここで、「新薬の効果の一部に年齢がある」とは、分析者は考えません。そうではなく、「新薬効果に混ざっていた(新薬効果としては説明できない)年齢効果という余計な成分を<除去>した」という言い方がよくなされます。社会科学が取り扱う要因間のつながり方が、生理的現象がその他の要因と持つつながり方とは異なったかたちで理解されているがゆえに、データの説明の仕方もまた異なってくるわけです。たとえば私たちは、「学歴」が「能力」や「威信」といったその他の要因と持つ意味的なつながりは、「新薬の投与」が「性別」や「年齢」に対して持ちうる関係とは異なるということを理解しています。計量分析では、このつながり方にそってデータが説明されていきます。だから、「能力」変数を追加投入することで「学歴」の効果が減少した場合、「学歴の効果の一部を能力が説明した」と言えることがあるわけです。(言わないことももちろんありますが、それは計量分析的にではなく、意味的に決めることです。)そして意味的な関連性を見いだせないデータの挙動を発見した場合、なぜそうなったのかを検討します。

「新薬」と違って「学歴」は、社会的な生活に埋め込まれた様々な意味的連関として理解されているので、「学歴の純粋な=バイアスのない効果」という言明が意味を持つには、その<概念的な独立性>が、何らかの基準に照らして意味を持つ場合に限られるわけです。そしてその独立性は、場合によっては他の概念によって媒介される余地を持っています。そして変数の効果は「原理的に常に媒介できる」というわけではなく、分析者は私たちがそれに則って生活している概念の範囲内でデータを説明していくわけです。また、実験的手続きによってある変数(数値)の独立性(外生性)を保証するということは場合によっては可能ですが、とうぜん概念の独立性を取り出すことはできません。

そういう意味では、社会科学的な計量分析は「観察のやり方」として、必ずしも実験ができない(たとえば性別や学歴を無作為に割振りできない)から調査するという消極的な選択を行っているとはいえないでしょう(実験を模範とした計量モデルは最近の流行ですが...)。実験データと違って調査データは豊富な概念連関を反映していると想定できるからです。実験データをもとにある変数の効果を「説明していく」ことは難しいのです。

実験を模範として調査観察データをみていく方針は誘導形の計量経済学などで支配的な考え方です。そのことは計量経済学のパネルデータ分析で固定効果推定がランダム効果推定よりも優先されることにみてとれます。ところが計量社会学者は同じデータを得ても、固定効果推定のように個別効果を一緒にゴミ箱に投げ込んでしまうのではなく、ある変数を投入していくことが観察されていなかった「ゴミの中身」を減らすプロセスに関心を持ち(分散成分(variance component)の分析)、計量経済学者がびっくりするほどバイアスには気を配りません。後者はバイアスを関係論的にとらえているからです。固定効果推定は、そういう立場からは「説明されるべき関連性」をまとめてドサっとゴミ箱に入れるもったいない手続きに見えてしまうわけです。

まとめ

さて、前回と今回の記事の両方を受けて、非計量さんたちが(非計量さんに限った話ではなりませんが)以上のような手続においてツッコミを入れるとすれば、どこでしょうか。議論のポイントは非計量研究者との討議の中で出していくのがよいので、その機会を作りたいのですが、さしあたって範囲を限定するとすれば次のようになるでしょうか。

もともとこの記事を書く際に気にしたことは、「統計学(を使った計量分析)は、「ある研究が明らかにしようとしていること」に対して、どのようにその知識の妥当性を「保証」しようとしているのか」という問いに答えることでした。

まず確認しなくてはならないのは、数値化されたデータ(量的データ)を扱うという点では共通点を持つ計量系の研究者でも、「そのなかでやっていること」が異なることがある、ということです。少なくとも今回説明した限りでの計量分析では、「事例を積み重ねる」ことによってなにか新しい知見(関連性)が見出されることはありません。量的研究者がそういった知見を導くのは、量的調査の前段階としてインタビュー等の質的データを利用して探索的に試みたとき、あるいは今回紹介していない分析手続き(マイニング系・多変量解析)を行ったときです。事例を重ねること=標本サイズを増やすことは、このような前段階において想定した要因間の関連性(=説明)が「偶然とは考えにくい」ということを保証するためのひとつの方法です。ランダム抽出によって観察されたがゆえに、扱っているデータが「代表性」を持つこと、このことこそが「知識の妥当性の保証」の内実だと理解することは間違いではありませんが、実際にはこのことの比重があまり大きくないということがわかったと思います。

計量分析には、フォーマライズされた部分とそうではない部分があります。検証すべき理論モデルを構築すること、推定方法を選択することは、フォーマライズされた作業ではありません。分析者の調査・分析経験、想像力、同僚研究者との討議の結果に左右されやすい部分です。これに対して理論モデルが「偶然」といえるかどうかを検証する手続きは、かなりの程度自動化されています(数式は「間違い」を犯しません)。そして(上でみてきたように)後者は前者の知識の妥当性を前提としています。いくらランダム抽出したデータでもミスリーディングな結論がそこから導かれてしまうことはよくあります。計量分析の論文について、学会でのセッションや査読などでツッコミが入りやすいのは、当然ですが、相対的にフォーマライズされていない部分です。

あまりよい言い方ではないですが、計量分析研究者は、そのなかでかなり"質的"な作業を行なっているということです。ただ同時にフォーマライズされた手続きを取り込んでいるために、逆に討議・思考錯誤すべきポイントを明らかにしやすい、ということはあるかなと思います。おかげで学会でも討議が「空中戦」になることはあまりないような気がします。