説明と選抜:統計学における2つの「関心」
社会学者や経済学者にとって、統計学をベースにした計量分析とは、何かを因果的に説明する道具であるという側面がある。賃金を学歴で説明するというとき、それは他の条件が同じで学歴が変化したときの賃金の変化量を推定する、という意味である。
(記述的な分析手法を含めて)統計学を学ぶ人のほとんどは、この「説明(explanation)」のためにそれを学んでいるのだと考えられる。
しかし統計学には、それとは全く異なった目的が託されることもある。それは「選抜(selection)」である。統計学を選抜に使うというのは、それをアカデミックに活用している研究者からみても、実はあまり馴染みのない考え方である。というのも、あとで詳しく述べるが、選抜は学問的説明とは相容れない考え方だからだ。
しかし選抜は、実践家においては大いに意味がある考え方である。「限られた回数の耐久力テストの結果から、真に優れた個体を選抜する」「限られた回数の学力テストの点数から生徒の真の能力を推定する」など、プラクティカルな選抜の場面はいくらでも考えることができる。
もしあなたが大学の入試担当者だとして、「限られたテスト回数から基礎的な能力の高い生徒」を選抜するという関心を持っているとしよう。また、テストは複数回(最大で10回)実施することができるが、個々の生徒の受験回数にはムラがあるとしよう。1回しか受験していない生徒もいれば、10回すべてのテストを受験している者もいる。
このとき、複数回のテストの結果を受けて、適切な選抜を行うにはどうしたらいいだろうか。あるいは、どういう追加の情報が必要になるだろうか。
すぐに思いつくのは、複数回の観察(テスト)結果の平均値を計算し、平均値の高い順に上から合格を出す、というソリューションである。しかしこの選抜方法だと、たまたま一回の試験でよい点を取った者が有利になってしまい、「基礎能力が高い」者を合格させるという当初の理念は達成できない。たとえば一回きりのテストで80点を取ったAさんと、8回受験して78点の平均値であったBさんとでは、どちらを合格させるか迷うところであるが、安全を取るならテスト結果に信頼性のあるBさんを合格させたほうがいいだろう。
また、「基礎能力」の定義によるが、恒常的な才能を評価したいのならば、短期的な要因、たとえば試験前の勉強といった要因の影響は除去したうえで能力を測定したいものである。もし追加的な情報として、試験前の勉強量を観察できたとすれば、評価者は試験前勉強の影響を統制したうえで個別の受験者の能力を推定したいと考えるだろう。
これが育種、つまり家畜を繁殖させる実践となると、選抜という関心はもっとはっきりとしたものになる。なぜなら、育成環境のせいで後天的に身についた能力を元に個体を序列化し、上から優先的に繁殖させるようなことをしても、全く意味がないからだ。育種にとって、育成環境による影響は、除去(統制)すべき邪魔な情報なのである。
ここでは詳述しないが、このような選抜向けの推定を可能にする統計手法が、他ならぬ家畜育種の分野で発達した統計手法である「混合効果モデル」である。混合効果モデルでは、環境要因を統制した上で、また観察回数の影響を考慮した上で、「真」の個体の特性が推定できる。
さて、社会学や経済学(そしておそらく心理学)の関心として、「個体の選抜」がありえない理由はもうお分かりだろう。たいていの学問では、「優れた個体の選抜」ではなくて「ある個体が優れている要因の説明」に関心があるからである。だから「個人の養育環境の影響を、生まれつきの才能の影響を除去して推定し、その後の教育制度改革に活かそう」という発想になるのであって、育種分野のように「個人の養育環境の影響を除去して、生まれつきの才能の影響を推定し、その個体の遺伝子を残そう」という発想にはならない。
統計学を説明と選抜のどちらに用いるのかは、私たちの社会の合意や価値観に基づいて決定されている。
育種の分野では、遺伝子による選抜はたとえば「より乳産出力の高い牛」の遺伝子を残すことで人間の生活を豊かにすることが目指されるのだが、動物愛護の観点からそういった選抜に異を唱える人達がいることも想像可能である。
品質管理の分野では、環境要因に左右されない「個体の真の品質」を測定することに関心がある。そうすることで人間の生活が豊かになるからである。廃棄される製品がかわいそうだ、という声はあまり聞かない。
人間の場合、努力の影響を完全に除去して血筋の影響を判定基準に選抜をすることは、私たちの社会の価値観に合致しないだろう。他方で、短期的な努力(試験前の一夜漬け)や偶然(たまたま昨日やった問題が試験に出た)の影響を除去して基礎能力を推定することには---公平性の観点から---合意が得られるかもしれない。
ところで、一発勝負の学力テストであるセンター試験は、受験者の実力をどれくらい反映しているのだろう? 日本では、一般に選抜試験で統計学の力が発揮されているような気がしないのだが、実際はどうなのだろう?
追記
一応追記です。妥当性・信頼性の理論は選抜にも使えますが、選抜以外の説明の作業でも使えます。いずれにしろ最初から「関心」が選抜にあるということはあまりないような気がします。