読者です 読者をやめる 読者になる 読者になる

社会学者の研究メモ

はてなダイアリーから移転しました。

計量分析を使った論文の構成ガイド

社会学

研究者個々人の好みや分野によって異なるところもあるが、標準的・テキストブック的には、以下のようになるだろう。

  • イントロダクション
  • 先行研究の紹介と問い・仮説の設定
  • 分析
  • 結論/討議/インプリケーション

この「分析」のパートについては、社会学界隈では下記のように教えることが多いような気がする。

  • データと変数の説明
  • 使用する変数の基本統計量
  • 丁寧な記述的分析(クロス表やグラフ)
  • モデルを使った推定

確かに社会学の論文では、モデルの推定をする前にたくさんのクロス表を掲載していることがある。そうしておいて、最後に「クロス表から得られた以上の結果を重回帰分析で検証してみる」のである。かつては私もそのようにしていたのだが、自分としてはこの方針で論文を書くことはなくなった。

はたして以上のような分析の手順は、意味のある手順であるといえるだろうか? モデル推定で擬似相関であることが分かるような変数の効果についていくらクロス表分析を見せられても、意味がないのではないか? 擬似相関かどうかその時点で判断できないのに、クロス表をたくさん見せられても、読み手としてはやはり苦痛なものである。

そうであるのにもかかわらず、どうして社会学では「まずクロス表や相関係数で丁寧に分析して...」と教えることがあるのだろうか。「回帰分析だと中で何をやっているのかよくわからないから」ということを言っている人がいたが、これは論外である。おそらく社会学では外生的な変数(性別や出生年など、他の要因によって変化することがほとんどないような変数)に関心があることが多いので、相対的に多変数の回帰分析を行うことの意義が小さいから、ということだろう。とはいえ、もしそうだとすれば最初から多変数の回帰分析を行う必要がないということになってしまう。

実際には外生的変数の効果に関心がある場合でも回帰分析を行うことには一定の意義がある。この記事では以上を踏まえて、分析手順について論理的に意味のある方針を説明する。

ストーリーが何なのかを意識する

社会学では調査観察データを使うことがほとんどであるので、多変数を使った回帰分析(さらに話を単純化するために時代を限定した横断データの分析)を念頭に置いて話を進めよう。

多変数を使った回帰分析では、「ある変数を固定しつつ、関心のある変数の効果を見る」という作業が基本になる。問題は、この作業の実質的な意味である。主に2つあるといえる。

  1. 変数の説明:たとえば、「性別の所得に対する効果が、学歴で説明できるかどうかをみる」。
  2. 交絡の除去:たとえば、「所得について、性別を固定しつつ学歴の効果をみる」。

まず1(説明)の分析方針をとるとしよう。その際に考えられる手順は、下図(A)のようになる。

つまり、(1)性別の所得(賃金率)に対する効果を推定し、次に(2)その効果が学歴によって媒介されているかどうかをみる、という手順である。まず性別のみで回帰し、効果があるかどうかを確かめる。次に学歴変数を投入することによって性別の効果が消えたとすれば、「性別による所得の差は、学歴の差(学歴の性別差)によって説明できた」という解釈が可能になる。投入後も性別の効果に変化がなければ、性別と学歴は独立に所得に影響しているということになる。

次に2(交絡除去)の分析方針だと、上図(B)のようになる。

つまり、(1)学歴の所得に対する効果を推定し、次に(2)その効果が性別による交絡/擬似相関であるかどうかどうかをみる、という手順である。まず学歴のみで回帰し、効果があるかどうかを確かめる。次に性別変数を投入することによって学歴の効果が消えたとすれば、「学歴効果は性別によるみせかけの効果である」という解釈が可能になる。投入後も学歴の効果に変化がなければ、少なくとも学歴は性別とは独立に効果を持つということがわかる。もちろん他の変数によって擬似的にもたらされたものである可能性は残っている。

以上の2つの分析方針は、最後には同じモデルを推定しているのだが、その前段階が異なっている。より自然なのは1(説明)の方針だろう。というのは、学歴の投入で性別変数の効果が消えたとしても、それは「性別の効果がニセであった」ということにはならないからである。専門的に言えば、性別の総合効果=直接効果+媒介効果であり、総合効果の内訳がどうであろうと効果があることにはかわりがない。

これに対して性別の投入で学歴の効果が消えたのなら、それは学歴の効果が見せかけのものであった(つまり分析自体に意味がなかった)ということを示唆している。したがって2(交絡除去)の方針を取ることがあるとすれば、先行研究で「学歴は所得に影響を持つ」ということが主張されており、それをあらためて検証することに意味があると判断される場合である、ということになろう。

以上は回帰分析の手順についての説明になっているが、最初の一変数による分析のところは、クロス表や相関係数の分析で置き換えることもできるだろう。「クロス表では性別の効果が確認できた。次に回帰分析で、性別の効果が具体的に何によって説明されるのかを見てみよう」のような流れである。このように、自分の分析がどのようなストーリーで展開されているのかを意識しつつ組み立てていけば、読む側にとっても理解が早いはずである。ストーリーをあまり意識せず、ひたすら最初にクロス表や記述分析を展開するのは、場合によっては分析自体にあまり意味がなく、かつ読み手に負担を与えるので、やはり避けたほうがいいだろう。

分析をする段階、分析を見せる場がどういうところなのかを意識する

ただし、クロス表や相関分析(相関係数や散布図)を丁寧に提示することがそれ自体で意味を持つような場合もある。分析を最終的に論文のかたちで提示する前に、予備的・探索的な分析をしている段階、あるいは同分野の研究者からの示唆がほしい時(分析検討会等)はそうである。

調査データにおいては特に、変数の間の関係が複雑で、どちらがどちらを説明しているのかがただちには把握できなかったり、重要な変数を見落としたりすることも多い。あるいは先行研究で検討されている重要な仮説を知らなかったりするかもしれない。このような場合に最初から固定的なストーリーで分析を展開してしまうと、本来はもらえるはずであった重要な示唆が得られなくなる可能性がある。

とはいえ、あまりに散漫に記述的分析を並べられても、やはり有用な示唆は期待できないだろう。最低限の理論的な考察を行った上で、みてもらうのがよいと思う。

グラフは分析の最後に、予測値について作成する

個人的には、グラフは記述分析の段階ではなく、モデル推定後の予測値についてつくるのがよいと思う。回帰分析の結果表というのは、それ自体の数値を読み解くのが難しいことがあるので、グラフ(できれば信頼区間を書き込んだもの)にしたほうがよい。特に以下のような場合はそうである。

  • ダミー変数の効果に関心があるとき:学歴や年齢階層をダミーとして投入することがあるが、回帰分析の結果表に掲載できるのはある値を参照点とした際の数値や有意確率のみである。グラフにして信頼区間をプロットすれば、任意の値どうしの差の検討ができてとても親切である。
  • 交互作用を導入したとき:交差項がどのような挙動をしているのかはにわかには理解し難いことが多いので、これは読む側にとってはとてもありがたい。
  • ロジットやプロビット分析をしたとき:カテゴリカル変数を分析するモデルを使ったときの予測値の提示の仕方には諸論あるだろうが、グラフにして分かりやすいのは予測確率/限界効果だろう。

たとえば「人生に満足だ」と答えた人の割合を、年齢と性別、そしてその交互作用でロジット分析したとしよう。結果をプロットすると、左図のようになる(もちろん架空の結果)。縦の棒は95%信頼区間である。

こうすることで、たとえば「男性の40代と50代では有意に満足確率が上がる」こと、「30代では男女に満足確率の差がある」ことなどがすぐにわかるようになる。この図はモデル推定の結果に基づいた予測確率のプロットなので、たとえば「以上の結果は、学歴や職業による効果を除去した後でも残る性別と年齢の効果についてのものである」といった説明を付することもできる。

この際、異なった分析段階での回帰モデルの予測値をそれぞれグラフにしても面白い。たとえば下図のようにすると、性別総合効果がどのように学歴で説明できているのかがわかる。この図だと、性別の効果の一部が学歴によって説明されているが、まだ説明されていない部分(直接効果)が残っていることが分かる。

むろん実際にはこのような分析はされないだろうが、外生的な変数に関心がある場合、総合効果と直接効果の両方を掲載すると理解が促されるだろう。