だから疫学者や生物統計家は,「ランダムサンプリングによる正確な推定値」よりも,「ランダム化による妥当な判断」を大事にする。そしてたまに社会調査を中心とした統計を教育された者(あるいは単に聞きかじった者)から「ランダムサンプリングでないからこの結果は信用ならない」という批判をもらうと,終わりのない論争に突入する。たとえば以下の様なやり取りになるだろう。
「全国民からのランダムサンプリングじゃないから信用できない」
「確かに解析したのは若者だけのデータですが,年齢と喫煙リスクの間によっぽど強力な交互作用が存在していない限り,喫煙がリスクとなるという結果に変わりはないと思います」
「その交互作用が存在しているかしていないか,わからないじゃないか」
「何か高齢者だと喫煙が体にいいと考えられる根拠はあるんですか?」
「それはないけど,結局タバコが体にわるいのか,一般化して言えるわけじゃないだろう」
「だから今回の研究はあくまで若者に偏ったデータなので,他の年代については今後の課題だと言ってますよね」
「じゃあなんでそんな結果をもとに喫煙の害を一般化して訴えたりできるんだ」
「だからよっぽどの交互作用が存在してない限り喫煙が体に悪いことに変わりないじゃないですか」
なお,社会調査の分野で発展した欠測に対する補完方法を疫学的な推定に持ちこむこともできるのだが,こうした補完方法は社会調査系の統計家にとっては,「ベストを尽くしたランダムサンプリング調査に付け加える最終手段」であり,そもそもキレイなランダムサンプルにする気ゼロのデータ自体がかなり気持ちの悪いものらしい。
そんなわけでこの両者が議論をすると,しばしば疫学者や生物統計家は内心「いくら正確なデータと推定値でも,関連性を分析しないんじゃ意味ないじゃねぇか」と毒づいている。一方,社会調査の専門家は「偏ったデータだけしかないのに何を偉そうなことぬかしてやがる」と腹を立てる。
だが両者のうちどちらが正しいか,と言われれば,それは単に学問的な視座の違いによるというだけの話であり,状況によって適した考え方はどちらなのかきちんと考えられることが重要なのである。
西内 啓 (2013). 統計学が最強の学問である ダイヤモンド社 No.2349-2365/3361(Kindle)
PR