それはともかく,先程あげた例のように,本来なら数のうちに入れてしかるべきものを無視してしまうという誤りは系統誤差の原因となり,第一種過誤と呼ばれている(見逃し,偽陰性ということもある)。この第一種過誤のために,われわれが測定する<名声>の出現頻度は,基本的には,対象としている人物への実際の言及頻度より低くなってしまう。
系統誤差を生む過誤にはもう一つ,第二種過誤(誤検出,偽陽性)と呼ばれるものがある。第二種過誤が生まれるのは,本来は数に入れるべきでないものを数に入れてしまう場合である。「チャールズ・ディケンズ」と書かれていても,それは実際にはディケンズの長男で作家のチャールズ・ディケンズ・ジュニアのことなのかもしれない。孫のジェラルド・チャールズ・ディケンズの可能性もあるし,ひ孫のセドリック・チャールズ・ディケンズやピーター・チャールズ・ディケンズなのかもしれない。玄孫で俳優のジェラルド・チャールズ・ディケンズだってありうる。<名声>の測定では,このすべてが一族の大本に帰されてしまう。統計学者はこうした問題の危険性を承知しているが,理解の深さという点ではカリフォルニア大学バークレー校の統計学の教授,まいける・I・ジョーダンの右に出る者はいないだろう。その理由が知りたければ,グーグルに「マイケル・ジョーダン 統計学(Michael Jordan statistics)」と打ち込んで検索してみるといい。
エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 133-134
PR