このため,スモールデータ時代には,相関分析は格下の扱いだった。今日でも「データマイニング」という言葉はアカデミックな世界では軽視されている。批判派は,「そりゃ,データを延々と拷問にかければ,そのうち何か吐くだろうさ」と辛辣である。
専門家は,相関だけに頼らず,仕組みをきちんと説明できる抽象的な概念を基に仮説を立て,それらしい項目に目星を付ける。そして相関が高そうな項目のデータを集め,相関分析によって仮説が正しかったかどうかを検証する。仮設どおりではなかった場合,データの集め方に問題があったかもしれないと考える。最初に立てた仮説(あるいは仮設の前提となった理論そのもの)に欠陥があり,仮設の修正が必要と判断するまでは,根気強く何度も挑戦することも珍しくなかった。
このように仮設を立てては試行錯誤の繰り返しで人類の知は進化を遂げてきた。煩わしいことこのうえないプロセスだが,スモールデータの世界ではこれで通用していたのだ。
ビッグデータ時代になれば,「もしや」というひらめきから出発し,特定の変数同士をピックアップして検証するといった手順はもはや不可能だ。データ集合があまりに大きすぎるし,検討対象となる分野もおそらくずっと複雑になる。幸いなことに,かつて仮説主導型にせざるを得なかった制約も,今はほとんどない。これほど大量のデータが利用でき,高度な計算処理能力があるのだから,わざわざ手作業で相関のありそうな数値を勘でピックアップして個別に検証する必要などない。高度な計算解析を駆使すれば,最も相関の高い数値を特定できるのだ。
∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.88-89
PR