忍者ブログ

I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

データを拷問にかける

このため,スモールデータ時代には,相関分析は格下の扱いだった。今日でも「データマイニング」という言葉はアカデミックな世界では軽視されている。批判派は,「そりゃ,データを延々と拷問にかければ,そのうち何か吐くだろうさ」と辛辣である。
 専門家は,相関だけに頼らず,仕組みをきちんと説明できる抽象的な概念を基に仮説を立て,それらしい項目に目星を付ける。そして相関が高そうな項目のデータを集め,相関分析によって仮説が正しかったかどうかを検証する。仮設どおりではなかった場合,データの集め方に問題があったかもしれないと考える。最初に立てた仮説(あるいは仮設の前提となった理論そのもの)に欠陥があり,仮設の修正が必要と判断するまでは,根気強く何度も挑戦することも珍しくなかった。
 このように仮設を立てては試行錯誤の繰り返しで人類の知は進化を遂げてきた。煩わしいことこのうえないプロセスだが,スモールデータの世界ではこれで通用していたのだ。
 ビッグデータ時代になれば,「もしや」というひらめきから出発し,特定の変数同士をピックアップして検証するといった手順はもはや不可能だ。データ集合があまりに大きすぎるし,検討対象となる分野もおそらくずっと複雑になる。幸いなことに,かつて仮説主導型にせざるを得なかった制約も,今はほとんどない。これほど大量のデータが利用でき,高度な計算処理能力があるのだから,わざわざ手作業で相関のありそうな数値を勘でピックアップして個別に検証する必要などない。高度な計算解析を駆使すれば,最も相関の高い数値を特定できるのだ。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.88-89
PR

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS / 忍者ブログ / [PR]