忍者ブログ

I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   
カテゴリー「算数・数学・統計」の記事一覧

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

真の値は

ところで問題なのは,「誤差とは測定値から真の値を引いたものである」という定義です。辞書の説明が十分に役に立たないといったのは,何も辞書の責任ではなく,そのもとになっている技術の考え方の方にあるのです。
 文部省の国立国語研究所に,言語変化研究室というのがあり,かつて,用語について質問をしに行ったことがあるのですが,「個々の用語の定義は当事者同士で解決して欲しい」といわれました。前にも紹介したことがあるのですが,多くの技術用語は外国から輸入されたものを,適当な漢語を使って合成しています。したがって,輸入経路と用語の作成者によって,まちまちとなりますから,国語学者がいちいち付き合っていられないということでしょう。
 しかし,誤差については用語の表わし方というより,定義そのものに問題があるのです。我々は真の値が不明だからこそ,真の値の代わりとなる測定値を求めるのです。ということは,測定値を求めたからといって誤差が求まるわけではありません。
 むしろ,真の値が分かっていれば,そもそも測定などをする必要がなくなるのです。結局,どこまで行っても誤差は求められないのです。ところが多くの人は,測定をすれば,簡単に誤差が求められると思っていることから,混乱がはじまります。

矢野宏 (1994). 誤差を科学する:どこまで測っても不正確!? 講談社 pp.22-23
PR

独断に満ちている

そもそも,どこに境界線を定めるのであれ,その両端にいる人たちはまったくと言っていいほど変わらないはずだ——にもかかわらず,一方は病気だと言い,他方は健康だと言うのはばかげている。191センチの人も192センチの人も背が高いのに変わりはない。それに,何パーセントで区切るのか。精神保健の臨床医がわずかしかいない発展地上国なら,最も重い障害を抱えた人しか精神疾患と見なされないはずだ——そうなると,1パーセントしか正常ではないように境界線が定められるかもしれない。セラピストだらけのニューヨークでは,精神疾患の条件が急激にゆるやかになっているので,境界線は30パーセントかそれ以上のところに定められるかもしれない。これは独断に満ちており,美しい曲線もどこに線を引くべきかはけっして教えてくれない。

アレン・フランセス 大野裕(監修) 青木創(訳) (2013). <正常>を救え:精神医学を混乱させるDSM-5への警告 講談社 pp.38-39

答えで十分

相関関係は,因果関係と比べて,時間的にもコスト的にも見つけやすい。とはいえ,これからも因果関係の研究は必要だし,医薬品の副作用実験や航空機用部品など,一部の用途ではしっかり吟味されたデータによる対照実験も不可欠だ。しかし,多くの日常的な用途では,「理由」ではなく「答え」がわかれば十分だ。しかもビッグデータから見つけ出した相関関係は,因果関係を探るうえで道しるべにもなる。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.281

プライバシー保護

ビッグデータ時代には,これまでと大きく異なるプライバシー保護の枠組みが必要だ。それには,データ収集時に個別に同意を求める形式よりも,データ利用者に責任を負わせる形が望ましい。そのような仕組みになれば,企業は,個人情報が処理される際,個人にどのような影響が及ぶのか慎重に検討したうえで,データ再利用を正式に評価することになる。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.258

因果関係ではない

言うまでもなく,ビッグデータには数々のメリットがある。人間性抹殺の兵器になってしまうのは,欠陥があるからだ。それもビッグデータ自体の欠陥ではなく,ビッグデータによる予測結果の使い方の欠陥である。予測された行為について実行前に責任を負わせることからして大問題だが,とりわけ,相関関係に基づくビッグデータ予測を使っていながら,個人の責任については因果的な判断を下している。問題の核心はここにある。
 ビッグデータは,現在や未来のリスクを把握し,それに応じて自分の行動を調整するときに威力を発揮する。その意味ではビッグデータ予測は,患者にも保険会社にも金融機関にも消費者にも役に立つ。しかし,因果関係については何一つ教えてくれない。個人に「自責の念」(過失の意識)を持たせるには,対象者が特定の行為を自ら選択していなければならない。まず本人による決断が原因としてあり,その結果として特定の行為が発生していなければならないのである。より正確に言えば,ビッグデータが相関関係を前提としている以上,因果関係を判定して個人の有責性を示す道具としては,まったくもって不適当なのである。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.243-244

承諾の取り方

重要なのは,ビッグデータによってプライバシーのリスクが高まるかどうか(高まることは確かだろう)よりも,リスクの性格が変わってしまうかどうかだ。単にこれまでよりも脅威が大きくなるだけなら,ビッグデータ時代もプライバシーが守られるように法令を整備すればいい。これまでのプライバシー保護の取り組みを一段と強化するだけの話だ。しかし,問題自体が変わってしまうのなら,解決策も改めなければならない。
 残念ながら,リスクの性格そのものが変容している。ビッグデータによって情報の価値は当初の目的だけで終わらないことは,先に述べた。2次利用の価値があるからだ。
 その結果,現行の個人情報保護法で個人に与えられている基本的な役割は根底から揺らぐ。現在,データ収集の際には「どういう目的でどの情報を集めるのか」を本人に説明することになっている。本人が同意すれば収集が始まる。プライバシー問題に詳しいインディアナ大学のフレッド・ケイト教授によれば,合法的に個人情報を収集・処理する手続き方法は「告知による同意(告知と同意)」方式だけではないが,今やこの「告知と同意」方式が世界中でプライバシー保護の基本になっているという。
 だが,ビッグデータ時代の画期的な2次利用はある日突然ひらめくものだ。データを最初に収集する時点で,そんな2次利用まで想定できているわけではない。では,存在もしていない2次利用の目的をどうやって告知すればいいのか。データを提供する側も,未知のものについて,どのような説明を受けて同意すればいいのか。同意が取れていない場合,再利用のたびに1人ひとりに許可を求める必要があるはずだ。しかし,グーグルが何億人ものユーザーに昔の検索データの再利用について承認を得ることなど考えられない。技術的に可能だとしても,そんなコストをやすやすと引き受ける企業はない。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.229-230

価値の転換

当然,知識の評価のあり方も変わる。従来は,深い専門知識を持つ者は,ゼネラリストよりも価値があると考えられてきた。専門知識は「正確さ」と同様に,情報が十分にないスモールデータの世界ゆえに重宝がられ,勘と経験で水先案内人を務めてきた。そういう世界では経験が物を言う。それは,長年にわたって身をもって覚えたノウハウだから,簡単には伝授できないし,教科書にまとめることも難しい。ひょっとしたら,本人は意識さえしていないかもしれない。しかし,データを大量に持つことができれば,大きな武器になる。ビッグデータを分析することで,迷信や古い考え方に振り回されにくくなる。自分が賢いからではなく,データを持っているからだ。言い換えれば,会社で価値を発揮できる従業員の条件も変わる。身に付けておくべき知識も変わるし,知っておくべき人間も変わる。職業人として身に付けておくべき資質も一変するのだ。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.214-215

砂金集め

ユーザーとのやり取りの残骸にキラリと光る砂金を見つけたのは,グーグルだけだった。砂金をコツコツ集めれば,輝くインゴットに変わると察したのである。マイクロソフトのスペルチェッカーと比べて性能が少なくとも1桁違うと豪語するグーグルの有力エンジニアもいた(ただし,後に根拠を問われて,きちんと測定したわけではないと認めている)。このエンジニアは,「開発費タダ」という評価を一蹴したうえで,“原料”のミススペルには直接費こそかかっていないが,全体的なシステムの開発にはマイクロソフトを上回る予算を投じたつもりだと胸を張る。
 両社の考え方はまったく異なる。マイクロソフトは文章処理という単一目的から,スペルチェックの価値を捉えていた。一方のグーグルはもっと踏み込んで有用性を見抜いていた。ミススペルを基に世界最高・最新のスペルチェッカーを開発して検索性能を高めただけでなく,検索やGメール,グーグルドキュメント,グーグル翻訳での「オートコンプリート」(入力時の自動補完)機能など,多彩なサービスに生かされている。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.173-174

データの価値に気づくことができるか

データ再利用の重要性を見抜けなかった企業は,苦境に追い込まれて初めてことの重大性に気付かされる。例えば,初期のアマゾンは,AOLの電子商取引サイトに使われている技術を有償で使っていた。普通に考えれば,よくあるアウトソーシング契約そのものである。ところが,アマゾンの元チーフサイエンティスト,アンドレス・ウェイゲンによれば,狙いは別のところにあった。アマゾンが真に興味を持っていたのは,AOLユーザーによる商品の検索・購入データを手に入れることだったのだ。このデータがあれば,「おすすめ商品」機能の効果を改善できる。鈍感なAOLはそこに気付けなかった。まさに主目的である販売としてのデータの価値しか見ていなかった。抜け目のないアマゾンは,このデータの2次利用で利益を手にできるとわかっていたのだ。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.161-162

一石二鳥

リキャプチャでは,2つの単語を入力させる。1つめは従来のキャプチャと同じで,本当に人間が利用しているかどいうかを確かめるための単語だが,2つめの文字列にちょっとした細工が仕掛けてある。この単語,コンピュータによる文書読み取り(OCR)業務でうまく読み取れなかった文字列なのだ。OCRでは,原稿の文字にかすれがあったり,滲んでいたりすると,読み取りミスが発生する。コンピュータでお手上げだった単語を拾ってきて,リキャプチャで人間に読み取り作業をさせれば,正しい読み取りが可能なうえに,人間かどうかの認証もできるとあって一石二鳥。おまけに作業報酬もタダと来ている。
 その価値は計り知れない。実際に入力作業に人を雇えばとてつもないコストがかかる。仮に1回当たり10秒働いてもらったとして,1日に2億件だから,1日の延べ労働時間は55万時間にもなる。米国の2012年の最低賃金は時給7.25ドル。つまりOCRで読めなかった語句の解読作業を業務として発注すれば,1日約350万ドル(3億5000万円),年間10億ドル(1000億円)をゆうに超える計算だ。それがフォン・アーンの手にかかれば,無償で人々に仕事をさせていることになる。グーグルは,このリキャプチャをウェブサイト向けに無料で提供しており,すでにフェイスブックやツイッター,クレイグズリストなど,20万ものサイトが採用している。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.152-153

理論の終焉?

「理論の終焉」という表現は少し引っかかる。まるで物理学や化学などの分野には理論があるが,ビッグデータ分析は概念モデルが一切不要とでも言いたげだ。
 だが,そんなわけがない。そもそもビッグデータ自体は理論の上に構築されている。例えば,統計と数学の理論を使い,コンピュータサイエンスの理論も使う。重力などの現象のように因果関係のある力学の理論ではないが,一種の理論であることに変わりはない。
 一方,これまで見てきたように,理論に基づくモデルには,非常に有益な予測能力が備わっている。実際,ビッグデータからは斬新な視点と新たなヒントが得られる。これは明らかに特定分野の理論にありがちな古い考え方や思い込みと無縁だからにほかならない。
 もっと言えば,そもそもビッグデータ分析の土台には理論があるのだから,理論から逃げることはできない。手法も結果も理論が形作っている。
 データの剪定方法からして,そうだ。我々が判断する時には,データが簡単に用意できるかどうかといった利便性を重視することもあれば,データ収集が安上がりかどうかといった利便性を重視することもあれば,データ収集が安上がりかどうかといった経済性重視の場合もある。その選択に何らかの理論が働いている。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.113

相関の有益性

さらに,相関関係はそれ自体が有益なうえ,原因分析の指針にもなる。ある事象同士につながりがありそうだとわかれば,実際に因果関係があるかどうか,あるとすればなぜかを分析しやすくなる。このように素早く安上がりに絞り込めれば,原因分析のコストも削減できる。相関関係を駆使して重要な変数を拾い出したうえで,今度は因果関係を調べることもできるのだ。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.106

因果関係を知りたい

確かに,人間は世の中を因果関係で眺めている。まず,手っ取り早く架空の因果関係を持ち出すパターンがある。もう1つは,じっくり時間をかけて綿密に因果関係を検証するパターンだ。ビッグデータによる相関関係は,このどちらにも影響を及ぼす。
 なぜ架空の因果関係を持ち出してしまうかといえば,「因果関係を知りたい」という本能的な欲望があるからだ。たとえ原因などなくても,原因があるはずだと思い込む習性が人間にはある。これは文化や家庭環境,教育とは関係ない。単に人間の認知の仕組みによるものだということが研究で明らかになっている。ある出来事の後に別の出来事が起こると,脳が因果関係で捉えるように強く命令するのである。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.101-102

データを拷問にかける

このため,スモールデータ時代には,相関分析は格下の扱いだった。今日でも「データマイニング」という言葉はアカデミックな世界では軽視されている。批判派は,「そりゃ,データを延々と拷問にかければ,そのうち何か吐くだろうさ」と辛辣である。
 専門家は,相関だけに頼らず,仕組みをきちんと説明できる抽象的な概念を基に仮説を立て,それらしい項目に目星を付ける。そして相関が高そうな項目のデータを集め,相関分析によって仮説が正しかったかどうかを検証する。仮設どおりではなかった場合,データの集め方に問題があったかもしれないと考える。最初に立てた仮説(あるいは仮設の前提となった理論そのもの)に欠陥があり,仮設の修正が必要と判断するまでは,根気強く何度も挑戦することも珍しくなかった。
 このように仮設を立てては試行錯誤の繰り返しで人類の知は進化を遂げてきた。煩わしいことこのうえないプロセスだが,スモールデータの世界ではこれで通用していたのだ。
 ビッグデータ時代になれば,「もしや」というひらめきから出発し,特定の変数同士をピックアップして検証するといった手順はもはや不可能だ。データ集合があまりに大きすぎるし,検討対象となる分野もおそらくずっと複雑になる。幸いなことに,かつて仮説主導型にせざるを得なかった制約も,今はほとんどない。これほど大量のデータが利用でき,高度な計算処理能力があるのだから,わざわざ手作業で相関のありそうな数値を勘でピックアップして個別に検証する必要などない。高度な計算解析を駆使すれば,最も相関の高い数値を特定できるのだ。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.88-89

相関関係を知る

ある現象と深いつながりがある数値を特定できるということは,相関関係は今を捉え,未来を予測するときに威力を発揮する。Aという事象が,Bという事象に伴って発生することが多い場合,Aの発生を予測するには,Bの動向に目を光らせておく必要がある。たとえAそのものの計測や観察が無理でも,Aに連動しそうな出来事を把握するのに役立つ。また,もっと大切なことだが,将来,何が起こるのか予測しやすくなる。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.85

正確≠メリット

ビッグデータの世界に足を踏み入れるためには,「正確=メリット」という考え方を改める必要がある。「測定」に対する従来の考え方をデジタル化・ネットワーク化の21世紀にそのまま持ち込むと,重要な点を見逃す。正確さに執着する行為は,情報量の乏しいアナログ世界の遺物だ。情報が少ない時代には,1つひとつの測定値が分析結果を大きく左右したから,分析を歪めないように細心の注意を払う必要があった。
 今,我々が暮らしている世界は,そんな“情報飢餓社会”ではない。目の前で起こっている現象のほんの一部だけでなく,大部分あるいは全体を取り込んだ包括的なデータ集合が手に入るなら,個々の測定値の良し悪しにいちいち悩む必要もない。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.67

舵を切る時

統計的な標本は,数学の定理や引力の法則のように,文明発展の土台として不可欠な要素だと人間は考えがちだ。しかし,その歴史は100年にも満たない。ある技術的な制約の中で,特定の時代に,特定の問題を解決するために開発されたものにすぎない。
 当時の制約が今もそのまま残っているわけではない。ビッグデータの時代に無作為抽出標本が必要だと騒ぐのは,まるで自動車の時代に馬の鞭を振り回すのと同じだ。もちろん,特定の状況ではまだ標本が使えるが,大きなデータの集まりを分析する手法としては,もはや主流と考えるべきではないし,放っておいても主流の座は奪われていくはずだ。
 思い切って舵を切る時が来たのである。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.53-54

ライトロ

長い間,無作為標本は,なかなか優れた簡便法だった。デジタル化以前の時代に大量データの分析を可能にした実績がある。しかし,デジタルの画像や楽曲のファイルサイズを小さくするために圧縮する作業と同じで,標本作成の際には情報が抜け落ちる。一方,完全(あるいはほぼ完全)なデータセットなら,もっと自由に調査できるし,別の角度からデータを眺めたり,特定部分をクローズアップしたりすることも可能だ。
 このイメージに近いのが,最近発売された「ライトロ」というカメラだ。このカメラが画期的なのは,ビッグデータの考え方に基づいた写真が撮影できる点にある。
 ライトロは従来のカメラのように光を1つの平面として取り込むのではなく,光照射野全体の光線を取り込む。その数,1100万本だ。取り込んだデジタルデータからどのような画像を取り出すかは,後で決めればいい。あらゆる情報をカメラに放り込むから,撮影時にピント合わせの必要がない。撮影後に好きな位置にピントを合わせられる。光照射野全体の光線が取り込まれているということは,すべてのデータが入っているということであり,まさに「N=全部」なのだ。普通の写真の場合,シャッターを切る前にどこでピントをあわせるか決めて,風景を面で切り取らなければならない。そう考えると,このライトロでは,はるかに情報の「使い回し」が利く。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.51

N=全部

標本抽出は「小」から「大」を生み出そうという発想だ。最小限のデータから最大限の知見を引っ張りだそうというわけである。しかし,膨大なデータを活用できるようになった今日,標本の意義はすっかり薄れてしまった。データ処理技術はすでにがらりと変わっていて,我々の方法や意識が追いついていないのである。
 対象によっては標本作成以外に方法がない分野もある。しかし,部分的なデータ収集から,なるべくデータをかき集める方向へのシフトがあちらこちらで始まっている。可能ならば,すべてのデータを集める,いわば「N=全部」の世界をめざそうという発想だ。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.46

新たなルールが必要

これから我々個人にとって怖いのは「プライバシー」よりも「確率」となる。心臓発作を起こす(=医療保険が上がる)とか,住宅ローンの返済が焦げ付く(=今後の融資を渋られる)とか,罪を犯す(=逮捕される)といった可能性も,アルゴリズムが予測する。となれば,「人間の神聖なる自由意志」か,はたまた「データによる独裁」かという,倫理問題にまで発展する。たとえ統計によるご宣託があったとしても,個人の意志はビッグデータに打ち勝つことができるのか。印刷機が出現したからこそ,表現の自由を保障する法律が生まれた。それ以前は保護すべき表現はほとんどなかった。おそらくビッグデータの時代には,個人の尊厳を守る新たなルールが必要になる。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.32

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS / 忍者ブログ / [PR]