I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   
カテゴリー「算数・数学・統計」の記事一覧

すべてラプラシアン

1781年には,ラプラスはベイズの法則という名前以外のこの法則のすべてを手中に収めていた。この法則の定式も方法論も見事な活用も,すべてピエール・シモン・ラプラスが成し遂げたものだった。確率に基づく統計がごくふつうに使われるようになったのも,ラプラスのおかげだった。賭け事の理論を実際的な数学に変えたラプラスの業績は,以後100年にわたって確率と統計の世界を支配することになる。ラトガー大学のグレン・シェイファーは,「思うに,すべてを成し遂げたのはラプラスであって,わたしたちがあとからそれをトーマス・ベイズの中に読み取っているだけのことなのだろう。ラプラスはこの法則を近代的な言葉で表現した。ある意味で,すべてがラプラシアンなのだ」と述べている。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.70-71

神の名は

1802年にマルメゾンにある皇后ジョセフィーヌのバラ園で開かれた園遊会で,教皇との和解を考えていたナポレオン皇帝はラプラスに,神や天文学や天体を巡る有名な議論をふっかけた。
 「それで,これらすべてを作ったのは誰なのだ」とナポレオンは尋ねた。
 ラプラスは落ち着いて,天体系を維持しているのは,一連の自然な原因である,と答えた。
 するとナポレオンは不満げに,「ニュートンは著書の中で神に言及している。貴殿の著作を熟読してみたが,一度の神の名が出てこないのはなぜなのだ」と尋ねた。
 これに対してラプラスは,重々しく答えた。「わたくしにはそのような仮説は必要ございませんので」

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.67-68

ラプラス

原因の確率の理論を最初に考えだしたのは確かにベイズだが,ラプラスが独力でラプラス版の原因の確率の理論を発見したことははっきりしている。ベイズ—プライスの小論が発表されたとき,ラプラスはまだ15歳だった。しかもこの小論は,イギリスの上流階級を読者対象とする英語の雑誌に発表されただけで,以後一度も話題にならなかったらしい。そのため絶えず海外の雑誌に目配りしていたフランスの科学者たちですら,ラプラスが一番乗りだと考えて,その独創性を心から褒め称えた。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.53-54

中心極限定理

ラプラスはアカデミーで朗読された論文で,まずこの新たな原因の確率の理論を2つの賭博の問題に適用した。どちらの場合も,結果そのものは直感的にわかったのだが,数学的な証明は行き詰まった。1つ目の例では,壺に黒と白の切符が入っているが,白と黒の比(原因)はわからないとした。そこから切符を何枚か引いて,その結果に基づいて次の切符が白である確率を求めたい。ラプラスはその答えを何とか数学的に証明しようと,四つ折り判4ページにわたって少なくとも45本の式を書き連ねたが,どうもしっくりこなかった。
 2つ目の例は,運と技術の両方を要求されるピケットというゲームの問題だった。2人ではじめたゲームを途中で中止した場合に,2人の相対的な技量(原因)を評価して場の掛け金を配分するにはいったいどうすればよいか。またしても,答えは直感的にわかったが,数学的に証明することはできなかった。
 大嫌いな賭博の問題を片付けると,ラプラスは嬉々として,天文学者たちが実際に仕事で直面している重要な科学の問題に取りかかった。同一の現象を巡って異なる観測が得られたとき,それらをどのように取り扱えばよいのか。当時の科学における3つの大きな問題として,地球の引力が月の動きに及ぼす影響についての問題,木星と土星の動きについての問題,地球の形に関する問題があった。観測者たちが,たとえ同じ場所でまったく同じ装置で同時に測定を繰り返したとしても,毎回わずかに結果が異なる可能性があった。このような矛盾した観測結果かから中央値を算出するにあたって,ラプラスは観測値が3つの場合に限定して論を進めたが,それでもこの問題を定式化するには,7ページにわたって延々と式を書き連ねなければならなかった。科学的にいって,3つのデータの平均を取ればよいことまではわかったのだが,それが数学的に裏付けられたのは1810年のことだった。この年にようやく,原因の確率を使うことなく,中心極限定理が打ち立てられたのである。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.52-53

部分修正

ベイズは,事前の直感に基づく判断と反復可能な実験に基づく確率を組み合わせた。そして,ベイズ派の特徴ともいうべき手法を作り出した。当初の考えを客観的な新情報に基づいて部分修正する,という手法である。これなら,まわりの世界について観察したことから,その原因になりそうなものへとさかのぼることができる。かくしてベイズは長い間探し求められていた確率の聖杯——後の数学者たちが原因の確率,逆確率の原理,ベイズ統計,あるいはシンプルにベイズの法則と呼ぶもの——を発見した。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.36

メモに挟まれていた

ベイズの着想はロイヤル・ソサエティーの仲間内で議論されたが,本人は自分の着想が正しいと思っていなかったらしく,ロイヤル・ソサエティーに論文を送って発表するでもなく,ほかの書類に紛れたままで10年ほどほったらかしにしていた。ベイズがこの大発見をしたのが1740年代の終わり——おそらくヒュームの小論が発表された1748年のすぐあと——だろうと結論できるのも,この論文が1746年から1749年までのメモの間に突っ込まれていたからにすぎない。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.33

一言でいうと

ベイズのシステムは,概念としては単純だ。客観的な情報を得て自分の意見を変えるだけのことで,つまり「当初の考え(最初のボールが落ちた場所に関する推測)+最近得られた客観的なデータ(直近のボールが最初のボールの左側に落ちたか右側に落ちたか)=より正確な新たな考え」,と表すことができる。やがて,この手法の各部分には名前がつけられ,当初情報がない時点で考えた確率を「事前確率」,観察された客観データに基づく仮説の確率を「尤度」,客観データによって更新された確率を「事後確率」と呼ぶようになった。このシステムを使って再計算をする場合には,すでに得られている事後確率が次回の事前確率になる。これは進化するシステムで,新たな情報が加わるたびに確信へと近づいていく。一言でいうと,

 事後確率は,事前確率と尤度の積に比例する

のである(もっと専門的な統計学者の用語では,尤度というのは観察されてすでに値が定まっているデータを前提とした競合する仮説の確率を示す。だが,南アフリカで統計の歴史を研究しているアンドリュー・デールによれば,「いささか乱暴な言い方をすれば,尤度とは,ベイズの定理を巡る議論から事前確率を取り除いたときに残るものである」こうなると,ことはかなり単純だ)。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.29-30

ビリヤードテーブル

ベイズは逆確率問題の本質を明確に把握したうえで,問題の出来事がこれまでに何度起きたか,あるいは起きなかったかといった過去の事実だけがわかっているときに,その出来事が今後起きる確率がどれくらいかを近似することを目標とした。問題を定量的に扱うには数値が必要だ。ベイズは1746年から1749年のどこかの時点で,この問題のすばらしい解決法を思いついた。出発点として,とりあえず何らかの数値——ベイズがいうところの「推測値」——をでっち上げておいて,情報が得られた時点でその数値を修正すればよい。
 次にベイズは,18世紀版コンピュータ・シミュレーションともいうべき思考実験を行った。余計な条件をすべて取り去った基本的な問題として,まず1つの正方形のテーブルを想定する。テーブルは完璧に水平で,投げたボールがとまる確率はどの点もすべて全く同じだとする。後の世の人々は,ベイズはビリヤード・テーブルを想定したとしているが,非国教徒の聖職者たるベイズがビリヤード・ゲームに賛成したとは思えない。しかもこの思考実験では,ボールがテーブルの縁にあたって跳ね返ったり,ほかのボールにぶつかったりはしない。つまりテーブルの上をでたらめに転がったボールがどこかで止まる確率はすべて等しいと考えるのだ。
 ではここで,テーブルに背を向けて座るベイズの姿を思い浮かべよう。この状態では,テーブルの上がどうなっているかはまるでわからない。ベイズは,1枚の紙にテーブルの表面を表す正方形を描く。そして,架空のテーブルにこれまた架空のまん丸なボールを投げるところを想像する。ただし,テーブルに背を向けているので,ボールがどこに落ちたのかはわからない。
 次に,ベイズが誰かに,ボールをもう1つテーブルに投げて,そのボールが最初のボールよりも右に落ちたのか左に落ちたのかを教えてくれ,と頼んだとしよう。このとき,左という答えが返ってくれば,最初のボールはどちらかというとテーブルの右側にある可能性が高いといえる。逆に右という答えが返ってくれば,最初のボールがテーブルのうんと右寄りにある確率は可能性は低いと考えられる。
 このような手順を踏んで,次から次へとボールを投げてもらう。当時のばくち打ちや数学者たちはすでに,投げるコインの数が多ければ多いほど,得られる結論の信頼性が増すことを知っていた。そしてベイズは,投げるボールの数を増やしていくと,新たに得られる情報の断片が積み重なって,最初に投げたボールが落ちたと思われる場所の範囲が狭められていくことに気がついた。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.27-28

個人誤差の発生原因

新しい研究室で私がはじめに行ったのも,個人誤差がどのように発生するかというものでした。人によって測定値が異なり,しかも正しい測定を行う人と,たえずおかしな測定をする人とがいるというのが分かるまでには,かなりの時間を要しました。基本は,真の値が分からないところで,人は正しい値を探して,どのように測定をするかということでした。
 このような人による差が,何によって発生するかというのは,あるいは人間の本質を研究する上での,根本的な問題になるかもしれないという気がするのです。当時は心理学者のすすめもあり,これを人の性格について調べてみました。現在では,性格テスト以上に,測定者の能力を調べた方が,いろいろなことが分かるような気もしています。
 内向的で情緒安定型の人は,かなりの割合で測定がうまく,逆に,外向的で情緒不安定型の人には,測定の下手な人が多いということが分かりました。性格的な傾向ですから,訓練で測定がうまくなるというのは,根本的には,あまり期待できないことになります。
 内向的で情緒安定型というのは,いわれた仕事は真面目にするが,自分からは外部に対して積極的には働きかけない人,いわゆる技能者に向く人のようです。このような人たちが,測定という地味な仕事を支えているということになります。
 外向的で情緒不安定型というのは,経営者とか政治家,ジャーナリストなど,自分から積極的に仕事をする人の性格傾向のようです。このような人は,測定などという地味な仕事になど,かまってはいられないという人たちでしょう。

矢野宏 (1994). 誤差を科学する:どこまで測っても不正確!? 講談社 pp.153-154

条件の固定化

普通に考えると,ものごとの正しさを判断する場合には,条件を精密におさえる方がよいというようにいわれます。血圧にしても,朝目覚めたとき,まだ布団の中で起き上がらないときに測った血圧が基準となるといわれます。これは条件を固定した方が,より信頼のおけるデータがとれるであろうということです。このことはそれなりに正しいと思います。
 しかし,実際に変化するものを調べる場合,条件を固定してしまうと,かえって全体の傾向がつかめなくなるときがあります。ある程度の変化を与えて,その変化にどれだけ追随するかを調べるのも新しい方法なのです。

矢野宏 (1994). 誤差を科学する:どこまで測っても不正確!? 講談社 pp.87

現実の方がおかしい

誤差というのは本来,あってはならないもの,あるいはあっては欲しくないものということであるとすれば,現実を理想化,あるいは美化したものの見方をこそ真実と考える情動が働いて,事実でないものの方が,事実以上の重みを持ってしまうということになるかも知れません。
 それは現実の社会の人間関係だけでなく,技術の世界も同じことなのです。現実にあるはずの誤差を無視して,誤差のない状態でものを考え,現実と矛盾すると,自分の考えの方がおかしいと思わずに,現実の方がおかしいと考えるのです。

矢野宏 (1994). 誤差を科学する:どこまで測っても不正確!? 講談社 pp.31-32

真の値は

ところで問題なのは,「誤差とは測定値から真の値を引いたものである」という定義です。辞書の説明が十分に役に立たないといったのは,何も辞書の責任ではなく,そのもとになっている技術の考え方の方にあるのです。
 文部省の国立国語研究所に,言語変化研究室というのがあり,かつて,用語について質問をしに行ったことがあるのですが,「個々の用語の定義は当事者同士で解決して欲しい」といわれました。前にも紹介したことがあるのですが,多くの技術用語は外国から輸入されたものを,適当な漢語を使って合成しています。したがって,輸入経路と用語の作成者によって,まちまちとなりますから,国語学者がいちいち付き合っていられないということでしょう。
 しかし,誤差については用語の表わし方というより,定義そのものに問題があるのです。我々は真の値が不明だからこそ,真の値の代わりとなる測定値を求めるのです。ということは,測定値を求めたからといって誤差が求まるわけではありません。
 むしろ,真の値が分かっていれば,そもそも測定などをする必要がなくなるのです。結局,どこまで行っても誤差は求められないのです。ところが多くの人は,測定をすれば,簡単に誤差が求められると思っていることから,混乱がはじまります。

矢野宏 (1994). 誤差を科学する:どこまで測っても不正確!? 講談社 pp.22-23

独断に満ちている

そもそも,どこに境界線を定めるのであれ,その両端にいる人たちはまったくと言っていいほど変わらないはずだ——にもかかわらず,一方は病気だと言い,他方は健康だと言うのはばかげている。191センチの人も192センチの人も背が高いのに変わりはない。それに,何パーセントで区切るのか。精神保健の臨床医がわずかしかいない発展地上国なら,最も重い障害を抱えた人しか精神疾患と見なされないはずだ——そうなると,1パーセントしか正常ではないように境界線が定められるかもしれない。セラピストだらけのニューヨークでは,精神疾患の条件が急激にゆるやかになっているので,境界線は30パーセントかそれ以上のところに定められるかもしれない。これは独断に満ちており,美しい曲線もどこに線を引くべきかはけっして教えてくれない。

アレン・フランセス 大野裕(監修) 青木創(訳) (2013). <正常>を救え:精神医学を混乱させるDSM-5への警告 講談社 pp.38-39

答えで十分

相関関係は,因果関係と比べて,時間的にもコスト的にも見つけやすい。とはいえ,これからも因果関係の研究は必要だし,医薬品の副作用実験や航空機用部品など,一部の用途ではしっかり吟味されたデータによる対照実験も不可欠だ。しかし,多くの日常的な用途では,「理由」ではなく「答え」がわかれば十分だ。しかもビッグデータから見つけ出した相関関係は,因果関係を探るうえで道しるべにもなる。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.281

プライバシー保護

ビッグデータ時代には,これまでと大きく異なるプライバシー保護の枠組みが必要だ。それには,データ収集時に個別に同意を求める形式よりも,データ利用者に責任を負わせる形が望ましい。そのような仕組みになれば,企業は,個人情報が処理される際,個人にどのような影響が及ぶのか慎重に検討したうえで,データ再利用を正式に評価することになる。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.258

因果関係ではない

言うまでもなく,ビッグデータには数々のメリットがある。人間性抹殺の兵器になってしまうのは,欠陥があるからだ。それもビッグデータ自体の欠陥ではなく,ビッグデータによる予測結果の使い方の欠陥である。予測された行為について実行前に責任を負わせることからして大問題だが,とりわけ,相関関係に基づくビッグデータ予測を使っていながら,個人の責任については因果的な判断を下している。問題の核心はここにある。
 ビッグデータは,現在や未来のリスクを把握し,それに応じて自分の行動を調整するときに威力を発揮する。その意味ではビッグデータ予測は,患者にも保険会社にも金融機関にも消費者にも役に立つ。しかし,因果関係については何一つ教えてくれない。個人に「自責の念」(過失の意識)を持たせるには,対象者が特定の行為を自ら選択していなければならない。まず本人による決断が原因としてあり,その結果として特定の行為が発生していなければならないのである。より正確に言えば,ビッグデータが相関関係を前提としている以上,因果関係を判定して個人の有責性を示す道具としては,まったくもって不適当なのである。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.243-244

承諾の取り方

重要なのは,ビッグデータによってプライバシーのリスクが高まるかどうか(高まることは確かだろう)よりも,リスクの性格が変わってしまうかどうかだ。単にこれまでよりも脅威が大きくなるだけなら,ビッグデータ時代もプライバシーが守られるように法令を整備すればいい。これまでのプライバシー保護の取り組みを一段と強化するだけの話だ。しかし,問題自体が変わってしまうのなら,解決策も改めなければならない。
 残念ながら,リスクの性格そのものが変容している。ビッグデータによって情報の価値は当初の目的だけで終わらないことは,先に述べた。2次利用の価値があるからだ。
 その結果,現行の個人情報保護法で個人に与えられている基本的な役割は根底から揺らぐ。現在,データ収集の際には「どういう目的でどの情報を集めるのか」を本人に説明することになっている。本人が同意すれば収集が始まる。プライバシー問題に詳しいインディアナ大学のフレッド・ケイト教授によれば,合法的に個人情報を収集・処理する手続き方法は「告知による同意(告知と同意)」方式だけではないが,今やこの「告知と同意」方式が世界中でプライバシー保護の基本になっているという。
 だが,ビッグデータ時代の画期的な2次利用はある日突然ひらめくものだ。データを最初に収集する時点で,そんな2次利用まで想定できているわけではない。では,存在もしていない2次利用の目的をどうやって告知すればいいのか。データを提供する側も,未知のものについて,どのような説明を受けて同意すればいいのか。同意が取れていない場合,再利用のたびに1人ひとりに許可を求める必要があるはずだ。しかし,グーグルが何億人ものユーザーに昔の検索データの再利用について承認を得ることなど考えられない。技術的に可能だとしても,そんなコストをやすやすと引き受ける企業はない。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.229-230

価値の転換

当然,知識の評価のあり方も変わる。従来は,深い専門知識を持つ者は,ゼネラリストよりも価値があると考えられてきた。専門知識は「正確さ」と同様に,情報が十分にないスモールデータの世界ゆえに重宝がられ,勘と経験で水先案内人を務めてきた。そういう世界では経験が物を言う。それは,長年にわたって身をもって覚えたノウハウだから,簡単には伝授できないし,教科書にまとめることも難しい。ひょっとしたら,本人は意識さえしていないかもしれない。しかし,データを大量に持つことができれば,大きな武器になる。ビッグデータを分析することで,迷信や古い考え方に振り回されにくくなる。自分が賢いからではなく,データを持っているからだ。言い換えれば,会社で価値を発揮できる従業員の条件も変わる。身に付けておくべき知識も変わるし,知っておくべき人間も変わる。職業人として身に付けておくべき資質も一変するのだ。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.214-215

砂金集め

ユーザーとのやり取りの残骸にキラリと光る砂金を見つけたのは,グーグルだけだった。砂金をコツコツ集めれば,輝くインゴットに変わると察したのである。マイクロソフトのスペルチェッカーと比べて性能が少なくとも1桁違うと豪語するグーグルの有力エンジニアもいた(ただし,後に根拠を問われて,きちんと測定したわけではないと認めている)。このエンジニアは,「開発費タダ」という評価を一蹴したうえで,“原料”のミススペルには直接費こそかかっていないが,全体的なシステムの開発にはマイクロソフトを上回る予算を投じたつもりだと胸を張る。
 両社の考え方はまったく異なる。マイクロソフトは文章処理という単一目的から,スペルチェックの価値を捉えていた。一方のグーグルはもっと踏み込んで有用性を見抜いていた。ミススペルを基に世界最高・最新のスペルチェッカーを開発して検索性能を高めただけでなく,検索やGメール,グーグルドキュメント,グーグル翻訳での「オートコンプリート」(入力時の自動補完)機能など,多彩なサービスに生かされている。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.173-174

データの価値に気づくことができるか

データ再利用の重要性を見抜けなかった企業は,苦境に追い込まれて初めてことの重大性に気付かされる。例えば,初期のアマゾンは,AOLの電子商取引サイトに使われている技術を有償で使っていた。普通に考えれば,よくあるアウトソーシング契約そのものである。ところが,アマゾンの元チーフサイエンティスト,アンドレス・ウェイゲンによれば,狙いは別のところにあった。アマゾンが真に興味を持っていたのは,AOLユーザーによる商品の検索・購入データを手に入れることだったのだ。このデータがあれば,「おすすめ商品」機能の効果を改善できる。鈍感なAOLはそこに気付けなかった。まさに主目的である販売としてのデータの価値しか見ていなかった。抜け目のないアマゾンは,このデータの2次利用で利益を手にできるとわかっていたのだ。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.161-162

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS /  /