忍者ブログ

I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   
カテゴリー「算数・数学・統計」の記事一覧

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

言い訳

ときとして私たちは,運というものを予測が外れたことの言い訳に使おうとする。金融危機が表面化した際の格付け会社のように。けれども,予測が外れた本当の理由は,現実に存在する以上のシグナルをキャッチしようとしたことにある。
 この問題を解決する1つの方法は,もっと厳しく予測を評価することだ。結果を評価することで,安定的に正しく予測できるようになる分野もあるだろう。もう1つは,結果ではなくプロセスを重視する方法だ。データにノイズが非常に多いときにはこの方法しかないだろう。ノイズが多すぎて,どの予測が正しいのかわからないときは,予測者の姿勢や適性に注目しよう。それらは予測の結果と相関があるはずだ(ある意味,私たちは予測者がどのくらい正確な予測をするかを予測していると言える)。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.361
PR

気をつけろ

たとえば,「コンピュータはヤンキースがワールドシリーズを制すると予想している」といった文章が思い浮かぶときは,気をつけた方がいい。それが,より正確な文章(「コンピュータ・プログラムのアウトプットによれば,ヤンキースがワールドシリーズを制することになるだろう」)を簡略化したものであれば大丈夫だ。世界中に情報があふれる現代では,人間より速く計算できる機械は間違いなく役に立つ。
 けれども,予測者を観察したときに,コンピュータを生き物のように,あるいはモデルに意思があるように考えていると感じたときには,それは思考が欠如しているサインかもしれない。予測者のバイアスや盲点は,間違いなくコンピュータ・プログラムに反映される。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.320-321

ノイズばかり

イオアニダスは言った。「この20年間,利用できる情報が急激に増え,ゲノム学やその他のテクノロジーが進化したことで,興味深い変数を大量に測定することができるようになった。私たちには,それらの情報を活かして役立つ予測をすることが求められている。もちろん,私たちが全く進化していないとは言わない。これだけの数の論文があるのに,何も進展がないとしたら悲しいからね。でも,同数の発見がないことは確かだ。知識を生み出すことに本当に貢献しているものはほとんどない」
 おそらく,これがビッグデータの時代に予測が失敗するようになった理由だろう。利用できる情報が急激に増えたことで,精査しなければならない仮説も大幅に増えたのである。たとえば,現在,アメリカ政府は4万5000の経済統計を発表している。これらのデータをすべて組み合わせて検証しようとすれば——アラバマ州の住宅ローンの金利と失業率には因果関係があるかなど——10億の仮説を検証することになる。
 しかし,データのなかの意味のある関係——相関関係ではなく因果関係を示し,世界の動きを説明するもの——は桁違いに少ない。情報が増えるペースでは増えていない。つまり,インターネットや印刷機が発明される前とくらべて,世の中の真実が増えているわけではないのである。ほとんどのデータはノイズにすぎない。宇宙のほとんどが何でもない空間で占められているのと同じだ。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.272-273

確率的に見る

ベイズの定理を使うときには,世の中を確率的に見ることが要求される。たとえ確率の問題だとは思いたくないような問題でもだ。形而上的に考えれば世界は不確実であるといった立場をとる必要はない。ラプラスは,惑星の軌道から分子の動きにいたるまで,すべてはニュートンの法則に支配されていると考えていたにもかかわらず,ベイズの定理の発展に寄与した。ベイズの定理が取り組んでいるのは認識論的な不確実性——人間の知識の限界——なのである。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.271

よいモデルは

よいモデルは,たとえ予測が当たらなくても役に立つ。「どんな予測もたいてい間違うことがわかる。すると,なぜ間違うのか理解しようとする。そして間違ったときにどうするのか,間違ったときのコストを最小にするにはどうすればいいのかを考える」とオゾノフは言った。
 心にとめておいてほしいのは,モデルは世界の複雑さを理解するためのツールであって,世界そのものの代用品にはならないという点だ。これが重要なのは,予測するときだけではない。マサチューセッツ工科大学(MIT)の神経科学者トマソ・ポッジオは,私たちの脳による情報処理は推定作業の連続だと見ている。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.253

相関と因果

ビッグデータの時代にあっては,このような考え方が一般的になってきている。たくさんの情報に囲まれているときに,誰が理屈など必要とするだろうか。しかし,予測するときの姿勢として,これは絶対に間違っている。特にノイズの多いデータを扱う経済の分野では致命的だ。統計的な推論は,理論に裏づけされたときに強固なものとなる。少なくとも根本的な原因だけは真剣に考えてみるべきだろう。2011年9月の時点で,悲観的な見方にはいくつかの根拠——ヨーロッパの債務危機など——があったことは間違いないが,ECRIは見るべきものを見ていなかった。代わりに,たくさんの変数をごった煮にして,相関関係と因果関係を取り違えたのである。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.216

当たらない

実際には,エコノミストがGDP成長率を予測するときの90パーセント予測区間——実際に検証されたもの——は,およそ6.4ポイントにおよぶ(プラスマイナス3.2パーセントの誤差に相当する)。
 つまり,来年のGDP成長率が2.5パーセントになる見込みという報道があれば,それは5.7パーセントになるかもしれないし,マイナス0.7パーセントになるかもしれないということだ。後者ならかなり深刻な景気後退である。エコノミストの予測は昔からこの程度であり,改善していることを示す証拠もない。過去6回の景気後退のうち9回を当てたと自慢するエコノミストの笑い話も,さもありなんという気がしてくる。ある統計によれば,1990年代に世界中で起きた60回の景気後退のうち,1年前にエコノミストが予測できたのは2つだけとなっている。
 エコノミストだけではない。このような結果はよくあることだ。専門家という人たちは,地震の予測のなかの不確実性を正直に伝えることを苦手としている。あるいは,そうすることにまったく関心を持っていない。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.200

些細な間違いが

データに誤りがあるところには問題が生じる(あるいは,CDOのように,前提に誤りがある場合に問題が生じる)。たとえば,5足す5を計算するときに,キーを誤って押したとしよう。5足す5の代わりに5足す6とした場合だ。本当は10になるはずなのに,11という結果が出る。間違ってはいるが,たいした差ではない。足し算の結果は線形なので,誤りには寛容だ。しかし,指数関数的な計算では,データの誤りは厳しく咎められる。5の5乗(=3215)と5の6乗(=15625)では,結果が大きくかけ離れてしまう(500パーセントも違う)。
 プロセスが動的であれば——つまり,ある段階でのアウトプットが次の段階のインプットになっているときには——事態はさらに深刻になる。たとえば5を5乗し,その結果を5乗するとしよう。先ほどと同じ間違いをした場合,その差は3000倍となる。些細な間違いがどんどん大きくなるのである。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.132

運が

予測が大外れだったことを言い訳するときには,いくつか選択肢がある。1つは外部の環境のせいにすることだ。「運が悪かった」というやつだ。これが理由として正しいときもある。国立気象局が90%の確率で晴れといったのに実際には雨だったとしても,「ゴルフが台無しになった!」と本気で気象局を責める人はいないだろう。事実,過去のデータは,気象局が10分の1の確率で雨だと言うとき,長い目で見れば10パーセントの確率で実際に雨がふることを示している。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.22

ネットとベイズ

グーグルは,スパムやポルノを分類し,関連した言葉や言い回しや文書を見つけるのにもベイズの手法を使っている。きわめて大きなベイジアンネットワークを使って,単語や言い回しの同義語や類語を見つけるのだ。さらにまた,スペルチェッカーに必要な辞書をダウンロードする代わりに,インターネット全体に全文検索をかけて,それぞれの単語がどのように綴られる可能性があるかをすべて洗い出す。こうしてできたのが,「sharon」というのはたぶん「Sharon」のことだろうと認識してタイプミスを直す柔軟なシステムなのである。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.438

ノーベル賞とベイズ

2002年にはベイズが,ノーベル賞を丸々1つとまではいかないものの,一部勝ち取った。2002年のノーベル経済学賞受賞者ダニエル・カーネマンは,ノーベル賞の対象になる前に死去した心理学者のエイモス・トベルスキーとともに,人間が合理的なベイズ推定の手順にしたがって意思決定するわけではないことを示した。調査票の質問に答えるときにはその言い回しに影響されるし,医師たちが癌の患者に手術を行うか放射線治療にするかを決める時も,治療の選択を死亡率と関連付けるかそれとも生存率と関連付けるかで判断が違ってくるのだ。おおかたの人はトベルスキーを哲学的ベイズ派と見ていたが,本人は研究成果を頻度主義的な手法でまとめていた。デューク大学のジェームズ・O・バーガーがトベルスキーになぜかと尋ねると,そのほうが都合がよかったから,という答えが返ってきたという。1970年代にはベイズ派の研究を発表することはきわめて難しかったので,「彼は楽な道を選んだんだ」とバーガーは述べている。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.423

テューキーと世論調査

ベイズ統計を用いたテューキーの世論調査は,当時もっとも人気が高かった2人のテレビキャスターのために国際的な鳴り物入りの宣伝付きで行われていた。したがって,この調査がきっかけでベイズの法則の威力や有効性が広く世に知れ渡り,法則そのものが定期的に補強されていくという展開になる可能性もあった。ところがテューキーがこの調査について語ることも書くことも禁じたために,ほとんどの統計学者が,ベイズの法則がテレビで20年近くもスター並みの役割を演じてきたことを知らずに終わった。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.318

何でも新しい名前

ウォリスの話によると,たとえきちんと確立されたわかりやすい名前があったとしても,「あの人[=テューキー]は,自分がしたことすべてに,何かしら別の名前をつけた」。新たな名前をつければそのアイデアに注目が集まるというので,ある同僚が教えたところ,テューキーは50もの用語を作り出していたという。そのうち定着したものとしては,たとえば線形計画法やANOVA[分散分析]やデータ解析といった用語がある。モステラーはある論文をまとめる際に,シャープやフラットやナチュラルといった音楽の記号を使うのをあきらめるようテューキーを説得するのに苦労したという。さらに別の同僚は,頻度(frequency)ではなく「フンド(quefrency)」だの,分析(analysis)ではなく「プンセキ(alanysis)」だの,「バカ分解(saphe cracking)」といった妙な造語をするんなら,君のことをテューキーでなくJ・W・キューティーと呼ぶぞ,といってテューキーを脅した。ウォリスが言うように「[こういう造語は]必ずしも友達を作ったり人に影響を及ぼす最良の方法ではなかった……それでもテューキーと話すときは,基本的に彼の言葉を使うように心がけた」。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.311

軍と大学

軍がときにはベイズを受け入れたのに対して,大学の統計学者たちは断固としてベイズを受け入れまいとしてきた。この態度の違いが何に由来するのかは,未だによくわからない。軍がこの手法を信用するようになったのは,第二次大戦や冷戦の間に極秘にベイズを使っていたからなのか。それとも,軍がコンピュータを使うことをあまり恐れなかったからなのか。あるいは,軍のほうが強力なコンピュータを使いやすかったというだけのことなのか。第二次大戦や冷戦を巡る情報の多くが今なお機密扱いであることを考えると,これらの謎はこの先も解けずに終わるのかもしれない。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.385

テューキーとベイズ

では,テューキーはどこに立脚していたのだろう。反ベイズ派でしかも反頻度主義者なのだろうか。友人たちによると,テューキーはモステラー同様,融通の利かない統一的な哲学に反対していたという。ブリリンガーの見るところ,テューキーは「ベイズ派の主張そのものではなく……ベイズ派の一部に」いらだっていた。テューキーにいわせると,「ベイズ派の技法をすべて捨ててしまうのは本物の過ちだが,わたしにいわせれば,ベイズ派の技法をありとあらゆるところで使おうとするのはそれ以上に大きな過ちだ」った。つまり,いつどこで使えばいいかを知っているかどうかがポイントだったのだ。テューキーはしばしば「どの場合にも通用するアプローチをつくろうとする自然ではあるが危険な欲望」に不満を漏らし,「わたしの見るところ,ベイズ解析にとって最大の脅威となるのは,重要なものをすべて単一の定量的な枠組みにはめ込むことができるという信念だ」と述べている。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.309-310

テューキーの業績

テューキーは軍事のほかにも,空気の質や化学汚染やオゾン層の減少や酸性雨や,国勢調査の方法論や教育における試験の問題といった広い範囲の問題について政府に助言を行っていた。
 いったい全体どうやって,こんなにたくさんの仕事をこなしたのだろう。セミナーのときに,後ろの列に腰を下ろして居眠りしたり,郵便物を読んだり,新聞にざっと目を通したり,論文に手を入れたりしていたテューキーが,発表が終わったところでおもむろに立ち上がって論評を加えたという類の伝説は山ほどあった。また,レコードでバロックの管楽合奏を聴きながら鉛筆で論文を認め,一番上に「〜とジョン・W・テューキー著」と書き加えたうえで長い付き合いになる2名の秘書のどちらかに渡し,それからおもむろにその論文を完成させるための共著者を探しに行ったという話もある。テューキーは約800の刊行物に名前を残し,105名以上の著者と共同で著作を発表したが,共著者のなかには国立衛生研究所のジェロム・コーンフィールドも含まれており,もっとも頻繁に共著者となったのはハーバード大学での友人フレデリック・モテスラーだった。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.301-302

テューキー

テューキーは,今では「ビット」や「ソフトウェア」という言葉を作った人物として知られているだけで,統計学や工学の業界の外ではほとんど無名に近いが,じつは軍事研究のスパイの世界——とりわけ暗号解読やハイテク兵器の分野で膨大な成果を上げていた。プリンストン大学で統計学の教授を務めながら,30マイル[約50キロ]離れたAT&Tのベル研究所——当時は世界一の工業研究所とされていた——でも仕事をしていた。そしてこのような立場を生かして,5代にわたる大統領,そして国家安全保障局やCIAに助言を行った。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.298

主観主義vs.頻度主義

一方ベイズ派の主観主義者たちは,答えを実際に確率で表したいと考えていた。仮説を受け入れたり却下するだけでは不十分だった。ライファも実感したことだが,事業主にすれば,「それまでの意見に基づいて……また,具体的なサンプル事象に照らして,pが0.25より大きい確率は0.92だと考えられる」というようなことがいえるようになりたかった。
 ところがこれは頻度主義者にとってまさに禁句で,頻度主義者が認めるのは「有意性が0.05レベル」のサンプル事象だけだった。ライファは頻度主義が「分布のごく浅薄な記述を中心に据えている」と見た。「私は学生に(pの分布全体について,また)確かとはいえないpがどのあたりにありそうか(について)確率を使って考えてほしかった。そのうえで意思決定の観点から見て,どのあたりに正しい行動があるのかを解明してほしかった。だから,仮説検定の問題全体が学生をまちがった方向に導くように思われたんだ」

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.266-267

ベイズの復活

1960年代に入ると,まるで雨後の竹の子のようにベイズ派の理論が姿を現しはじめ,ジャック・グッドによると,ざっと勘定したところ地球上の統計学者の総数をはるかに超える「少なくとも4万6656種類の解釈があった」という。主観ベイズに個人論的ベイズ,客観ベイズに経験ベイズ,擬似経験的ベイズに部分的ベイズ,認識様態的ベイズに直観主義的ベイズ,論理的ベイズにファジー・ベイズに階層ベイズ,そしてハイパーパラメトリックなベイズにハイパーパラメトリックでないベイズ等々。これらのバリエーションの多くは,作り出した人間にしかその魅力がわからず,現代の統計学者のなかにも,いくら屁理屈をこねても先駆的なベイズ理論が生まれるわけではないと強く主張する者がいるのは事実だ。ある生物統計学者は,さまざまなベイズ派の理論をどうやって区別するのかと問われて,かすれた声で「汝らはその事後確率によってそれらを見分けるであろう」と答えている[マタイによる福音書7:16「あなたがたは,その実で彼らを見分ける」のもじり]。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.237-238

道化

結局のところ,フィッシャーは道化を演じただけだった。コーンフィールドが冷淡に指摘したように「[批判を受けて]ひっきりなしに仮説が変更されていってまじめに考慮することが難しくなったときに……1つの結論に達した」のである。観察されたデータの関連についての実際的な説明がたった1つしか見つからないのであれば,科学者たちはその原因を見つけたといえるはずだ。これに対して,ほかのやり方でも説明できるのであれば,原因はまだ見つかっていないことになる。コーンフィールドはこうして,その先の喫煙と肺がんの研究のためのロードマップを明らかにしてみせた。
 この時点で,歴史学専攻だったコーンフィールドは,アメリカでもっとも影響力の強い医療統計学者となっていた。1964年にアメリカ軍医総監が,「たばこの喫煙と男性の肺がんとは原因という形で結びついている」と結論したときに引き合いに出されたのはコーンフィールドの業績だった。実験ではない研究が,喫煙と肺がんとの関係を確認するのに役だったのだ。コーンフィールドは,ラプラスが「過去の出来事から得られた,原因の確率と未来の出来事の確率」と呼んだベイズの法則の力を借りて,症例対照研究を通して汚染や暴露と疾病の結びつきの強さを評価することの正当性を理論的に裏付けた。コーンフィールドのおかげで,今や症例対照研究は疫学者が慢性病の原因を突きとめる際の主要なツールとなっている。

シャロン・バーチュ・マグレイン 冨永星(訳) (2013). 異端の統計学 ベイズ 草思社 pp.212-213

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS / 忍者ブログ / [PR]