I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   
カテゴリー「算数・数学・統計」の記事一覧

数値でわかることもある

数値データが現実世界の美しさを伝えることができるという考えには多くの人が抵抗を示すだろう。そうした人々は,物事が数値に変換されると,物事のもつ不思議さのようなものが剥ぎ取られると感じるのである。しかし,実際にはその考え方はまったく間違っている。数値によってわれわれは物事の美しさや,魅力をよりはっきりとより深く知覚し,結果としてそれらをより完全に認識することができるようになる可能性を秘めている。

David J. Hand 上田修功(訳) (2014). 統計学 サイエンス・パレット012 丸善出版 pp.31

データから得られるものすべて

著名な統計学者であるジョン・チャンバースによる「広義の統計学」の定義にならって,統計学の広い意味での定義づけができる。彼によると,広義の統計学はシンプルに定義される。荒っぽくいえば,「初期段階の計画やデータ収集から最終的な発表や報告にいたるまで,データから得られるものに関連するすべてである」。データを分析する別の学問分野との境界線を定めようとすることは無意味かつ無益である。

David J. Hand 上田修功(訳) (2014). 統計学 サイエンス・パレット012 丸善出版 pp.16

使った人を非難せよ

もし統計学に対して疑念や不信があるなら,責められるべきは明らかに,統計学や統計がどのように算出されたかではなく,統計学をもとにしたさまざまな活用形態である。統計学やデータから有意な議論を抽出する統計学者を非難するのは公平を欠く。むしろ責められるべきは,数値が何を語っているかを理解しない人々や,結果を故意に誤用する人々である。実際,われわれは殺人に使われた銃を非難せず,銃を使った人を非難する。

David J. Hand 上田修功(訳) (2014). 統計学 サイエンス・パレット012 丸善出版 pp.11

データから意味を引き出す技術

「統計学とは,データから意味を引き出す技術である。」これは統計学の実用的な定義かもしれない。しかしながら,どの定義も完璧ではなく,とくに,この定義には統計学の多くの応用において重要となる偶然性や確率論についての言及がない。別の定義として,統計学は不確実性を扱う技術が妥当かもしれない。もっと正確な定義で,統計学の役割をより強調してみよう。すなわち,統計学とは,未来を予測したり,未知の事象を推測したり,データを扱いやすい形にまとめたりするために鍵となる学問であるといえるだろう。異なる応用では技術が異なることもあるが,これらの定義を合わせることで統計学の学問分野の本質を広く網羅することができるだろう。

David J. Hand 上田修功(訳) (2014). 統計学 サイエンス・パレット012 丸善出版 pp.3

正直な回答を得る調査

次のような方法を使うと,あるグループの人たちについての情報を,誰のプライヴァシーも傷つけることなく得ることが可能になる。この方法は,プライヴァシーは守るべきだと口ではいいながら,実際は詮索好きな時代にあって,ますます重要性を増していくことだろう。ここに多くのメンバーがいるグループがあり,そのなかの何パーセントの人がある性行為をしているか,知りたいとしよう。これは,エイズにかかりやすいのがどんな性行為かを知るための調査である。
 私たちは何をすることができるだろうか。財布からコインを出して,1回投げるようにすべての人に頼む。誰にもわからないように,彼らは表が出たか裏が出たかを自分で確認する。表が出た場合には,その人は質問に正直に答えなければならない。あなたはある性行為をしていますか,イエスそれともノー?裏が出た場合には,その人は単にイエスと答えなければならない。したがって,イエスという答はふたつのことを意味している。まったく意味のない(裏が出た)ものと,ひょっとするとばつの悪い(その性行為をしている)ものである。実験者にはイエスがどちらを意味しているかわからないので,人々は正直に答えるにちがいない。
 1000人の回答のうち620人がイエスだったとしよう。その性行為をしている人の割合について,この数字は何を意味しているのだろうか。1000人のうち約500人は,裏が出たというだけでイエスと答えたのだろう。だとすると,質問に正直に答えた500人(表が出た人たち)のうち,120人がイエスと答えたことになる。そこで,24パーセントがその性行為をしている人の割合だと判断することができる。

ジョン・アレン・パウロス 野本陽代(訳) (1990). 数字オンチの諸君! 草思社 pp.160-161

宇宙人存在の確率

私たちの銀河には約1000億個の星があり,その10分の1の星に惑星があると考えられている。これらの約100億個の星のなかで,その星の生命ゾーンのなかに惑星を持っているのは,たぶん100個に1個だろう。生命ゾーンということは,その溶媒が水,メタン,その他の何であれ,煮立ったり凍ったりしていないことを意味している。これで,私たちの銀河内で生命を育むことのできる星は,約1億個にまで絞られた。その大半は太陽よりもかなり小さな星なので,姓名を持つ惑星として考慮に値する候補者は約10分の1である。それでも私たちの銀河のなかに,生命を維持することのできる星が1000万個もあることになる。そのうち10分の1はすでに生命を生み出しているだろう!私たちの銀河のなかに,生命のいる惑星を持つ星が,実際に100万(10^6)個あると仮定しよう。それなのにその証拠が何も発見されないのはなぜだろうか。
 第1の理由として,私たちの銀河が非常に大きいことがあげられる。銀河の容積は約10^14立方光年もある(光は秒速30万キロメートル,1光年は約10兆キロメートルに相当する)。したがって,100万個の星のそれぞれが,平均して10^14/10^6立方光年の容積を持つことになる。生命を持つと考えられる星は,10^8立方光年にひとつしか存在していないのである。10^8の立方根は約500。つまり,生命を持つ星から,もっとも近い別の生命を持つ星までの平均距離が,500光年ということになる。これは地球と月の距離の100億倍に当たる。たとえもっとも近い「隣人」が平均距離よりもかなり近くにいるとしても,そこまでの距離は,おしゃべりをするためにちょっと立ち寄るには遠すぎる。
 ほかの星に生命があるとしても,私たちが彼らに会えるとはとても考えられない第2の理由がある。それは,文明が出現しても,いつかは滅亡してしまうということである。一度複雑になった生命は,本質的に不安定なもので,数千年以内に自滅してしまう,ということも考えられる。このように進んだ生命形態が,平均して1億年存続するとしても(初期の哺乳動物から20世紀の核による破局まで),これらの生命形態は,120億年から150億年といわれる銀河の歴史のなかに一様に分布している。そこで,同時に進んだ生命を持っている銀河内の星は,1万個以下になってしまうだろう。そして,隣人動詞の平均距離は,2000光年以上に広がってしまう。
 旅行者がやって来ない第3の理由は,私たちの銀河内の惑星の多くで生命が生まれているとしても,彼らが私たちに興味を持つ可能性は低い,ということである。その生命形態は,メタンガスの大きな雲,自分で方向を決める磁場,ジャガイモのような生き物でできた大平原,複雑なシンフォニーをつねに歌っている巨大な惑星サイズの固まり,岩に付着した青カビのようなものかもしれない。ここであげたような生命形態が,私たちと同じ目的や意思を持ち,私たちに接触しようと試みるとは考えられない。
 つまり,私たちの銀河のなかに生命の住む惑星があるとしても,UFOの目撃は,単に未確認飛行物体の目撃にすぎない。未確認ではあるが,それは宇宙人ということではない。

ジョン・アレン・パウロス 野本陽代(訳) (1990). 数字オンチの諸君! 草思社 pp.85-87

正夢の確率

ある夢が,実生活で起こる一連の出来事と,いくつかの点で完全に一致する確率が,1万回に1回だと仮定しよう。これはとても起こりそうもない確率で,1万回夢を見ても,9999回は正夢ではないことを意味している。同時に,ある夢がいつか経験と一致するかどうかは,他の夢が別のときに経験と一致するかどうかとは無関係である,と仮定する。したがって,現実と一致しない夢が2度続く確率は,確率の掛け算の原理によって,(9999/10000)×(9999/10000)である。同様に,続けてN夜,現実と一致しない夢を見る確率は9999/10000のN乗。そして,1年間続けて正夢を見ない確率は9999/10000の365乗となる。
 9999/10000の365乗はおおよそ0.964であるから,1年間,毎晩夢を見続けても,約96.4パーセントの人が一度も正夢を見ないことになる。しかし,これは同時に,毎晩夢を見ている人のうち約3.6パーセントの人が正夢を見る,ということでもある。3.6パーセントというのはそれほど小さな数字ではない。人々は年間に何百万という数の正夢を見ていることになる。たとえ正夢を見る確率を100万分の1に変えたとしても,アメリカほどの大きさの国では,偶然に正夢を見る人の数が膨大であることに変わりはない。別に超能力に頼らなくてもよいのである。正夢を見た人がたくさんいることを説明する必要はない。説明が必要なのは,このような夢を見る人がいない場合である。

ジョン・アレン・パウロス 野本陽代(訳) (1990). 数字オンチの諸君! 草思社 pp.79-80

ノイズとシグナル

情報の量は急増しているが,それに比例して有益な情報が増えているわけではない。ノイズに対するシグナルの比率は低下していると言ってもいいかもしれない。私たちは,この2つを区別できるようにならなければいけない。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.495

これも気をつけろ

これだけは言いたい。科学は自分の仕事にとってそれほど重要ではないという予測者,あるいは,予測は自分の仕事にとってそれほど重要ではないという科学者には気をつけた方がいい。この2つの活動は本質的に切り離せないものだ。「科学なんて気にしない」という予測者は,「食べ物はどうでもいい」と言うコックのようなものだ。科学を科学たらしめるものや予測に科学的な意味合いを与えるものは,客観的な世界にある。私たちの関心が,方法や原則,モデルにしか向かわないとき,予測は失敗する。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.445

安易な因果関係

統計モデルにデータを入れれば,勝手に処理してくれて,現実の世界があらわれるとなればどんなに楽だろう。状況によっては——特に野球のようにデータが豊富な分野であれば——この仮定にはかなりの妥当性がある。しかし,それ以外の分野で安易に因果関係をとらえても,よい結果にはつながらない。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.411

自由主義市場とベイズ

自由市場主義とベイズの定理は,同じ知的伝統から生まれている。アダム・スミスとトーマス・ベイズは同時代に生きた人物で,2人ともスコットランドで教育を受け,哲学者デイヴィッド・ヒュームの影響を強く受けている。スミスの“見えざる手”はベイズ的なプロセスをあらわしていると言ってもいいかもしれない。そこでは,価格は需要と供給の変化を受けて徐々に更新されて,最終的にはある地点で均衡する。ベイズの根拠も“見えざる手”なのかもしれない。お互いの考えを議論しながら,合意に達しないときには賭けをしながら,徐々に考えを改めていく。どちらも群衆の知恵を利用して合意点を探すプロセスである。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.366

言い訳

ときとして私たちは,運というものを予測が外れたことの言い訳に使おうとする。金融危機が表面化した際の格付け会社のように。けれども,予測が外れた本当の理由は,現実に存在する以上のシグナルをキャッチしようとしたことにある。
 この問題を解決する1つの方法は,もっと厳しく予測を評価することだ。結果を評価することで,安定的に正しく予測できるようになる分野もあるだろう。もう1つは,結果ではなくプロセスを重視する方法だ。データにノイズが非常に多いときにはこの方法しかないだろう。ノイズが多すぎて,どの予測が正しいのかわからないときは,予測者の姿勢や適性に注目しよう。それらは予測の結果と相関があるはずだ(ある意味,私たちは予測者がどのくらい正確な予測をするかを予測していると言える)。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.361

気をつけろ

たとえば,「コンピュータはヤンキースがワールドシリーズを制すると予想している」といった文章が思い浮かぶときは,気をつけた方がいい。それが,より正確な文章(「コンピュータ・プログラムのアウトプットによれば,ヤンキースがワールドシリーズを制することになるだろう」)を簡略化したものであれば大丈夫だ。世界中に情報があふれる現代では,人間より速く計算できる機械は間違いなく役に立つ。
 けれども,予測者を観察したときに,コンピュータを生き物のように,あるいはモデルに意思があるように考えていると感じたときには,それは思考が欠如しているサインかもしれない。予測者のバイアスや盲点は,間違いなくコンピュータ・プログラムに反映される。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.320-321

ノイズばかり

イオアニダスは言った。「この20年間,利用できる情報が急激に増え,ゲノム学やその他のテクノロジーが進化したことで,興味深い変数を大量に測定することができるようになった。私たちには,それらの情報を活かして役立つ予測をすることが求められている。もちろん,私たちが全く進化していないとは言わない。これだけの数の論文があるのに,何も進展がないとしたら悲しいからね。でも,同数の発見がないことは確かだ。知識を生み出すことに本当に貢献しているものはほとんどない」
 おそらく,これがビッグデータの時代に予測が失敗するようになった理由だろう。利用できる情報が急激に増えたことで,精査しなければならない仮説も大幅に増えたのである。たとえば,現在,アメリカ政府は4万5000の経済統計を発表している。これらのデータをすべて組み合わせて検証しようとすれば——アラバマ州の住宅ローンの金利と失業率には因果関係があるかなど——10億の仮説を検証することになる。
 しかし,データのなかの意味のある関係——相関関係ではなく因果関係を示し,世界の動きを説明するもの——は桁違いに少ない。情報が増えるペースでは増えていない。つまり,インターネットや印刷機が発明される前とくらべて,世の中の真実が増えているわけではないのである。ほとんどのデータはノイズにすぎない。宇宙のほとんどが何でもない空間で占められているのと同じだ。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.272-273

確率的に見る

ベイズの定理を使うときには,世の中を確率的に見ることが要求される。たとえ確率の問題だとは思いたくないような問題でもだ。形而上的に考えれば世界は不確実であるといった立場をとる必要はない。ラプラスは,惑星の軌道から分子の動きにいたるまで,すべてはニュートンの法則に支配されていると考えていたにもかかわらず,ベイズの定理の発展に寄与した。ベイズの定理が取り組んでいるのは認識論的な不確実性——人間の知識の限界——なのである。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.271

よいモデルは

よいモデルは,たとえ予測が当たらなくても役に立つ。「どんな予測もたいてい間違うことがわかる。すると,なぜ間違うのか理解しようとする。そして間違ったときにどうするのか,間違ったときのコストを最小にするにはどうすればいいのかを考える」とオゾノフは言った。
 心にとめておいてほしいのは,モデルは世界の複雑さを理解するためのツールであって,世界そのものの代用品にはならないという点だ。これが重要なのは,予測するときだけではない。マサチューセッツ工科大学(MIT)の神経科学者トマソ・ポッジオは,私たちの脳による情報処理は推定作業の連続だと見ている。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.253

相関と因果

ビッグデータの時代にあっては,このような考え方が一般的になってきている。たくさんの情報に囲まれているときに,誰が理屈など必要とするだろうか。しかし,予測するときの姿勢として,これは絶対に間違っている。特にノイズの多いデータを扱う経済の分野では致命的だ。統計的な推論は,理論に裏づけされたときに強固なものとなる。少なくとも根本的な原因だけは真剣に考えてみるべきだろう。2011年9月の時点で,悲観的な見方にはいくつかの根拠——ヨーロッパの債務危機など——があったことは間違いないが,ECRIは見るべきものを見ていなかった。代わりに,たくさんの変数をごった煮にして,相関関係と因果関係を取り違えたのである。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.216

当たらない

実際には,エコノミストがGDP成長率を予測するときの90パーセント予測区間——実際に検証されたもの——は,およそ6.4ポイントにおよぶ(プラスマイナス3.2パーセントの誤差に相当する)。
 つまり,来年のGDP成長率が2.5パーセントになる見込みという報道があれば,それは5.7パーセントになるかもしれないし,マイナス0.7パーセントになるかもしれないということだ。後者ならかなり深刻な景気後退である。エコノミストの予測は昔からこの程度であり,改善していることを示す証拠もない。過去6回の景気後退のうち9回を当てたと自慢するエコノミストの笑い話も,さもありなんという気がしてくる。ある統計によれば,1990年代に世界中で起きた60回の景気後退のうち,1年前にエコノミストが予測できたのは2つだけとなっている。
 エコノミストだけではない。このような結果はよくあることだ。専門家という人たちは,地震の予測のなかの不確実性を正直に伝えることを苦手としている。あるいは,そうすることにまったく関心を持っていない。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.200

些細な間違いが

データに誤りがあるところには問題が生じる(あるいは,CDOのように,前提に誤りがある場合に問題が生じる)。たとえば,5足す5を計算するときに,キーを誤って押したとしよう。5足す5の代わりに5足す6とした場合だ。本当は10になるはずなのに,11という結果が出る。間違ってはいるが,たいした差ではない。足し算の結果は線形なので,誤りには寛容だ。しかし,指数関数的な計算では,データの誤りは厳しく咎められる。5の5乗(=3215)と5の6乗(=15625)では,結果が大きくかけ離れてしまう(500パーセントも違う)。
 プロセスが動的であれば——つまり,ある段階でのアウトプットが次の段階のインプットになっているときには——事態はさらに深刻になる。たとえば5を5乗し,その結果を5乗するとしよう。先ほどと同じ間違いをした場合,その差は3000倍となる。些細な間違いがどんどん大きくなるのである。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.132

運が

予測が大外れだったことを言い訳するときには,いくつか選択肢がある。1つは外部の環境のせいにすることだ。「運が悪かった」というやつだ。これが理由として正しいときもある。国立気象局が90%の確率で晴れといったのに実際には雨だったとしても,「ゴルフが台無しになった!」と本気で気象局を責める人はいないだろう。事実,過去のデータは,気象局が10分の1の確率で雨だと言うとき,長い目で見れば10パーセントの確率で実際に雨がふることを示している。

ネイト・シルバー 川添節子(訳) (2013). シグナル&ノイズ:天才データアナリストの「予測学」 日経BP社 pp.22

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS /  /