I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。このBlogの主な目的は，自分の勉強と，出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので，気になった一節が見つかったら，ぜひ出典元となった書籍をお読みください。

カテゴリー「算数・数学・統計」の記事一覧

2025.07.02 [PR]
2016.05.04 べき分布に注目する理由
2016.05.03 確率は視点の問題
2016.05.03 ランダムに始まりランダムに終わる
2016.05.02 戦争はポワソン分布
2016.05.02 次の雷の確率
2016.04.27 お手上げ
2016.03.16 NP困難問題
2016.02.21 基準というものは
2015.04.25 機械的な演習ではない
2015.04.24 数値でわかることもある
2015.04.24 データから得られるものすべて
2015.04.23 使った人を非難せよ
2015.04.22 データから意味を引き出す技術
2015.01.25 正直な回答を得る調査
2015.01.24 宇宙人存在の確率
2015.01.24 正夢の確率
2015.01.23 ノイズとシグナル
2015.01.23 これも気をつけろ
2015.01.22 安易な因果関係
2015.01.21 自由主義市場とベイズ

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

科学者がべき分布に興味をもつ理由は２つある。第１に，なんの共通性もないと思われる事象の測定結果に，べき分布が頻繁にあらわれるということだ。最も初期に発見されたべき分布の１つは，１９３０年代に言語学者G.K.ジップが作成した，英語の語の使用頻度に関するグラフである。大きなコーパス（言語資料）を使って語の使用回数を調べると，１０余りの語がきわめて頻繁に（１パーセント以上，つまり１００語に１語以上の頻度で）使用されている。the（７パーセント），be（４パーセント），of（４パーセント），and（３パーセント），a（２パーセント）などがこれにあたる。次に約３０００語（confidence, junior, afraidなど）が中程度の頻度で（１万語に１回程度）使われ，１万語（embitter, memorialize, titularなど）が１００万語に１回使用される。そして１００万語に１回をはるかに下回る頻度で使われる語が数十万語ある（kankedort, apotropaic, deliquensceなど）。

スティーブン・ピンカー　幾島幸子・塩原通緒（訳）　(2015).　暴力の人類史　上巻　青土社　pp.386

確率は視点の問題

確率とは視点の問題だ。十分近いところまでズームインすれば，個々の事象には決定的要因がある。コイン投げでさえ，初期条件や物理法則によって結果が予測できるし，熟練したマジシャンならその法則を利用して毎回，表を出すこともできる。だが多くの事象が視野に入るようにズームアウトすると，膨大な数の要因が時に相殺し，ときに同一方向に向かった結果を見ることになる。物理学者で哲学者のアンリ・ポワンカレの説明によれば，私たちが決定論的な世界に偶然の作用を見るのは，ささいな原因がたくさん積み重なって重大な結果をもたらすが，誰も気づかない小さな原因が誰の目にも明らかな重大な結果をもたらすか，いずれかの場合だという。組織的暴力を例にとれば，まず戦争をしたい人間がいて，その人間は好機がくるのを待つ。好機はやってくることもあれば，こないこともある。敵の側が交戦を決断することもあれば，撤退を決断することもある。弾丸が飛び，爆弾が破裂する。人が死ぬ……。これらの事象は個別に見れば，神経科学や物理学や生理学の法則で決まるかもしれない。だが総体としてみると，そこに関わる多数の原因がシャッフルされて，時として極端な組み合わせを生むことがある。20世紀前半，世界はあらゆるイデオロギー的・政治的・社会的潮流によって危機にさらされたうえに，一連の極度の悪運にも見舞われたのだ。

スティーブン・ピンカー　幾島幸子・塩原通緒（訳）　(2015).　暴力の人類史　上巻　青土社　pp.379-380

ランダムに始まりランダムに終わる

では，もし戦争がランダムに始まりランダムに終わるのなら，その歴史的傾向を追求することは無意味なのだろうか。そんなことはない。ポワソン過程における「ランダムネス」は，連続的な事象のあいだにはなんら関係は存在しないことを示している。事象発生器はサイコロと同様，記憶をもたないのだ。だがこれは，大きな時間の流れのなかで，確率はつねに一定であることを意味するわけではない。軍神マースの気が変わって，１のぞろ目が出たときではなく，サイコロの目の合計が３や６，あるいは７になったときに戦争を起こすようにするかもしれない。だが長い年月の間にこうした確率の変化があったとしても，ランダムであることに変わりはない——すなわち，ある戦争の勃発が，ほかの戦争の勃発する可能性を高くしたり，低くしたりはしないという事実は変わらないのだ。そのように確率の変化するポワソン過程を，非定常的ポワソン過程と呼ぶ。したがって，戦争の起きる確率が一定の歴史的な時間をへて減少するという可能性はあるのだ。それは，変数が減少する非定常的ポワソン過程で生じる。

スティーブン・ピンカー　幾島幸子・塩原通緒（訳）　(2015).　暴力の人類史　上巻　青土社　pp.375

戦争はポワソン分布

戦争がポワソン的傾向をもつことは，錯覚上のクラスターに星座を見出そうとする物語としての歴史観を揺るがし，人類の歴史に壮大なパターンや周期や弁証法を読み取ろうとする仮設を混乱させる。凄惨な戦争があったからといって，世界が戦争にうんざりして平和な休息期間が訪れるわけではないけれど，好戦的な２つの国が咳をすると，たちまち伝染病のように戦争が地球全体に広がるというわけでもない。また，平和が長く続くと戦争への欲望が増大し，やがて突然，激しく爆発するということもない。軍神マースはただひたすらサイコロを振り続けるだけなのだ。ほかにもリチャードソンと同時代またはその後に，戦争のデータについての研究が６つほど行われたが，結論はすべて同じだった。

スティーブン・ピンカー　幾島幸子・塩原通緒（訳）　(2015).　暴力の人類史　上巻　青土社　pp.374

次の雷の確率

たとえばあなたの住んでいる場所では，１年中いつでも落雷の可能性があるとしよう。落雷はランダムにどの日でも同じ確率で発生し，その頻度は１ヵ月に１度の割合だとする。さて月曜日の今日，あなたの家に雷が落ちた。次に落雷がある可能性が最も高いのはいつだろうか？
　答えは「明日」の火曜日である。たしかに確率はさほど高くはない。およそ０．０３（月に１回）だ。では次の落雷が明後日の水曜日になる確率はどうだろうか。そうなるためには２つの条件が必要だ。まず水曜日に雷が落ちることで，確率は０．０３。もう１つは前日の火曜日に雷が落ちないこと——さもないと「次」は水曜日ではなく火曜になってしまう。この確率の計算式は，火曜日に雷が落ちない確率（０．９７つまり１マイナス０．０３）×水曜日に雷が落ちる確率（０．０３）となり，計算結果は０．０２９１で火曜日に落ちる可能性より少し低くなる。では木曜日ならどうだろうか。それには火曜にも水曜にも雷は落ちず，木曜に落ちることが必要だ。すると０．９７×０．９７×０．０３で，確率は０．０２８２となる。金曜日はどうか。０．９７×０．９７×０．９７×０．０３で０．２７４。このように１日進むごとに，確率は下がっていく。「次に落雷がある日」になるには，それまで雷の落ちない日がずっと続く必要があり，日数が多くなるほど，その可能性は低くなるからだ。厳密な言い方をすれば，確率は指数関数的に低下する。次の落雷が今日から３０日後に起きる確率は，０．９７の２９乗×０．０３で，１パーセントをほんの少し上回るだけだ。
　だが，これを正しく理解している人はほとんどいない。私はインターネットで１００人にこれとおなじ質問を——「次に」の文字を見落とさないように，わざわざイタリック体にして——してみた。結果は，「どの日も確率は変わらない」と答えた人が６７人だった。これは直観的には正しいように見えるが，誤っている。もし次に落雷がある日になる確率がどの日でも同じなら，１０００年後でも１ヵ月後でも変わらないということになる。つまり落雷がない日が１０００年続く可能性と，１ヵ月続く可能性が同じということになってしまう。残りの回答者のうち１９人は，最も確率が高いのは１ヵ月後と答えた。「明日」と正しく推測できたのは，１００人中たった５人だった。

スティーブン・ピンカー　幾島幸子・塩原通緒（訳）　(2015).　暴力の人類史　上巻　青土社　pp.368-369

お手上げ

最終的には，1990年代の犯罪率低下を理解するためには，規範の変化——これは，その30年前の犯罪率の上昇を説明するのにも有効だった——に注目しなければらないということだ。警察改革がアメリカ，とりわけニューヨークの暴力犯罪の急減に寄与したことはほぼ間違いないとはいえ，刑務所や警察をアメリカのように増強したわけではないカナダや西ヨーロッパでも，犯罪は（度合いこそ異なるが）減少した。頭の固い犯罪統計学者のなかにも，お手上げ状態となり，犯罪減少の主要な理由は数量化が困難な文化的・心理学的変化にあるとの結論に至った者もある。

スティーブン・ピンカー　幾島幸子・塩原通緒（訳）　(2015).　暴力の人類史　上巻　青土社　pp.237

NP困難問題

計算機科学者の間で“うまく解ける”問題とは，問題の規模が１０倍になっても，１００倍ないし１０００倍程度の時間をかければ解ける問題のことをいう。このような問題は，規模が１００倍になれば計算量は１万倍以上になるが，計算機が１０万倍速くなればたちどころに解ける。
　ところが，ごく当たり前の問題の中に，問題の規模が１０倍になると，どのように工夫しても，２^10倍＝１０００倍の計算量が必要になると思われる，厄介な問題が存在することが明らかになったのである。
　規模が１００倍なら計算量は２^100倍，すなわち１０^30倍になる。計算機が１００万（１０^6）倍速くなっても，このような問題を普通のやり方で解こうとすると何兆年もかかる。しかも世の中は，このような“うまく解けない問題”，すなわち「NP困難問題」が溢れているというのである。
　この結果，わが国でも７０年代に入ると，難しい問題を解くためのアルゴリズムや，ソフトウェア研究の重要性が認識されるようになった。京都大学，大阪大学，東京工業大学などの有力大学に，情報科学科・情報工学科・計算機科学科が出来たのはこの頃である。
　しかしどの大学も，その規模は一学科分（教官定員１５人，学生定員４０人程度）で，米国の有力大学に匹敵する“ソフトウェア中心の”計算機科学科は，どこにもなかった。政府・産業界・学界は，依然としてソフトウェアを軽視していたのである。

今野　浩　(2012).　工学部ヒラノ助教授の敗戦：日本のソフトウェアはなぜ敗れたのか　青土社　pp.16-17

基準というものは

米国の疫学者であり衛生工学者のウィリアム・セジウィック氏（1855〜1921）の言葉に，このようなものがある。

　「基準というものは，考えるという行為を遠ざけさせてしまう格好の道具である」

　基準値はいったん定められると，あたかもある種の「権威」のようになり，その根拠を深く考えることなく使ってしまいがちである，という戒めである。ある基準値を使いまわして決められた基準値は，ときに十分な安全を確保しているとはいいがたかったり，まったく理屈に合っていなかったりする。当初の目的とはかけ離れた，ちぐはぐなものになってしまうのである。

村上道夫・永井孝志・小野恭子・岸本充生　(2014).　基準値のからくり：安全はこうして数字になった　講談社　pp.17-18

機械的な演習ではない

長年にわたり，統計的推論は時には加熱するほどの論争の対象であった。異なる推論法は異なる結果を招くが，手法を理解している統計学者により慎重に用いられるのであれば，似たような結論が導かれることが実験的に示されている。これは統計学の芸術的な側面であり，統計解析を実行することはたんに，数学の機械的な演習ではないということを意味する。推論の理論的な理解と同様，データおよびその生成された背景を理解する必要がある。

David J. Hand 上田修功（訳）　(2014).　統計学　サイエンス・パレット012　丸善出版　pp.115

数値でわかることもある

数値データが現実世界の美しさを伝えることができるという考えには多くの人が抵抗を示すだろう。そうした人々は，物事が数値に変換されると，物事のもつ不思議さのようなものが剥ぎ取られると感じるのである。しかし，実際にはその考え方はまったく間違っている。数値によってわれわれは物事の美しさや，魅力をよりはっきりとより深く知覚し，結果としてそれらをより完全に認識することができるようになる可能性を秘めている。

David J. Hand 上田修功（訳）　(2014).　統計学　サイエンス・パレット012　丸善出版　pp.31

データから得られるものすべて

著名な統計学者であるジョン・チャンバースによる「広義の統計学」の定義にならって，統計学の広い意味での定義づけができる。彼によると，広義の統計学はシンプルに定義される。荒っぽくいえば，「初期段階の計画やデータ収集から最終的な発表や報告にいたるまで，データから得られるものに関連するすべてである」。データを分析する別の学問分野との境界線を定めようとすることは無意味かつ無益である。

David J. Hand 上田修功（訳）　(2014).　統計学　サイエンス・パレット012　丸善出版　pp.16

使った人を非難せよ

もし統計学に対して疑念や不信があるなら，責められるべきは明らかに，統計学や統計がどのように算出されたかではなく，統計学をもとにしたさまざまな活用形態である。統計学やデータから有意な議論を抽出する統計学者を非難するのは公平を欠く。むしろ責められるべきは，数値が何を語っているかを理解しない人々や，結果を故意に誤用する人々である。実際，われわれは殺人に使われた銃を非難せず，銃を使った人を非難する。

David J. Hand 上田修功（訳）　(2014).　統計学　サイエンス・パレット012　丸善出版　pp.11

データから意味を引き出す技術

「統計学とは，データから意味を引き出す技術である。」これは統計学の実用的な定義かもしれない。しかしながら，どの定義も完璧ではなく，とくに，この定義には統計学の多くの応用において重要となる偶然性や確率論についての言及がない。別の定義として，統計学は不確実性を扱う技術が妥当かもしれない。もっと正確な定義で，統計学の役割をより強調してみよう。すなわち，統計学とは，未来を予測したり，未知の事象を推測したり，データを扱いやすい形にまとめたりするために鍵となる学問であるといえるだろう。異なる応用では技術が異なることもあるが，これらの定義を合わせることで統計学の学問分野の本質を広く網羅することができるだろう。

David J. Hand 上田修功（訳）　(2014).　統計学　サイエンス・パレット012　丸善出版　pp.3

正直な回答を得る調査

次のような方法を使うと，あるグループの人たちについての情報を，誰のプライヴァシーも傷つけることなく得ることが可能になる。この方法は，プライヴァシーは守るべきだと口ではいいながら，実際は詮索好きな時代にあって，ますます重要性を増していくことだろう。ここに多くのメンバーがいるグループがあり，そのなかの何パーセントの人がある性行為をしているか，知りたいとしよう。これは，エイズにかかりやすいのがどんな性行為かを知るための調査である。
　私たちは何をすることができるだろうか。財布からコインを出して，１回投げるようにすべての人に頼む。誰にもわからないように，彼らは表が出たか裏が出たかを自分で確認する。表が出た場合には，その人は質問に正直に答えなければならない。あなたはある性行為をしていますか，イエスそれともノー？裏が出た場合には，その人は単にイエスと答えなければならない。したがって，イエスという答はふたつのことを意味している。まったく意味のない（裏が出た）ものと，ひょっとするとばつの悪い（その性行為をしている）ものである。実験者にはイエスがどちらを意味しているかわからないので，人々は正直に答えるにちがいない。
　１０００人の回答のうち６２０人がイエスだったとしよう。その性行為をしている人の割合について，この数字は何を意味しているのだろうか。１０００人のうち約５００人は，裏が出たというだけでイエスと答えたのだろう。だとすると，質問に正直に答えた５００人（表が出た人たち）のうち，１２０人がイエスと答えたことになる。そこで，２４パーセントがその性行為をしている人の割合だと判断することができる。

ジョン・アレン・パウロス　野本陽代（訳）　(1990).　数字オンチの諸君！　草思社　pp.160-161

宇宙人存在の確率

私たちの銀河には約１０００億個の星があり，その１０分の１の星に惑星があると考えられている。これらの約１００億個の星のなかで，その星の生命ゾーンのなかに惑星を持っているのは，たぶん１００個に１個だろう。生命ゾーンということは，その溶媒が水，メタン，その他の何であれ，煮立ったり凍ったりしていないことを意味している。これで，私たちの銀河内で生命を育むことのできる星は，約１億個にまで絞られた。その大半は太陽よりもかなり小さな星なので，姓名を持つ惑星として考慮に値する候補者は約１０分の１である。それでも私たちの銀河のなかに，生命を維持することのできる星が１０００万個もあることになる。そのうち１０分の１はすでに生命を生み出しているだろう！私たちの銀河のなかに，生命のいる惑星を持つ星が，実際に100万（10^6）個あると仮定しよう。それなのにその証拠が何も発見されないのはなぜだろうか。
　第１の理由として，私たちの銀河が非常に大きいことがあげられる。銀河の容積は約10^14立方光年もある（光は秒速３０万キロメートル，１光年は約１０兆キロメートルに相当する）。したがって，100万個の星のそれぞれが，平均して10^14/10^6立方光年の容積を持つことになる。生命を持つと考えられる星は，10^8立方光年にひとつしか存在していないのである。10^8の立方根は約500。つまり，生命を持つ星から，もっとも近い別の生命を持つ星までの平均距離が，500光年ということになる。これは地球と月の距離の100億倍に当たる。たとえもっとも近い「隣人」が平均距離よりもかなり近くにいるとしても，そこまでの距離は，おしゃべりをするためにちょっと立ち寄るには遠すぎる。
　ほかの星に生命があるとしても，私たちが彼らに会えるとはとても考えられない第２の理由がある。それは，文明が出現しても，いつかは滅亡してしまうということである。一度複雑になった生命は，本質的に不安定なもので，数千年以内に自滅してしまう，ということも考えられる。このように進んだ生命形態が，平均して1億年存続するとしても（初期の哺乳動物から20世紀の核による破局まで），これらの生命形態は，120億年から150億年といわれる銀河の歴史のなかに一様に分布している。そこで，同時に進んだ生命を持っている銀河内の星は，1万個以下になってしまうだろう。そして，隣人動詞の平均距離は，2000光年以上に広がってしまう。
　旅行者がやって来ない第3の理由は，私たちの銀河内の惑星の多くで生命が生まれているとしても，彼らが私たちに興味を持つ可能性は低い，ということである。その生命形態は，メタンガスの大きな雲，自分で方向を決める磁場，ジャガイモのような生き物でできた大平原，複雑なシンフォニーをつねに歌っている巨大な惑星サイズの固まり，岩に付着した青カビのようなものかもしれない。ここであげたような生命形態が，私たちと同じ目的や意思を持ち，私たちに接触しようと試みるとは考えられない。
　つまり，私たちの銀河のなかに生命の住む惑星があるとしても，UFOの目撃は，単に未確認飛行物体の目撃にすぎない。未確認ではあるが，それは宇宙人ということではない。

ジョン・アレン・パウロス　野本陽代（訳）　(1990).　数字オンチの諸君！　草思社　pp.85-87

正夢の確率

ある夢が，実生活で起こる一連の出来事と，いくつかの点で完全に一致する確率が，１万回に１回だと仮定しよう。これはとても起こりそうもない確率で，１万回夢を見ても，９９９９回は正夢ではないことを意味している。同時に，ある夢がいつか経験と一致するかどうかは，他の夢が別のときに経験と一致するかどうかとは無関係である，と仮定する。したがって，現実と一致しない夢が２度続く確率は，確率の掛け算の原理によって，（9999/10000）×(9999/10000)である。同様に，続けてN夜，現実と一致しない夢を見る確率は9999/10000のN乗。そして，１年間続けて正夢を見ない確率は9999/10000の365乗となる。
　9999/10000の365乗はおおよそ0.964であるから，１年間，毎晩夢を見続けても，約96.4パーセントの人が一度も正夢を見ないことになる。しかし，これは同時に，毎晩夢を見ている人のうち約3.6パーセントの人が正夢を見る，ということでもある。3.6パーセントというのはそれほど小さな数字ではない。人々は年間に何百万という数の正夢を見ていることになる。たとえ正夢を見る確率を100万分の１に変えたとしても，アメリカほどの大きさの国では，偶然に正夢を見る人の数が膨大であることに変わりはない。別に超能力に頼らなくてもよいのである。正夢を見た人がたくさんいることを説明する必要はない。説明が必要なのは，このような夢を見る人がいない場合である。

ジョン・アレン・パウロス　野本陽代（訳）　(1990).　数字オンチの諸君！　草思社　pp.79-80

ノイズとシグナル

情報の量は急増しているが，それに比例して有益な情報が増えているわけではない。ノイズに対するシグナルの比率は低下していると言ってもいいかもしれない。私たちは，この２つを区別できるようにならなければいけない。

ネイト・シルバー　川添節子（訳）　(2013).　シグナル＆ノイズ：天才データアナリストの「予測学」　日経BP社　pp.495

これも気をつけろ

これだけは言いたい。科学は自分の仕事にとってそれほど重要ではないという予測者，あるいは，予測は自分の仕事にとってそれほど重要ではないという科学者には気をつけた方がいい。この２つの活動は本質的に切り離せないものだ。「科学なんて気にしない」という予測者は，「食べ物はどうでもいい」と言うコックのようなものだ。科学を科学たらしめるものや予測に科学的な意味合いを与えるものは，客観的な世界にある。私たちの関心が，方法や原則，モデルにしか向かわないとき，予測は失敗する。

ネイト・シルバー　川添節子（訳）　(2013).　シグナル＆ノイズ：天才データアナリストの「予測学」　日経BP社　pp.445

安易な因果関係

統計モデルにデータを入れれば，勝手に処理してくれて，現実の世界があらわれるとなればどんなに楽だろう。状況によっては——特に野球のようにデータが豊富な分野であれば——この仮定にはかなりの妥当性がある。しかし，それ以外の分野で安易に因果関係をとらえても，よい結果にはつながらない。

ネイト・シルバー　川添節子（訳）　(2013).　シグナル＆ノイズ：天才データアナリストの「予測学」　日経BP社　pp.411

自由主義市場とベイズ

自由市場主義とベイズの定理は，同じ知的伝統から生まれている。アダム・スミスとトーマス・ベイズは同時代に生きた人物で，２人ともスコットランドで教育を受け，哲学者デイヴィッド・ヒュームの影響を強く受けている。スミスの“見えざる手”はベイズ的なプロセスをあらわしていると言ってもいいかもしれない。そこでは，価格は需要と供給の変化を受けて徐々に更新されて，最終的にはある地点で均衡する。ベイズの根拠も“見えざる手”なのかもしれない。お互いの考えを議論しながら，合意に達しないときには賭けをしながら，徐々に考えを改めていく。どちらも群衆の知恵を利用して合意点を探すプロセスである。

ネイト・シルバー　川添節子（訳）　(2013).　シグナル＆ノイズ：天才データアナリストの「予測学」　日経BP社　pp.366