I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   
カテゴリー「算数・数学・統計」の記事一覧

誤った自信

 誤った自信に注意しよう。じきに,他人と違って自分の研究では統計に関するへまをやらかさないという自己満足におちいるかもしれない。だが,この本ではデータ分析に関する数学について綿密な紹介をしたわけではない。この本で紹介したような単純な概念的な誤りのほかにも,統計でへまをやらかす方法はたくさんある。通常とは違う実験を計画したり,大規模な試験を実施したり,複雑なデータを分析したりするのなら,始める前に統計学者に相談しよう。有能な統計学者ならば,疑似反復のような問題を緩和する実験計画を提案することができるし,研究上の課題に応えるための正しいデータ(そして正しい量のデータ)の収集を助けることができる。多くの人が犯してしまっているように,データを手に持ちながら統計コンサルタントのオフィスにおもむいて「で,これが統計的に有意だということがどう分かるんだい?」と聞くような罪を犯してはならない。統計学者は研究における協力者であるべきで,マイクロソフトのExcelの代用品であってはならない。チョコレートやビールを統計学者のところに持っていくなり,あるいは次の論文の共著者にするなりすれば,引き換えに良い助言を得ることができるだろう。



アレックス・ラインハート 西原史暁(訳) (2017). ダメな統計学:悲惨なほど完全なる手引書 勁草書房 pp.161


低下するのか

 ドミニカ等を北方に引っ張ってフロリダ州と接する境界にまで移動させてみよう。これはアメリカにドミニカが加わったことを意味しているので,新しく算出されたIQの平均値は低下し,IQの分布は下方に広がるだろう。しかし,そのことによってもともとアメリカに住んでいた人々のIQが変化することはないだろう。つまり,彼らが持っていた遺伝的能力がどのようであれ,それはそのまま残るだろう。そしてIQ130位上のエリート(トップ2.27%)は,社会を動かすためにそのまま留まるだろう。仮に移民が人口の10%加われば,エリートの割合は低下し,2.27%に100を掛けて110で割った2.06%になるだろう。しかし,絶対数が変化することはない。もちろん,異民族間の結婚も多少あるかもしれない。しかし,アメリカのエリートが使用人や小作人と結婚する傾向はない。彼らは IQの釣り合った相手と結婚する傾向があり,そのなかには移民のなかの超エリートだけが少し含まれるだろう。したがって,こうした傾向は,次の超エリート世代のIQを低下させることにはならないだろう。



(Flynn, J. R. (2013). Intelligence and Human Progress: The Story of What was Hidden in our Genes. New York: Elsevier.)


ジェームズ・ロバート・フリン 無藤 隆・白川佳子・森 敏昭(訳) (2016). 知能と人類の進歩:遺伝子に秘められた人類の可能性 新曜社 pp.67-68


ピアソンの怒り

ピアソンは,ゴルトンの死後(1911年死去),優生教育協会が彼を賞賛しながら,その統計学的な研究方法を無視して優生学の内容を変質させたことに怒りを隠さなかった。1914年2月,優生教育協会がゴルトンの名を冠して行っていた定期講演会,ゴルトン・レクチャーで,フランシス・ダーウィン(ダーウィンのもう一人の息子で植物学者)は,「ゴルトンは,現代的なメンデル学説からみると中世の錬金術士のように映る。今日の進歩的な遺伝研究は,絶対にメンデル学説に立脚しなくてはならない」と述べた。ゴルトンの名を掲げたレクチャーで,その本人を標榜する優生教育協会の関係者の言動は,ピアソンにとって理解不可能なことであった。

米本昌平・松原洋子・橳島次郎・市野川容孝 (2000). 優生学と人間社会:生命科学の世紀はどこへ向かうのか 講談社 pp. 25

ブートストラップ

装置が増え,データの量が多くなるにしたがい,コンピューターは自分で数値を調整し,確率を正確にしていく。このような学習を,フィリポウスは「自助努力(ブートストラップ)」と呼んでいる。「この種類のモデルは十分に整然としているので,自分自身の教育が可能なのです」。自助努力での学習が進むにつれて,わたしたちが一瞬ごとに何をしているかの推測は,ますます当たるようになる。

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.214

ブログの分析

こうした研究によって,従来の調査手法はお払い箱になる。マーケターが指図しなくても,ブログには何百万という質問への答えが自発的に書き込まれる。「テレビのクイズ番組『ジョパディ!』では,回答が先に与えられて,解答者は対応する質問を考えます。ある意味で,わたしたちの仕事も同じです」とカウシャンスキーが語る。「特定の車や映画について,人々がすでに好きだとか嫌いだとか宣言しています。その回答にふさわしい質問を探すのです」

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.139-140

他分野から

つまるところ,いまのあなたが意識もしていないような買い物パターンを解き明かすのは,ウォルマートやグーグルの研究者でも,ガニが働くアクセンチュアの一員でもないかもしれない。その人物は,ひょっとしたら,いまはミミズとかナノメートルの精度の微細加工技術とかの研究をしていたり,選挙結果が浮動票に左右される州で民主党支持者の振る舞いを分析している可能性もある。
 たとえば,マイクロソフトのデーヴィッド・ヘッカーマンは,受信される電子メールからスパムメールを除外するプログラムの開発に専念していた。無差別に送られてくる広告メールは,かなり堅牢になったセキュリティの隙を突くために,特徴的なパターンをどんどん変えていく。その様子は,自然界における生物の突然変異に似ている。このような変化を予想するのも,プログラムに求められる機能の一つだ。コンピューター科学者だが医者でもあるヘッカーマンは,メールの変異に追随する手法が確立されれば,医学にも応用できると考えていた。そこで,当然のように,2003年,興味をエイズの病原であるHIV(ヒト免疫不全ウイルス)に移した。「使っているプログラムはまったく同じです」。スパムメールの検出で実績を積んだプログラムから,いずれはエイズワクチンが生まれるかもしれない。
 このように,<ニューメラティ>の世界では,大躍進のきっかけはどの領域でも起こりうる。

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.83-84

些細な関連でも

そこで,データマイニングの出番になり,買い物客のデータのさまざまな組み合わせが試される。わたしたちの振る舞いがいったん四種類の記号に置き換えられたら,遺伝子のパターンを検索するアルゴリズムが適用できる。コンピューターはうなりながら,実際に何十億という組み合わせを調べはじめるだろう。その努力のほとんどは無駄骨に終わる。たとえば,芽キャベツと砂糖入りシリアルの両方を買う人々は,スイス製チョコレートも平均より多く買うだろうか?
 まともな神経の持ち主なら,そんな組み合わせをわざわざ試したりはしない。だからこそ,コンピューターにはうってつけの仕事なのだ。命令されるだけで,人間には予想もできない相関関係を見つけるかもしれない。ある種の乳がんやハンチントン病の発症に関与する遺伝子領域を医学者に示すように,缶詰を買う人に勧めるべき果物とか,イヌの餌を買う人に勧めるべき雑誌とかを教えてくれるだろう。どうでもいいような提案だと思ってはいけない。宣伝をバケツごとに微調整することで,売り上げが2パーセントでも伸びれば,「マム」のシャンパンのコルクをぽんと抜く理由になる。なにしろ,利益率が0.1パーセント単位で見積もられる業界なのだ。

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.82-83

宇宙で最も洗練されたコンピュータ

情報はわずかしかなく,お粗末なほど表面的だ。たとえば,あなたが会議室で5人の同僚とマーケティングの新戦略を練るとき,どんな思考が働くだろうか?それは現実世界での典型的な活動だ。人間の脳は,あきらかに宇宙で最も洗練されたコンピュータで,驚くほど多岐にわたるデータを処理する。鼻で笑われたり,無視されたり,それとなく皮肉をいわれたり,軽蔑のまなざしを向けられたりすることまで見落とさない。においと音を結びつけ,過去の記憶や教訓とも関連させる。ほかの5人の言葉と表情と身振りのすべてを合わせると,脳に集まってくる信号は何千,いや,何百万にもなる。ヴァージニア大学の心理学者ティモシー・ウィルソンの著作『自分を知り,自分を変える』によれば,脳には五感から毎秒1100万個の本質的に異なる信号が流れ込んでくる。
 現在のコンピューターには,それほど大量の入力は処理できない。IBMが使う数学モデルは,従業員1人につき5個から10個のデータを取り込むだけだ。わたしの飼いイヌでさえ,人間の性質をもっと深く観察している。それでも,わたしたちがいったんデータとして表現されると,コンピューターは超人的な計算をはじめる。1秒とかからずに,何百万人,何億人ものデータを集計したり,そのなかから同じデータを探したりする。大規模で効率的な処理からは,新しい見識が期待できる。

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.41-42

データの奴隷

職場には,おそらくほかのどんな場所よりも,わたしたちがデータの「奴隷」になり,自分の生み出した情報に縛られる危険がある。いまやキーボードで入力した内容は,すべて記録し,数学的に分析できる。もしも上司が望むなら,部下が書いた電子メールに出現する単語の統計も取れる。その結果を,頻度が高いほど大きな文字で表示することも可能だ。部下としては,自分が売っている薬とか,勧めている株の銘柄とかの名前よりも,「映画」や「ビール」のほうが大きく表示されないことを祈るしかない。ウォール・ストリート・ジャーナル紙をインターネットで読むことも,分析の対象になる。どの記事を読んだかは,雇用者に筒抜けだ。さらには,人々が交わす電子メールの宛先を集計し,人間関係を浮かびあがらせるソフトウェアも売られている。
 このような道具を駆使すると,従業員の生産性,仕事への満足度,同僚との相性などについて,信頼度の高い結論を引き出せる。仲間との共同作業において,結局のところ,あなたがどう振る舞うかが見えてくる。マイクロソフトが2006年に特許出願した技術では,オフィスで働く人々の心拍数,血圧,皮膚の電気抵抗,顔の表情などを監視する。その目的は,労働者が感じる欲求不満やストレスの高まりを検知して,管理職に警告を出すことだ。

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.33

ケトレーのドグマ

個人の特性の分布は正規分布になるはずであるという,いわば「ケトレーのドグマ」というべきものは,その後多くの分野における統計的分析において用いられている。すでに19世紀において,「統計学者は特性値の分布が正規分布になることを数学者が証明したと思い,数学者は統計学者がそのことを経験的に実証したと信じている」と批判されたにもかかわらず,現在でも「ケトレーのドグマ」の影響はなくなってはいない。知能指数IQの分布は正規分布になるということが仮定されることが多いのはその例である。
 ただし,偶然変動する量について正規分布を仮定するのは,それを分析の出発点におけるモデルとして設定する限り,十分な合理性があるのだが,ここでは深入りしない。

竹内 啓 (2010). 偶然とは何か:その積極的意味 岩波書店 pp.193

regression=回帰?

現在では,統計学上のregressionという用語は「回帰」と訳される。そしてこの訳語にも含まれている「もとにもどる」という意味は,まったく失われている。ゴールトンのもともとの意味では,regressはprogressの反対語であり,むしろ一時使われたこともある「退行」という訳語のほうが正確な意味を伝えていると思う。
 もし遺伝の基本原則が「退行」であるならば,突然変異によってある変異が生じたとしても,それは子孫の間では消えてしまうはずであり,新しい変異が固定するためには,同じ方向への突然変異が繰り返し起こらねばならないことになる。そのようなことが起こる確率はいちじるしく小さいと思われても当然であろう。

竹内 啓 (2010). 偶然とは何か:その積極的意味 岩波書店 pp.136

信頼係数

実際には,信頼係数99%ということは,特定のデータから計算した信頼区間がmの値を含むことは「ほぼ確実である」ということを意味すると解釈されるであろうし,またそう解釈することができないのでは,統計的方法を現実に応用できなくなってしまう。
 より詳しくいえば,
  信頼区間がmの値を含む確率は99%である
   ↓
  標本を何回も取ってそのたびに計算すると,百回のうち99回は信頼区間がmの値を含む。
   ↓
  したがって,特定の標本に対して,そこから計算される信頼区間はほぼ確実にmを含む(その確率は99%である)。
   ↓
  標本を観測してxbarの値を得,それから信頼区間を計算すると,それはほぼ確実にmの値を含んでいる。その確からしさは99%である。ここでmは確率的に変動する量ではないということにこだわるならば,確率ということばは避けて信頼係数99%といってもよいが,それはこの特定の区間がmを含んでいることの確からしさの尺度と考えるべきであって,多数回の繰り返しの中の比率ではない。
ということになるのである。

竹内 啓 (2010). 偶然とは何か:その積極的意味 岩波書店 pp.114-115

確率とは

確率の解釈について,いろいろな考え方があることを述べたが,それらは互いに背反するものではない。むしろ,それらは確率の概念を適用する範囲の違いと考えるべきである。両端の極端な考え方,つまり「確率は頻度そのものであり,一回限りの事象には適用すべきではない」とする確率=頻度説と,逆に「確率とは個人が感じる心理的な確からしさの尺度である」という主観確率=心理説を除けば,「確率とはある事象が起こること(あるいはすでに起こったがまだその結果が知られていないこと)の確からしさの合理的な尺度である」という定義には異論はないはずである。

竹内 啓 (2010). 偶然とは何か:その積極的意味 岩波書店 pp.82

ランダムになるもの

客観確率が想定するようなランダムな系列を表す現象は現実に存在するであろうか。実際に発見され,経験的に検証されたものには次のようなものがある。
 (1)測定の誤差。ものを測定するとき,測定値と真の値との間にはどうしても誤差が生じる。測定を注意深く行えば,誤差はランダムになると思われる。そうして誤差の分布は正規分布になる。このことから測定をN回繰り返してその平均値(算術平均)をとれば,誤差は1/root(N)になることが導かれる。また,誤差の分布が正規分布であるという仮定から,ガウスは最小二乗法を導いた。
 (2)サイコロ,カード遊び,ルーレットなど,多くの賭けの道具のもたらす結果。昔から,賭けにおいては,結果がランダムでなく,したがって結果をある程度知ることができるようなメカニズムは「インチキ」として厳しく咎められた。そこで「公正な賭け」を行うために,ランダムな系列が得られるようなものが選ばれ,あるいは作られたのである。
 (3)事故のような偶然事件。大きな集団の中で比較的まれに発生するような事件が,一定期間内に発生する回数は,簡単な確率モデルを仮定すればポアソン分布になるが,現実にそのような分布が発生することを確かめたのはドイツの統計学者ポルトキエウィッツである。彼はプロイセンの軍団で,一軍当たり一年間に馬に蹴られて死んだ兵士の数を調べて,その分布がポアソン分布になっていることを示し,このことを「少数の法則」と名づけた。その後,一定期間に一定地域内で発生する事故の件数などの分布が,かなりよくポアソン分布で近似できることは多くの事例で確かめられている。
 (4)遺伝法則。メンデルは両親からの遺伝子が子に伝えられる場合,その組み合わせが確率的になると考えられることを示した。例えば,両親のもっている遺伝子がともにAaで表わされる場合,伝えられた遺伝子が
  AA Aa aa
となる比率が1対2対1になることを,有名なエンドウマメの実験で確かめた。
 (5)時間の中でランダムに起こる事象。この場合,簡単な確率の議論から,ある時点から次に事象が起こるまでの時間をTとすると,Tが指数分布に従うことが導かれるが,実際に多くの事象についてこのことが観測される。特に放射性元素について,1つの原子が放射線を出して崩壊するまでの時間は確率的に変動することが知られている。このような現象がポアソン過程といわれている。

竹内 啓 (2010). 偶然とは何か:その積極的意味 岩波書店 pp.66-68

ランダム

現実にランダムな現象が存在するか否かは,検証してみなければならない。もちろん実際には無限回の実験を行うことは不可能であるから,十分多数回の実験の結果がほぼランダムな系列になっていることを確かめれば,それはランダムと見なすことができるであろう。そうしてまた,ある種の実験の結果がランダムな系列になることが経験的に知られていれば,同じ条件で行われる他の実験の結果もランダムになると考えてよいであろう。

竹内 啓 (2010). 偶然とは何か:その積極的意味 岩波書店 pp.66

どちらを買う

例えば宝くじを買う場合,2枚のくじがあって,それぞれの番号が
  1,000,000番
  4,194,304番
であったとしたら,最初のくじを買う人はいないであろう。しかし,客観的に考えれば(わざわざ頻度をもち出さなくても)この2枚のくじが当たることは「同じ程度に確からしい」ことは明らかである。しかし,そのことを理解している人でも(筆者自身を含めて)最初のくじのような「不自然な番号が当たるはずはない」という心理が働くことは避けられない。しかし,そこでさらに,実は
  4,194,304 = 2^22
であって,したがってこれを2進法で書くと
  10000000000000000000000
となることがわかったら,今度はこの番号を買おうとする人はずっと少なくなるであろう。
 

竹内 啓 (2010). 偶然とは何か:その積極的意味 岩波書店 pp.48-49

言語とアイデア

簡単なたとえ話を使うとわかりやすいかもしれない。日本文学を専攻している教授と会ったとする。この教授が日本語を読み書きし,話せる可能性は非常に高い。しかし,しかし,教授が研究中にもっとも時間をかけて考えているものは何か当ててみてくれと言われたら,あなたは「日本語」とは答えないだろう。日本語は,日本文学を構成する文化,歴史,テーマを研究するために必要な知識の1つに過ぎない。その一方で,完璧な日本語をしゃべれる人の中にも日本文学をまったく知らない人もいるだろう(おそらく,日本にはそういう人が数百万といるはずだ)。
 コンピュータのプログラミング言語とコンピュータ科学の主要なアイデアとの関係もこれとよく似ている。コンピュータ科学の研究者たちは,アルゴリズムを実装し,試してみるために,アルゴリズムをコンピュータプログラムに変換する。そして,個々のプログラムはJava,C++,Pythonなどのプログラミング言語で書かれる。だから,プログラミング言語の知識はコンピュータ科学者にとって必要不可欠である。しかし,それは単なる前提条件に過ぎない。研究者の主要な課題は,アルゴリズムを発明,修正,理解することである。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.302-303

コンピュータとは

もちろん,コンピュータで頭脳の正確なシミュレーションができるかどうかという問いはまだ結論にはほど遠い状態である。科学的な視点からは,根本的な障壁はないように見える。化学信号と電気信号が脳内で伝送される仕組みの低水準の詳細はかなりよくわかっている。その一方で,さまざまな哲学的議論は,脳の物理的なシステムとは質的に異なるものなのだと言っている。これらの哲学的議論はさまざまな形を取っており,たとえば私たちの自己省察能力,直観,霊性への訴えかけなどを基礎に置くことができる。
 実は,この問題とアラン・チューリングが1937年に書いた決定不能性についての論文には魅力的なつながりがある。ただし,この論文の題名はかなりわかりにくい。「計算可能数について(On computable numbers……)」という穏当な文句で始まるのだが,「およびその決定問題への応用(……with an application to the Entscheidungsproblem)」という耳障りな文句で終わるのである(このタイトルの後半部分にはあえて触れない)。1930年代の「コンピュータ」という単語が今の普通の使い方とは全く異なる意味をもっていたことを理解しなければならない。チューリングにとって,「コンピュータ」とは紙と鉛筆で何らかの計算を行う人間のことである。つまり,論文タイトルの「計算可能数」という部分は,原則として人間が計算できる数のことである。しかし,チューリングは自分の議論を支えるために,同じく計算を実行できる特別なタイプの機械(チューリングにとっての「機械」とは,今の私たちなら「コンピュータ」と呼ぶものである)のことも論じている。論文の一部は,特定の計算がそれらの機械では実行できないことの証明に当てられている。これは,私たちがこの章で詳しく論じてきた決定不能性の証明である。しかし,同じ論文の別の部分では,チューリングの「機械」(コンピュータと読める)が「コンピュータ」(人間と読める)によってなされるあらゆる計算を実行できるという詳細で魅力的な議論を行っている。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.293-294

リレーショナルデータベース

私たちが使ってきた表のように,相互につながりを持つ表にすべてのデータを格納するデータベースを「リレーショナル」データベース(関係データベース)と呼ぶ。リレーショナルデータベースは,IBMの研究者,E.F.コッドが1970年に書いた「A Relational Model of Data for Large Shared Data Banks」というおそろしく強い影響を与えた論文のなかで推奨したものである。科学分野におけるもっとも優れた発想にはよくあることだが,リレーショナルデータベースは,あとから考えるとずいぶん単純に見える。しかし当時は,情報の効率のよい保存と処理に向かって非常に大きな1歩を踏み出したものだったのである。リレーショナルデータベースに対するほどあらゆる問い合わせへの解答としての仮想テーブルは,ごく一握りの操作(先ほど示した「選択」,「結合」,「射影」などの関係代数の演算)だけで生成できる。そのため,リレーショナルデータベースは,効率のよい構造に作られた表にデータを格納する一方で,別の形でデータが格納されていなければ答えられないように見える問い合わせにも仮想テーブルトリックで答えられる。
 リレーショナルデータベースが大部分のeコマース活動で使われているのはそのためである。何かをオンラインで購入するたびに,あなたは製品,顧客,個々の売買契約についての情報を格納するリレーショナルデータベースの一連の表を操作している。サイバースペースでは,それと気づきさえしないうちに,私たちはリレーショナルデータベースに囲まれているのである。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.221-222

クラッシュ

今までの説明を読むと,私達が不必要にクラッシュの可能性にこだわっているように見えるかもしれない。結局のところ,今のアプリケーションプログラムを実行している今のオペレーティングシステムなら,クラッシュを起こすことは非常にまれなのだ。しかし,この疑問には答えるべきことが2つある。まず第1に,ここで使っている「クラッシュ」の概念は,かなり一般的である。コンピュータが機能を止めてデータを失うようなあらゆる事故を網羅している。考えられることとしては,電源異常,ディスクエラー,その他のハードウェアの誤動作,OSやアプリケーションプログラムのバグなどがある。第2に,一般化しようがクラッシュが起きるのはまれだとしても,銀行,保険会社など,データが実際の金額を表している会社のシステムでは,どのような状況でもレコードに不一致が含まれていてよいことはない。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.196

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS /  /