忍者ブログ

I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   
カテゴリー「算数・数学・統計」の記事一覧

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

理由より結論

世の中,因果関係で説明できないことは山ほどあるが,悲しいかな,人間というものは,原因がわからないとすっきりしない。しかし因果関係に執着しないのが,ビッグデータの世界だ。重要なのは「理由」ではなく「結論」である。データ同士の間に何らかの相関関係(2つの要素が密接に関わり合い,一方が変化すれば他方も変化するような関係)が見つかれば新たなひらめきが生まれるのだ。相関関係は,正確な「理由」を教えてくれないが,ある現象が見られるという「事実」に気付かせてくれる。基本的にはそれで十分なのだ。

∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.28
PR

べき乗則とガウス分布

その話題に移る前に,われわれの行動内容と,行動の予測可能性との違いをはっきりさせておこう。行動内容——どれだけの距離を移動したとか,何通の電子メールを送信したとか,電話を何回かけたとか——については,すでにベキ法則にしたがうことが明らかになっている。つまり,一部にものすごく活動的な人たちがいて,メールをたくさん打ち,遠くまで移動するのだ。それはまた,外れ値に該当する人が存在するのは当たり前だということでもある。ハサンのように何百キロも何千キロも飛びまわる人間が少数いるのは「想定内」なのである。
 しかし行動の予測可能性となると,意外なことに,ベキ法則に代わってガウス分布が現れる。つまり周囲3キロ圏内に暮らしていようと,毎日車で数十キロ走ろうと,急行電車で通勤しようと,それどころか出張するのに飛行機を使おうと,どこにいるかは同程度に予測できるのである。そしてガウス分布が支配する世界では,外れ値はあってはならないものとなる。人間行動はランダムだと仮定する,ポアソンのサイコロに支配された世界では,バーストが起こらなかったのと同じことだ。あるいは身長3メートルの人たちがその辺を歩いていることなどありえないのと同じだともいえる。人はみな,いろいろな点で他人とは違っている。それでも居場所ということになると,誰しも同じくらいに予測可能になり,この傾向に逆らう人間の存在は容赦のない統計の法則によって禁止されてしまうのである。

アルバート=ラズロ・バラバシ 青木薫(監訳) 塩原通緒(訳) (2012). バースト!人間行動を支配するパターン NHK出版 pp.289-290

ポアソンの習慣

ポアソン分布。ポアソン過程。ポアソン方程式。ポアソン核。ポアソン回帰。ポアソン和公式。ポアソン点。ポアソン比。ポアソン括弧。オイラー=ポアソン=ダルブー方程式。これは全体のほんの一部だが,それだけでも,シメオン=ドニ・ポアソンの研究がいかに科学のあらゆる分野に影響を及ぼしたかがわかるだろう。しかし驚くべきは,彼の貢献の量ではなく,その深さだ。そこで,どうしてもこんな疑問が浮かんでくる。いったいポアソンはどうやってこれだけ多くの異なる問題に同時に取り組みながら,なおかつ深い,色あせない貢献ができるほどの集中力を効率的に維持できたのか?
 もちろん,彼には秘訣があったのだ。一冊のノートと,ささやかな習慣である。
 ポアソンは興味深いと思う問題に出くわすたびに,その楽しみにふけりたくなる衝動に抵抗した。そして代わりにノートを取り出し,その問題を書きとめると,中断が入る前に夢中だった問題にさっさと注意を戻した。手元の問題が片付くと,そのたびにノートに走り書きされた問題のリストを眺めまわし,もっとも興味深いと思ったものを次の課題として選び出す。
 ポアソンのささやかな秘訣とは,生涯にわたって注意深く優先順位をつけることだったのだ。

アルバート=ラズロ・バラバシ 青木薫(監訳) 塩原通緒(訳) (2012). バースト!人間行動を支配するパターン NHK出版 pp.179

同じパターン

もし戦いが本当にランダムな性質のものなら,突出した犠牲者を出す争いはほとんどないはずだ。しかしリチャードソンが調べた結果は,そうではなかった。1820年から1949年までの282件の戦いのうち,188件は,死者が数千人でおさまるマグニチュード3以下の比較的小規模の争いだった。約1万人の犠牲者を出した交戦はそれより少なく,正確に言うと63件がマグニチュード4に相当した。ところがマグニチュード6にあたる争いも6件あり,数千万人の命を奪ったマグニチュード7の戦争も2件あったのだ。
 このマグニチュード7の戦争は容易に想像がつくだろう。もちろん,ふたつの世界大戦である。1000万人からそれ以上の犠牲者を出したマグニチュード6の6件の紛争を言い当てるのは,それほど簡単ではない。規模の順に挙げると,太平天国の乱(清朝中国,1851-1864年),スペイン内戦(1936-1939年),国共内戦(中国,1927-1936年),南米の三国同盟戦争<ラプラタの大戦>(1865-1870年),北米の南北戦争(1861-1865年),およびボリシェヴィキ革命に続くロシアの内戦(1918-1920年)である。
 詳細に調べた結果,リチャードソンは犠牲者の数がある単純な数学的法則にしたがっていることに気づき,それを単純なフレーズに集約した。「少ないほど,大きい」がそれである。つまり,紛争の大多数は地味な小競り合いで,せいぜい数百人の死者しか出していなかった。しかし莫大な数の犠牲者を出すような壮絶な衝突は,規模が大きくなるほどデータベースに現れる確率が少なくなっていた。
 じつは,このパターンに気づいたのはリチャードソンが最初ではなかった。19世紀の経済学者ヴィルフレド・パレートは,大多数の人々が貧乏である一方,ごく少数の人々だけが異様なほどの富を蓄積していることに気づいた。金持ちが存在すること自体は,べつに驚くにはあたらない。たとえ富がランダムに獲得されるとしても,誰かが別の誰かより金持ちになるのは当然だからだ。しかしパレートが調べたところ,その一部の金持ちは,ランダムな富の配分では説明しきれないほど金持ちだったのである。リチャードソンとパレートの研究は,戦争や収入が,いわゆる「ベキ法則[ある変数のベキ(累乗やn乗など。nは定数)で変化する法則。たとえば,y=x^2などのベキ関数にしたがって変化するもの]」にならっていることを示していた。厳密に言えば,多数の小さな事象が,少数のとてつもなく大きな事象と併存しているのである。つまりひとつの世界大戦や,ひとりのゲイツやロックフェラーにつき,無数の小さな紛争や,何百万もの貧乏人が存在しているというわけだ。

アルバート=ラズロ・バラバシ 青木薫(監訳) 塩原通緒(訳) (2012). バースト!人間行動を支配するパターン NHK出版 pp.149-150

ポアソン

今日,ポアソンの名は,じつにさまざまな科学的発見をしたことで知られている。ポアソン積分,ポテンシャル論におけるポアソン方程式,弾性におけるポアソン比,電気におけるポアソン定数——ざっと挙げただけでもこれだけある。彼の名前はエッフェル塔に刻まれているだけでなく,月の表側の南方の高地,アリアケンシスの東,ゲンマ・フリシウスの北西に位置する深く侵食されたクレーターにも,やはり彼の名が冠されている。ポアソンは生涯に350本以上の論文を書き,それはいま見てもすごい量だが,当時としても驚異的な生産高だった。しかも,当時はワードプロセッサーなどなかったのである。

アルバート=ラズロ・バラバシ 青木薫(監訳) 塩原通緒(訳) (2012). バースト!人間行動を支配するパターン NHK出版 pp.122

驚くべき偶然は必ず起きる

 次の例についてちょっと考えて欲しい。きみが宝くじに当たる確率は1400万分の1だ。当たる確率は恐ろしく低い。すでに挙げた統計結果からもわかるように,宝くじに当たるよりも,きみの家の屋根に飛行機が墜落してくる可能性のほうがおよそ56倍も高い。それでも,どこかの誰かが宝くじに当たる。その部分に関しては,起きそうにない出来事ではない。むしろ,誰かが当たることはわかりきっている。だからもし私がきみに,「さあ,科学大好き人間くん,1400万分の1の可能性しかないのに,どうして当たるのか説明してみろよ」と迫ったら,きみは不思議そうに私を見て,説明すべきことなど何もないと答えるだろう。誰が当たりくじを引くかを予言できるというなら話は別だが,どこかの誰かが当たりを引くことは,わかりきった事実だ。謎めいたところは何もない。ひと組の番号があたり番号であるという驚くべき「偶然」は,どこかの誰かに必ず起きる。

ダレン・ブラウン メンタリストDaiGo(訳) (2013). メンタリズムの罠 扶桑社 pp.381

平均への回帰

 平均回帰パターンはどこにでも見られる現象であり,それを説明するために的外れの因果関係をこしらえようとする人が後を絶たない。よく知られている例が,「スポーツイラストレイテッドのジンクス」というものである。これは,同誌の表紙に登場した選手は翌シーズンには成績不振に陥るというジンクスである。その理由として,自信過剰になるからだとか,高い期待に応えようとしてプレッシャーがかかるからだ,などまことしやかな理由が囁かれる。だが理由はもっと単純なことだ。スポーツイラストレイテッド誌の表紙を飾った選手は,そのシーズンに目を見張るような活躍をしたにちがいない。そこには幸運の後押しもあったと考えられる。そして運は気まぐれだということである。

ダニエル・カーネマン (2012). ファスト&スロー:あなたの意思はどのように決まるか?(上) 早川書房 pp.262-263

最善から遠ざけるもの

 最善が何か,自分1人の頭で考えていても「がむしゃらに頑張る」といった程度のアイディアしか生まれないかもしれない。だが世の中にはいろいろな分野で「最善が何か」を明らかにすることだけに命をかけている人たちがいる。無責任な評論家が偽物の「最善」を世に広める一方で,彼らが辿りついた真実の多くは,文献データベースの中に大量に蓄積はされていても,あまり我々の目には触れることはない。
 おそらく我々がすべきことの多くは,すでに文献やデータの上では明らかなのである。だがそれを現実のものとして実行するまでのギャップが我々を「最善」から遠ざけているのではないかと思う。

西内 啓 (2013). 統計学が最強の学問である ダイヤモンド社 3278/3361(Kindle)

オールラウンダーに

 これだけさまざまな分野で統計学が用いられるようになると,自分と異なる分野の異なる考え方で用いられる統計手法の意味を理解するのも一苦労である。しかしながら,自分の習った統計学と考え方が異なるという理由で拒絶したり,見当違いな批判を行うことはたいへんもったいない。それよりも,この章で紹介したような統計家たちの考えの違いをきちんと理解し,異なる立場で培われた知恵を自分の必要に応じて活用することのほうがよっぽど賢明なやり方である。
 統計学はそれ自体最強の学問であるが,その最強をさらに盤石なものにするためには,ありとあらゆる統計学の考え方に対してオールラウンダーになることが求められるのである。

西内 啓 (2013). 統計学が最強の学問である ダイヤモンド社 No.3040-3049/3361(Kindle)

効果の大きさ

 メタ分析が設定しうるリサーチクエスチョンは多様であり,いろいろな目的を持って分析が行われるが,どんなメタ分析にも共通するのは,結果が効果量として要約・報告されることである。したがって,効果量の値をどのように解釈するかは非常に重要だが,効果量はかならずしも直感的にわかりやすい指標とはいえない。実際のメタ分析論文を読んでいると,「d = 0.53で,中程度の効果量であった」などの表現を目にするが,効果量の大きさを「大きい(large)」,「中程度(medium)」,「小さい(small)」などと形容するときのもっとも有名な基準は,コーエンによるものである(むしろ,「例外なくコーエンによる」と言ってもよい)。コーエンは,検定力分析を論じた著書(Cohen, 1977; 1988)の中で,標準化された平均値差について,0.20を小さい効果量,0.50を中程度の効果量,0.80を大きい効果量の目安として示している。コーエンは,相関係数についても,0.10,0.30,0.50を,それぞれ小さい効果量,中程度の効果量,大きい効果量の目安として挙げている。

井上俊哉 (2012). 結果の解釈と公表 山田剛史・井上俊哉(編) メタ分析入門:心理・教育研究の系統的レビューのために 東京大学出版会 pp.157-181.

構成概念も同じ

 1つの概念に多数の操作的定義が与えられるとき,それらのすべてが,まったく同じように構成概念を代表することはありえない。それらのうちのどれか1つが,100%過不足なく構成概念を表すとも考えられない。現実には,それぞれの操作的定義が,ある程度の誤差を含みながら,構成概念の少しずつ違った側面を捉えていると考えるのが妥当である。クーパーはこの状況を,多数の項目を集めてテストが作られることになぞらえている(Cooper, 2009b)。テストによって何らかの構成概念を測ろうとするとき,1つないし少数の項目を用いるのでは,構成概念の一部しか把握できず,高い信頼性を確保することも難しい。構成概念を確実に捉え,かつ信頼性の高い測定値を得るためには,測ろうとする構成概念と多少なりとも相関があって,互いに少しずつ異なる多数の項目を積み上げて,テストを構成することが必要である(池田, 1992)。これと同じように,少数の操作的定義を用いるときよりも,構成概念の異なる部分を反映した多数の操作的定義を用いるときの方が,一般性の高い結論を導くことができると考えられるのである。ただし,概念的定義の広さに応じて,操作的定義を選ぶことは大事である。英語全般の学力を測ろうとするときと英語文法の学力を測ろうとするときとを比べると,テストのために使える項目の範囲は前者では広く後者では狭くなるだろう。関心を向ける構成概念をどのくらい広く(狭く)定義するのか,その広さを考慮に入れた操作的定義の選択は,問題の定式化の段階における重要な決定事項のひとつである。

井上俊哉 (2012). 問題の定式化 山田剛史・井上俊哉(編) メタ分析入門:心理・教育研究の系統的レビューのために 東京大学出版会 pp.25-48.

母集団のふるまいの数学的表現

 統計モデルは母集団のふるまいの数学的表現です。つまりそれは目標母集団の人々についての関心のあるプロセスについての仮定を記述します。特定のデータセットを分析するために特定の統計モデルを使用する際,あなたはこの母集団モデルがこれらの標本データをもたらしたことを暗に言明しているのです。つまり統計モデルは標本のふるまいについての言明ではなく,そのデータが作り出された母集団におけるプロセスについての言明なのです。

ジュディス・シンガー,ジョン・ウィレット 菅原ますみ(監訳) (2012). 縦断データの解析I:変化についてのマルチレベルモデリング 朝倉書店 pp.45

表現しなおし

 変化の個人間での異質性についての疑問を,各個人の変化の軌跡の重要なパラメータということばで表現し直すことで,問題をより特定化して単純化をはかることができます。疑問を「変化には個人差があるでしょうか,もしあるとすれば,どのようにでしょうか」と表現する代わりに,「切片には個人差があるでしょうか,傾きにはどうでしょうか」とするのです。観測された平均的な変化のパターンについて知るためには,推定された切片と傾きの標本平均値を検討する必要があります。これらはその標本の初期値と標本全体の平均的な1年間の変化率に関する情報を提供してくれます。観察された変化の個人差を検討するためには,標本の切片と傾きの分散と標準偏差を検討します。これらは,その標本の初期値と変化率の散らばり具合についての情報を提供してくれます。そして,観察された初期値と変化率の関係性について検討するため,その標本の初期値と変化率の共分散あるいは相関を検討することができます。

ジュディス・シンガー,ジョン・ウィレット 菅原ますみ(監訳) (2012). 縦断データの解析I:変化についてのマルチレベルモデリング 朝倉書店 pp.35

有効な時間を

 ここで私たちが言いたいことはとても簡単なことです。あなたが扱う結果変数にもっとも有効だとあなたが考えるような時間の測定単位を選択しなさいということです。心理療法の研究では時間を週単位あるいはセッションの回数で測ることができます。学級を対象とした研究では学年や年齢で時間を測ることができます。養育行動の研究では親の年齢あるいは子どもの年齢で時間を測ることができます。唯一の制約は,時間そのものと同じように時間に関する変数は単調にしか変化しないということです。言いかえると,変化の方向を逆転することができないということです。例えば,子どもに関する結果変数を用いた研究では,身長を時間の測定単位とすることはできますが体重はできません。

ジュディス・シンガー,ジョン・ウィレット 菅原ますみ(監訳) (2012). 縦断データの解析I:変化についてのマルチレベルモデリング 朝倉書店 pp.10

冷笑主義に陥るな!

 このような「フィールドガイド」を読んだ人は,統計数字なんてみんないい加減だという結論を下してしまうかもしれない。どの統計にも冷笑的な態度をとり,数字は役立たずだと決めてかかるべきだと。だが,それではすまない。この様の中は込み入っている。そのさまざまな性質をはかろうとしなくては,この様の中を理解することは望めない。私たちには統計が必要なのだ。だがもちろん,必要なのは,いい統計,できるかぎり正確な統計である。

ジョエル・ベスト 林 大(訳) (2011). あやしい統計フィールドガイド 白楊社 pp.179

立ち止まるべし!

 数字を耳にしたときには,いつも,いっとき立ち止まって自問するのがいい。どうしてその数字がわかったのだろう。どうやって計測できたのだろう。その統計が,人々が秘密にしておきたいと思うかもしれない活動に関するものであるとき,このような問いを立てることが,とくに大切になる。たとえば不法移民の数や,違法な薬物に費やされる金額を数えることがどうすればできるのだろう。信頼できるように思える統計も,ちょっと考えるだけで,かなりいい加減な計測上の決定に基づいているにちがいないことが明らかになることもよくある。

ジョエル・ベスト 林 大(訳) (2011). あやしい統計フィールドガイド 白楊社 pp.91

定義の拡大

 問題を広く定義することには利点があるので,社会問題は時がたつにつれて徐々に定義が広がり,前より広い範囲の現象に当てはまるようになりがちだ。このプロセスを「ドメイン・エクスパンション」(領域拡大)という。もともと児童虐待は,身体的な虐待と理解されていたが,時がたつにつれて定義が広がり,性的虐待,心理的虐待なども含まれるようになっている。同様にヘイトクライムについての議論では,初めのころは人種的,宗教的偏見に基づく攻撃が論じられていた。ところが,まもなく範囲は広がって,性的嗜好に基づく犯罪も含むようになり,この問題のアドボケートはさらに,ジェンダーや障害に対する偏見によって起こる犯罪などを加えるよう求めた。
 ある問題の定義を広げれば,当然,その問題の規模についての統計的見積りも大きくなる。定義が広いほど,大きな数字を出すことができ,数字が大きいほど,大きな問題があることになり,人々が関心を寄せることがそれだけ求められることになる。

ジョエル・ベスト 林 大(訳) (2011). あやしい統計フィールドガイド 白楊社 pp.77-78

概念定義が必要

 名前をつけずに社会問題を論じるのは——まして統計的に分析するのは——ほとんど不可能だ。そして名前は重要である。注意深く選ばれた名前は,問題について特定の印象を与えることがあるからだ。
 例として「ビンジ・ドリンキング」を考えてみればいい。1990年代半ばまでは,米国で人々が「ビンジ・ドリンキング」と言うときは普通,長期間にわたる抑えの利かない飲酒のことを指していた。「失われた週末」や「リービング・ラスベガス」のような映画で描かれたような自滅的な状態だ。ビンジ・ドリンキングの暗いイメージが無数の大酒飲みにこう言い張らせたのである。「私はアルコール依存症ではない」。ところがその後,大学のキャンパスでの飲酒に懸念を抱くアルコール研究者たちが,違う種類の振る舞いに注目を集めるためにこの用語を乗っ取ってしまった。この研究者たちが用いるときビンジ・ドリンキングという用語は,学生が1階に数杯(男性なら5杯,女性なら4杯)飲むことを指していた。これは,だれかが友人とバーで5時間過ごし,1時間あたり1杯消費すれば(このペースでは血中アルコール濃度は,車の運転が許容される法律上の限界を上回らないかもしれないが),「ビンジ・ドリンキング」をしていると表現できるということだ。つまり,かなり広くおこなわれていて,何の問題も引き起こさないかもしれない合法的な振る舞いの呼び名として,もっとも厄介で破滅的な種類のアルコール依存症と長らく関連づけられてきた言葉が用いられたのである。
 呼び名をうまく選べば,強い感情的反応を呼び起こし,統計を,とくに気がかりなように見せることができる。

ジョエル・ベスト 林 大(訳) (2011). あやしい統計フィールドガイド 白楊社 pp.67-68

x分に1件

 みなさんは,ほかのいろいろな社会問題について,「X分に1件」起こっているという言い方がされるのを目にしたことがあるだろう。これは,物事を考えるのに格別役に立つやり方ではない。第1に,たいていの人にとって,こういう数字を役に立つ総数に変換するのはたいへんだ。私たちは,1年が何分かをよくつかんでいないからである。1年が52万5600分,おおよそ50万分であることを覚えておけば役に立つかもしれない。私たちのベンチマークのリストに加えておくのにいい数字だ。そうすると,こう考えることができる。「えーと,13分に1件ということは,おおよそ50万を13で割って,4万くらいということか。これは,若者の自殺の件数としてとんでもなく多いように思えるな」。

ジョエル・ベスト 林 大(訳) (2011). あやしい統計フィールドガイド 白楊社 pp.37-38

深刻な事象は少ない

 おおかたの社会問題は,こういうパターンを示す。つまり,それほど深刻でない事例はたくさんあり,大変深刻なものは比較的少ないのだ。この点が大事なのは,社会問題についてのメディアの報道やそのほかの主張で,不安をかきたてる象徴的な例が大きく扱われることが多いからだ。つまり,その問題を説明するために劇的な事例が使われるのである。そうした例はたいてい悲惨な話で,まさに人々をぞっとさせ,動揺させるから選ばれるのだ。だが裏を返せば,そうした例はたいてい典型的なものではないのである。その問題の事例のおおかたは,その例ほど心配なものではないのだ。それでも,その問題の広がりをめぐる統計に恐ろしい例を結びつけてしまいやすい。たとえば,未成年の大学生が急性アルコール中毒で死んだという話(恐ろしいがめったに起こらない出来事)が報道されると,それが,酒を飲む未成年の大学生の(大きな数であるのは疑いない)推定人数と結びつけられかねない。そこでほのめかされるのは,キャンパスでの飲酒は,死を招く問題だということだ。もちろん,酒を飲む学生の圧倒的多数は,死ぬことなく大学生活をおえるのだが。

ジョエル・ベスト 林 大(訳) (2011). あやしい統計フィールドガイド 白楊社 pp.26

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS / 忍者ブログ / [PR]