I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。このBlogの主な目的は，自分の勉強と，出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので，気になった一節が見つかったら，ぜひ出典元となった書籍をお読みください。

カテゴリー「算数・数学・統計」の記事一覧

« PREV
| HOME |
NEXT »

2025.07.03 [PR]
2019.03.11 数学の天才
2019.03.09 スポーツに賭ける
2019.03.08 予想しやすいスポーツ
2019.03.08 マルコフ連鎖
2019.03.07 男女平等と優生学
2019.03.07 回帰と国民の改良
2019.03.06 ピアソンとゴルトン
2019.03.06 期待利益がプラスに
2019.02.13 ラッキーコイン探し
2018.12.28 因子スコア
2018.12.28 因子の回転
2018.12.27 因子分析の起源
2018.12.08 フィードバック・メカニズム
2018.12.08 データに親しむ
2018.12.07 マルチンゲール
2018.12.06 大数の法則
2018.11.27 相関と因果関係
2018.08.21 系統誤差
2018.08.19 分析データを作る時
2018.07.25 条件付き確率

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

数学の天才

　ジョン・ナッシュはゲーム理論に関する初期の論文をみな，プリンストン大学の博士課程に在籍していたときに発表している。彼は学部生時代の指導教官が書いてくれた，二文から成る以下のような推薦状のおかげで奨学金を与えられ，１９４８年に同大学の大学院に入学した。「ミスター・ナッシュは１９歳で，６月にカーネギー工科大学を卒業します。彼は数学の天才であります」

アダム・クチャルスキー　柴田裕之（訳）　(2017).　完全無欠の賭け：科学がギャンブルを征服する　草思社　pp. 197-198

　マイナーなスポーツでは，（モデルが導き出したものであれ，専門家がもたらしたものであれ）新たに得られた知識は，きわめて高い価値を持ちうる。決定的な役割を担う変数についてはあまり知られていないので，頭の切れるベッターと一般のギャンブル客の腕前には，雲泥の差がつきかねない。テクノロジーの進歩は，ギャンブラーがより精度の高い予測モデルを構築するのに役立っているばかりではなく，賭けの方法に変化をもたらしてもいる。スーツケースに札束を詰め込んで持ち運ぶ日々は，まもなく終わりを告げる。今ではオンラインで賭けることが可能で，ギャンブラーは同時に何百件もの賭けを行なえる。このテクノロジーは，新しい種類の戦略への道も拓いた。スポーツベッティングではこれまでずっと，結果を正確に予想することに重きが置かれてきた。だが，科学的ベッティングはもはや，たんなる得点の予測という問題ではなくなっている。場合によっては，結果について何も知らないのに賭けることさえ可能になりつつあるのだ。

アダム・クチャルスキー　柴田裕之（訳）　(2017).　完全無欠の賭け：科学がギャンブルを征服する　草思社　pp. 161-162

予想しやすいスポーツ

　さまざまなチームスポーツのなかには，他より予測しやすい競技がある。その違いの一端は得点率にある。アイスホッケーを例に取ろう。NHL（ナショナル・ホッケー・リーグ）に所属するチームならば，一試合の平均スコアは２，３点だ。これをバスケットボールと比べてみるといい。NBA（全米バスケットボール協会）のチームは頻繁に，１試合で１００点もの得点をあげる。ホッケーのように１試合で入る点が少なければ，１点が試合に与える影響はより大きくなる。これはつまり，ゴールに嫌われて跳ね返されたり，運良くパックがゴールに飛び込んだりといった偶然の出来事が，最終結果に影響する可能性が高まることを意味する。得点の少ない競技では，取り扱う得点データも少なくなる。素晴らしいチームがろくでもないチームを破っても，１対０であれば，分析対象となる得点シーンはたった１度しかない。

アダム・クチャルスキー　柴田裕之（訳）　(2017).　完全無欠の賭け：科学がギャンブルを征服する　草思社　pp. 129-130

マルコフ連鎖

　1907年，マルコフは記憶も取り込まれたランダムな事象についての論文を公表した。そうした事象の一例がカードシャッフルだった。数十年後にソープも気づくのだが，一度シャッフルした後のカードの順序は，直前の順序に依存している。さらに，その記憶は長続きしない。次のシャッフルの結果を予測するために必要なのは，現在の順序だけだ。数回前のシャッフル時のカードの配列に関する情報を加えたところで，まったく意味がない。マルコフの研究にちなんで，この一段階限りの記憶は「マルコフ性」として知られることになった。このランダムな事象が数回繰り返される場合，それは「マルコフ連鎖」と呼ばれる。マルコフ連鎖は，カードシャッフルや，すごろくなどの偶然性が支配するゲームで広く見られる。また，隠された情報を探るときにも役立つ。

アダム・クチャルスキー　柴田裕之（訳）　(2017).　完全無欠の賭け：科学がギャンブルを征服する　草思社　pp. 101

男女平等と優生学

　現代の視点に立てば，ピアソンは少々矛盾した人物だったように思われる。彼は当時の多くの人とは異なり，男女は社会的にも知的にも等しく扱われるべきだと考えていた。だがその一方で，統計的手法を利用して人種の優劣を主張したり，児童労働を禁じる法律のせいで子供たちが社会的・経済的重荷となっていると訴えたりもした。こうした見解はどれも，今日では道徳にもとるように聞こえる。それにもかかわらず，ピアソンの研究は大きな影響力を振るい続けてきた。1911年にゴールトンが没してまもなく，ピアソンはユニヴァーシティ・カレッジ・ロンドンに世界初の統計学科を創設した。また，ゴールトンが『ネイチャー』誌に送った図をもとにして，「重回帰」の手法を構築した。つまり，影響を与えうる要因が複数あるとき，それぞれが結果とどのような相関関係にあるのかを明らかにする方法を編み出したのだ。

アダム・クチャルスキー　柴田裕之（訳）　(2017).　完全無欠の賭け：科学がギャンブルを征服する　草思社　pp. 83-84

回帰と国民の改良

　ゴールトンは長期にわたって，子の体格に代表されるような結果に対して，さまざまな要因がどのように影響するのかについての考察を重ねた。また，細心の注意を払って，この研究を裏づけるデータを収集した。だが残念なことに，彼の限られた数学的知識では，この貴重な情報を十分に活用できなかった。ピアソンに出会ったときのゴールトンは，ある特定の要因の変化が結果にどれほど影響するのかを正確に計算する方法など，知るべくもなかった。

　ゴールトンがまたしても新天地を指し示したのを受けて，数学の厳密さでその地を埋めたのがピアソンだった。二人はほどなく，こうした発想を遺伝の問題に適用してみることにした。二人とも平均への回帰は問題を孕んでいると考え，「優れた」人種的形質が次世代以降に確実に継承されるために，社会は何をするべきかと思案した。ピアソンの見るところでは，「その構成員の大多数を優秀な血筋から確実に集めること」によって，国民は改良可能だった。

アダム・クチャルスキー　柴田裕之（訳）　(2017).　完全無欠の賭け：科学がギャンブルを征服する　草思社　pp. 83

ピアソンとゴルトン

　カール・ピアソンはモンテカルロのルーレットホイール（回転盤）に関する研究を行った二年後，フランシス・ゴールトンという名の紳士と出会った。チャールズ・ダーウィンのいとこであるゴールトンは，科学や冒険，そしてもみあげに対する一族の情熱をダーウィンと共有していた。だがピアソンはほどなく，二人にはいくつか違いがあることに気づいた。

　ダーウィンは進化論を練り上げるにあたって，この新分野を整然とまとめることに時間を費やし，骨組みや方向性を幅広く示したので，彼の足跡は今なおはっきりと見て取れる。このようにダーウィンが建築家だとすれば，ゴールトンは探検家だった。ポアンカレとよく似て，ゴールトンも新奇なアイデアを世に公表するだけで満足し，すぐ次のアイデアの探求に向かうのだった。「彼はけっして，誰が後に続いてくるのかを見届けようとはしなかった」とピアソンは語った。「彼は生物学者や人類学者，心理学者，気象学者，経済学者らに新天地を指し示したが，彼らが後に続こうが続くまいが，お構いなしだった」

アダム・クチャルスキー　柴田裕之（訳）　(2017).　完全無欠の賭け：科学がギャンブルを征服する　草思社　pp. 80-81

期待利益がプラスに

　2003年，マサチューセッツ州営宝くじはまさにこの問題に直面した。メガミリオンズでまる一年にわたって当選者が出なかったのだ。運営者側は，キャッシュ・ウィンフォールではこの厄介な状況を避けるために，ジャックポットを制限することに決めた。もし当選者が出ないまま賞金が200万ドルに達したら，ジャックポットは繰り越されるかわりに，数字を3つか4つか5つ的中させたプレイヤーたちに分配される。これがいわゆる「ロールダウン」だ。

　宝くじの運営者は抽選の前には毎回，前回の抽選でのチケット売上に基づいてジャックポットの金額を推定して公表した。その推定値が200万ドルに達すると，6つの数字を的中させる人がいなければ，ロールダウンになることがプレイヤーにはわかる。人々はまもなく，ロールダウンのときのほうが賞金を獲得する可能性がはるかに高まることを見抜いた。その結果，そのような回にはいつも抽選前にチケットの売上が急増した。

　ハーヴィーはキャッシュ・ウィンフォールを調べていて，このゲームのほうがプレイヤーにとって他の宝くじよりもお金を稼ぎやすいことに気づいた。それどころか，期待利益がプラスになることさえあった。ロールダウンが起こると，2ドルのチケット売上あたり少なくとも2ドル30セントの賞金が支払われることになっていたのだ。

アダム・クチャルスキー　柴田裕之（訳）　(2017).　完全無欠の賭け：科学がギャンブルを征服する　草思社　pp. 57-58

ラッキーコイン探し

　証券市場を予測する戦術を，ラッキーコイン探しだと考えてみよう。ただしそれを見つけるためには，次のような厳密な試験が必要だとする。まず１０００枚のコインに１から１０００まで番号をつける。あなたは２年間毎朝，それをすべてトスして表が出たか裏が出たかを記録し，合わせてその日のスタンダード＆プアーズ（S&P）平均が上げたか下げたかも記録する。そしてその全データをじっくりと研究する。そしてついに気がつく。コイン３９１番が表だと，S&P平均が上げる確率は70.3%だ！この関係は統計学的には完全に有効だ。ラッキーコインを見つけたのだ！毎朝，コイン３９１をトスして表になるたびに株を買えば，もう安物のTシャツを着てインスタント・ラーメンをすする生活ともおさらばだ！

　……などと結論づけるなら，あなたも悪魔のような「次元の呪い」の犠牲者の一人となる。この呪いは，多くの変数（次元）—この場合は１０００枚のコイン—を，それより少ない観察—この場合は２年間で延べ５０４日の場の引け値—で調べようとすると必ず降りかかる。変数の１つ—この場合はコイン３９１番—が上げ相場を予告できると解釈しやすくなるのだ。だが変数を減らすと，たとえばコインの枚数を１００枚に減らすと—ある１枚のコインの裏表が上げ市況に一致する確率は大幅に下がる。観察の回数を増やすと—たとえばS&P平均の結果を20年にわたって記録するなら—コインの予測力はついていけなくなる。

セス・スティーヴンズ＝ダヴィドウィッツ　酒井泰介（訳）　(2018).　誰もが嘘をついている：ビッグデータ分析が暴く人間のヤバい本性　光文社　pp. 280

因子スコア

　一般に，因子分析を経て選定された尺度上での評定値から当該尺度の帰属因子に関する概括値を導く過程を因子スコア化と呼び，概括値自身を因子スコアと呼ぶ。要は，各尺度上での評定値から次元ごとの値を求めることに他ならないが，概括の仕方としてさまざまなものが提議されており因子スコアなる概念を用いて語り合っているうちにやがて互いが全く異なる内包を指していた点に気づくといった例も稀でない。特に頻繁に生ずるのは，(1) 因子分析の結果から或る因子の代理者として特定の複数尺度を選んだことに重点をおき，当該因子の代理者と見做された複数尺度上での評定値を単純に平均する因子スコア概念，(2) 各尺度上での評定値へ当該尺度に関する因子別負荷量を乗じていったん因子ごとに値を按分し，その後因子別に按分された値を累積していく因子スコア概念，の両者間での喰いちがいである。

岩下豊彦　(1983).　SD法によるイメージの測定　川島書店　pp. 123-124

因子の回転

　ここで「なぜこうした回転が行なわれるか」についての問を想定するのが妥当というものであろうが，事柄は至極簡単なことに留まる。つまり，相関行列を数学的に共通性をもった因子へと分解するのが因子分析であり，その結果得られた因子と各尺度との関係に着目しながら因子のもつ意味を探ろうとするのが因子軸の回転なのである。因子分析があらゆる尺度間の相関関係を配慮に入れて数学的に因子へと分解していく過程であるのに対し，因子軸の回転は，因子分析結果で得られた因子と各尺度との関係の強弱（因子負荷量）を資料として因子の意味が鮮明になるようアクセント付けを行なう作業であるといってさしつかえなかろう。

岩下豊彦　(1983).　SD法によるイメージの測定　川島書店　pp. 97-98

因子分析の起源

　因子分析は，スピアマンが知能の研究（Spearman, 1904）において，「複数のテストに共通する知能の一般因子＜g-factor＞の存在」を主張した際採られた数学的処理を起源とする。スピアマンによって報告された６つの相関行列は表２－３のようなものであり，各種テスト間で決して低いと判断し得ぬ相関を示していることに拠って，「(1)どのテストも何か共通した知的能力を幾分かずつ測定している，(2)それぞれのテストが共通の知的能力以外に当該テスト特有の知的能力を測定しているためこれらの相関係数が１．０にならない」との示唆を得，当該テストが他の共通した知的能力を測定している部分を一般因子，測定している程度を一般因子負荷量，また，当該テストが特有の知的能力を測定している部分を特殊因子，測定している程度を特殊因子負荷量と呼ぶと共に各々の負荷量を算出するに至ったのが，それに他ならない。仮にスピアマンが表２－８のような結果（おれは全く架空の値である）を得ていたとしたら，彼は「知能には２つの主要な共通因子がある」と結論づけたであろう。

岩下豊彦　(1983).　SD法によるイメージの測定　川島書店　pp. 63

フィードバック・メカニズム

　つまり，「倒産確率１０％」は，それが人びとに知られたとたん，すでに正確さを欠いてしまうわけである。これは，「倒産確率１０％」という告知内容が，自らの表現の内部にある「倒産確率」という概念に外側からフィードバックし，影響を与えるに等しい。「倒産確率」というのは，いわばフィードバック・メカニズムを持っているのである。

　したがって，「倒産確率」を当局が公表することは，そのこと自体が倒産確率を変化させるので，つねに嘘を述べることになってしまう。はじめから嘘となるのがわかったうえで公表するのは政治家として勇気のいることだろう。

　これは経済現象というのが，さまざまな要素が密接にリンクするかたちで成り立っているものであり，特定の部門だけに固有の言及をすることが難しいことに依存しているのだ。金融機関が予期できぬ破綻をするのは，このような経済現象の相互関連性と心理が確率を左右するメカニズムによるのであって，公表しなかった政治家を，「悪辣な卑怯者」呼ばわりするのは，少しお門違いだといえるのである。

小島寛之　(2005).　使える！確率的思考　筑摩書房　pp. 165-166

データに親しむ

　「データに親しむ」ということは，簡単にいえば，「人間社会や自然環境に関心を持つ」ということである。世の中には，いろいろな固有現象がある。法則や特徴がある。しかし，社会や自然をそのまま「生」で眺めていても，「なにかあるな」ぐらいにしか直感できない。そこでまず，「数字に直す」という作業が必要なのだ。まさに「データ化」の作業である。次の段階は，それらの数字に潜む特徴を引き出すことである。これがいわゆる「データ解析」。その初歩ができるようになるだけでも，世の中を見る眼の解像度はずいぶん変わるし，解像度が高まれば，見ること自体が楽しくて仕方ない，という風になる。

小島寛之　(2005).　使える！確率的思考　筑摩書房　pp. 79-80

マルチンゲール

　まず，ランダムウォークが「マルチンゲール」という数学的な性質を備えていることを理解するのは，たいへん有意義である。マルチンゲールというのは，「その確率現象が過去にたどってきた足取りをどんな風に利用して推進しても，未来に生起する数値の平均値はいま現在の数値そのものである」という性質のことだ。もっと簡単にいうと，「過去のデータをどんな風に利用しても，未来の自分の結果を有利にすることはできない」ということなのである。

小島寛之　(2005).　使える！確率的思考　筑摩書房　pp. 36

大数の法則

　まず，いいたいのは，賭けの勝利がどんなに奇跡的に見えても，大量の人間が参加しているならそれは（誰かの身の上には）必然的に起こる，ということだ。これは「大数の法則」の帰結である。「大数の法則」というのは，「同じ条件で，前の結果に依存せず次の結果が起きるような同一の確率現象は，膨大な数の試行が繰り返されると，確率どおりの頻度で結果が起きる」ということだ。たとえば，サイコロが正しく作られたものなら，膨大な回数投げるとどの目も均等に6分の1の頻度で出る，というのである。これは数学法則であり，定理として証明されているのだ。

小島寛之　(2005).　使える！確率的思考　筑摩書房　pp. 25

相関と因果関係

　しかし，相関があるからといってそれが因果関係を示すことにはならない。たしかに相関は，ある事象がもう一つの誘因であることを意味する場合もある。しかし，両者が第三の要因によってひきおこされ，相関がみられることもあるのだ。たとえば次のような例がある。第二次大戦後，自動車と洗濯機の所有が劇的に増加した。それらを一年ごとに座標で位置を定め比較すると，自動車と洗濯機の購入とのあいだに密接な関係があることはあきらかだった。だからといって，自動車の購入が洗濯機の購入の誘因だということにはならない。両者には相関がみられるが，それは一方が他方をひきおこしたということではない。両者の数字は一般的な購買数の増加の指標なのである。相関はつねに注意深く正当に解釈されるとはかぎらない。

デイヴィッド・ホロビン　金沢泰子（訳）　(2002).　天才と分裂病の進化論　新潮社　pp. 119

系統誤差

　それはともかく，先程あげた例のように，本来なら数のうちに入れてしかるべきものを無視してしまうという誤りは系統誤差の原因となり，第一種過誤と呼ばれている（見逃し，偽陰性ということもある）。この第一種過誤のために，われわれが測定する＜名声＞の出現頻度は，基本的には，対象としている人物への実際の言及頻度より低くなってしまう。

　系統誤差を生む過誤にはもう一つ，第二種過誤（誤検出，偽陽性）と呼ばれるものがある。第二種過誤が生まれるのは，本来は数に入れるべきでないものを数に入れてしまう場合である。「チャールズ・ディケンズ」と書かれていても，それは実際にはディケンズの長男で作家のチャールズ・ディケンズ・ジュニアのことなのかもしれない。孫のジェラルド・チャールズ・ディケンズの可能性もあるし，ひ孫のセドリック・チャールズ・ディケンズやピーター・チャールズ・ディケンズなのかもしれない。玄孫で俳優のジェラルド・チャールズ・ディケンズだってありうる。＜名声＞の測定では，このすべてが一族の大本に帰されてしまう。統計学者はこうした問題の危険性を承知しているが，理解の深さという点ではカリフォルニア大学バークレー校の統計学の教授，まいける・I・ジョーダンの右に出る者はいないだろう。その理由が知りたければ，グーグルに「マイケル・ジョーダン　統計学（Michael Jordan statistics）」と打ち込んで検索してみるといい。

エレツ・エイデン　ジャン＝バティースト・ミシェル　坂本芳久（訳）　(2016).　カルチャロミクス：文化をビッグデータで計測する　草思社　pp. 133-134

分析データを作る時

　では，どのような「影」を作れば，このようなビッグデータの隘路を抜け出せるだろう。つまり，ビッグデータからどのような情報を集めて利用すればいいのか，ということである。そこには満たさなければならない４つの規準がある。１つ目は，元になるデータセットは多数の人々の集団としての行動や行為が生み出したものなので，それらの人々の権利を守る必用があることだ。２つ目には，取り出した情報が興味深いものでなければならないことがあげられる。３つ目は，データを管理・監視している企業の目的に反するものであってはならないことである。そして，最後の４つ目は，元のデータから実際に作り出せなければならないことだ。

エレツ・エイデン　ジャン＝バティースト・ミシェル　坂本芳久（訳）　(2016).　カルチャロミクス：文化をビッグデータで計測する　草思社　pp. 91

条件付き確率

　出来事Aが起こったとわかっている状況で出来事Bが起こる確率を，AのもとでBが起こる「条件付き確率」と言う。条件付き確率はありえなさの原理のたいへん重要な側面の一つで，なぜなら一般にはかなり起こりえないのに特定の環境でなら大いに起こりそうな物事があるからだ。たとえば，私の親友がニューヨークで事故に遭う確率は非常に低い。なぜなら彼はロンドン在住で，ニューヨークを訪れることがまずないからだ。ところが，彼がニューヨークに引っ越すことになれば，その確率は当然大きく高まる。

デイヴィッド・Ｊ・ハンド　松井信彦（訳）　(2015).　「偶然」の統計学　早川書房　pp. 86