I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   
カテゴリー「算数・数学・統計」の記事一覧

因子スコア

 一般に,因子分析を経て選定された尺度上での評定値から当該尺度の帰属因子に関する概括値を導く過程を因子スコア化と呼び,概括値自身を因子スコアと呼ぶ。要は,各尺度上での評定値から次元ごとの値を求めることに他ならないが,概括の仕方としてさまざまなものが提議されており因子スコアなる概念を用いて語り合っているうちにやがて互いが全く異なる内包を指していた点に気づくといった例も稀でない。特に頻繁に生ずるのは,(1) 因子分析の結果から或る因子の代理者として特定の複数尺度を選んだことに重点をおき,当該因子の代理者と見做された複数尺度上での評定値を単純に平均する因子スコア概念,(2) 各尺度上での評定値へ当該尺度に関する因子別負荷量を乗じていったん因子ごとに値を按分し,その後因子別に按分された値を累積していく因子スコア概念,の両者間での喰いちがいである。



岩下豊彦 (1983). SD法によるイメージの測定 川島書店 pp. 123-124


因子の回転

 ここで「なぜこうした回転が行なわれるか」についての問を想定するのが妥当というものであろうが,事柄は至極簡単なことに留まる。つまり,相関行列を数学的に共通性をもった因子へと分解するのが因子分析であり,その結果得られた因子と各尺度との関係に着目しながら因子のもつ意味を探ろうとするのが因子軸の回転なのである。因子分析があらゆる尺度間の相関関係を配慮に入れて数学的に因子へと分解していく過程であるのに対し,因子軸の回転は,因子分析結果で得られた因子と各尺度との関係の強弱(因子負荷量)を資料として因子の意味が鮮明になるようアクセント付けを行なう作業であるといってさしつかえなかろう。



岩下豊彦 (1983). SD法によるイメージの測定 川島書店 pp. 97-98


因子分析の起源

 因子分析は,スピアマンが知能の研究(Spearman, 1904)において,「複数のテストに共通する知能の一般因子<g-factor>の存在」を主張した際採られた数学的処理を起源とする。スピアマンによって報告された6つの相関行列は表2-3のようなものであり,各種テスト間で決して低いと判断し得ぬ相関を示していることに拠って,「(1)どのテストも何か共通した知的能力を幾分かずつ測定している,(2)それぞれのテストが共通の知的能力以外に当該テスト特有の知的能力を測定しているためこれらの相関係数が1.0にならない」との示唆を得,当該テストが他の共通した知的能力を測定している部分を一般因子,測定している程度を一般因子負荷量,また,当該テストが特有の知的能力を測定している部分を特殊因子,測定している程度を特殊因子負荷量と呼ぶと共に各々の負荷量を算出するに至ったのが,それに他ならない。仮にスピアマンが表2-8のような結果(おれは全く架空の値である)を得ていたとしたら,彼は「知能には2つの主要な共通因子がある」と結論づけたであろう。



岩下豊彦 (1983). SD法によるイメージの測定 川島書店 pp. 63


フィードバック・メカニズム

 つまり,「倒産確率10%」は,それが人びとに知られたとたん,すでに正確さを欠いてしまうわけである。これは,「倒産確率10%」という告知内容が,自らの表現の内部にある「倒産確率」という概念に外側からフィードバックし,影響を与えるに等しい。「倒産確率」というのは,いわばフィードバック・メカニズムを持っているのである。
 したがって,「倒産確率」を当局が公表することは,そのこと自体が倒産確率を変化させるので,つねに嘘を述べることになってしまう。はじめから嘘となるのがわかったうえで公表するのは政治家として勇気のいることだろう。
 これは経済現象というのが,さまざまな要素が密接にリンクするかたちで成り立っているものであり,特定の部門だけに固有の言及をすることが難しいことに依存しているのだ。金融機関が予期できぬ破綻をするのは,このような経済現象の相互関連性と心理が確率を左右するメカニズムによるのであって,公表しなかった政治家を,「悪辣な卑怯者」呼ばわりするのは,少しお門違いだといえるのである。
小島寛之 (2005). 使える!確率的思考 筑摩書房 pp. 165-166

データに親しむ

 「データに親しむ」ということは,簡単にいえば,「人間社会や自然環境に関心を持つ」ということである。世の中には,いろいろな固有現象がある。法則や特徴がある。しかし,社会や自然をそのまま「生」で眺めていても,「なにかあるな」ぐらいにしか直感できない。そこでまず,「数字に直す」という作業が必要なのだ。まさに「データ化」の作業である。次の段階は,それらの数字に潜む特徴を引き出すことである。これがいわゆる「データ解析」。その初歩ができるようになるだけでも,世の中を見る眼の解像度はずいぶん変わるし,解像度が高まれば,見ること自体が楽しくて仕方ない,という風になる。
小島寛之 (2005). 使える!確率的思考 筑摩書房 pp. 79-80

マルチンゲール

 まず,ランダムウォークが「マルチンゲール」という数学的な性質を備えていることを理解するのは,たいへん有意義である。マルチンゲールというのは,「その確率現象が過去にたどってきた足取りをどんな風に利用して推進しても,未来に生起する数値の平均値はいま現在の数値そのものである」という性質のことだ。もっと簡単にいうと,「過去のデータをどんな風に利用しても,未来の自分の結果を有利にすることはできない」ということなのである。
小島寛之 (2005). 使える!確率的思考 筑摩書房 pp. 36

大数の法則

 まず,いいたいのは,賭けの勝利がどんなに奇跡的に見えても,大量の人間が参加しているならそれは(誰かの身の上には)必然的に起こる,ということだ。これは「大数の法則」の帰結である。「大数の法則」というのは,「同じ条件で,前の結果に依存せず次の結果が起きるような同一の確率現象は,膨大な数の試行が繰り返されると,確率どおりの頻度で結果が起きる」ということだ。たとえば,サイコロが正しく作られたものなら,膨大な回数投げるとどの目も均等に6分の1の頻度で出る,というのである。これは数学法則であり,定理として証明されているのだ。
小島寛之 (2005). 使える!確率的思考 筑摩書房 pp. 25

相関と因果関係

 しかし,相関があるからといってそれが因果関係を示すことにはならない。たしかに相関は,ある事象がもう一つの誘因であることを意味する場合もある。しかし,両者が第三の要因によってひきおこされ,相関がみられることもあるのだ。たとえば次のような例がある。第二次大戦後,自動車と洗濯機の所有が劇的に増加した。それらを一年ごとに座標で位置を定め比較すると,自動車と洗濯機の購入とのあいだに密接な関係があることはあきらかだった。だからといって,自動車の購入が洗濯機の購入の誘因だということにはならない。両者には相関がみられるが,それは一方が他方をひきおこしたということではない。両者の数字は一般的な購買数の増加の指標なのである。相関はつねに注意深く正当に解釈されるとはかぎらない。
デイヴィッド・ホロビン 金沢泰子(訳) (2002). 天才と分裂病の進化論 新潮社 pp. 119

系統誤差

 それはともかく,先程あげた例のように,本来なら数のうちに入れてしかるべきものを無視してしまうという誤りは系統誤差の原因となり,第一種過誤と呼ばれている(見逃し,偽陰性ということもある)。この第一種過誤のために,われわれが測定する<名声>の出現頻度は,基本的には,対象としている人物への実際の言及頻度より低くなってしまう。
 系統誤差を生む過誤にはもう一つ,第二種過誤(誤検出,偽陽性)と呼ばれるものがある。第二種過誤が生まれるのは,本来は数に入れるべきでないものを数に入れてしまう場合である。「チャールズ・ディケンズ」と書かれていても,それは実際にはディケンズの長男で作家のチャールズ・ディケンズ・ジュニアのことなのかもしれない。孫のジェラルド・チャールズ・ディケンズの可能性もあるし,ひ孫のセドリック・チャールズ・ディケンズやピーター・チャールズ・ディケンズなのかもしれない。玄孫で俳優のジェラルド・チャールズ・ディケンズだってありうる。<名声>の測定では,このすべてが一族の大本に帰されてしまう。統計学者はこうした問題の危険性を承知しているが,理解の深さという点ではカリフォルニア大学バークレー校の統計学の教授,まいける・I・ジョーダンの右に出る者はいないだろう。その理由が知りたければ,グーグルに「マイケル・ジョーダン 統計学(Michael Jordan statistics)」と打ち込んで検索してみるといい。
エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 133-134

分析データを作る時

 では,どのような「影」を作れば,このようなビッグデータの隘路を抜け出せるだろう。つまり,ビッグデータからどのような情報を集めて利用すればいいのか,ということである。そこには満たさなければならない4つの規準がある。1つ目は,元になるデータセットは多数の人々の集団としての行動や行為が生み出したものなので,それらの人々の権利を守る必用があることだ。2つ目には,取り出した情報が興味深いものでなければならないことがあげられる。3つ目は,データを管理・監視している企業の目的に反するものであってはならないことである。そして,最後の4つ目は,元のデータから実際に作り出せなければならないことだ。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 91


条件付き確率

 出来事Aが起こったとわかっている状況で出来事Bが起こる確率を,AのもとでBが起こる「条件付き確率」と言う。条件付き確率はありえなさの原理のたいへん重要な側面の一つで,なぜなら一般にはかなり起こりえないのに特定の環境でなら大いに起こりそうな物事があるからだ。たとえば,私の親友がニューヨークで事故に遭う確率は非常に低い。なぜなら彼はロンドン在住で,ニューヨークを訪れることがまずないからだ。ところが,彼がニューヨークに引っ越すことになれば,その確率は当然大きく高まる。



デイヴィッド・J・ハンド 松井信彦(訳) (2015). 「偶然」の統計学 早川書房 pp. 86


知的な飛躍

 ”偶然の出来事は予測不可能でも,ある種の規則性がもっと高いレベルに存在するかもしれない”と考えるためには知性の著しい飛躍を要する。1回1回のコイン投げで表と裏のどちらが出るかはまったくわからないが,1000回投げたうちの500回ほどは表になる,という認識は大きな概念的飛躍だ。これは”重力とは物体間に働く普遍的な力の一つ”という概念を導いた知的飛躍に匹敵する。


 この知的飛躍がいかにとてつもないものであったかの証とも言えそうだが,偶然起こる物事の性質をなかなか理解できない人がこの現代にも大勢いる。たとえば,(公正な!)コインを投げると2回に1回ほど表が出るとわかっているのに,最初の10回で表が多く出ると,かなりの人が次の10回で裏が多く出て相殺されると予想する。だがそうはならない。この誤解は非常に幅広く見られ,「ギャンブラーの錯誤」という呼び名まで頂戴している。



デイヴィッド・J・ハンド 松井信彦(訳) (2015). 「偶然」の統計学 早川書房 pp. 69-70


誤った自信

 誤った自信に注意しよう。じきに,他人と違って自分の研究では統計に関するへまをやらかさないという自己満足におちいるかもしれない。だが,この本ではデータ分析に関する数学について綿密な紹介をしたわけではない。この本で紹介したような単純な概念的な誤りのほかにも,統計でへまをやらかす方法はたくさんある。通常とは違う実験を計画したり,大規模な試験を実施したり,複雑なデータを分析したりするのなら,始める前に統計学者に相談しよう。有能な統計学者ならば,疑似反復のような問題を緩和する実験計画を提案することができるし,研究上の課題に応えるための正しいデータ(そして正しい量のデータ)の収集を助けることができる。多くの人が犯してしまっているように,データを手に持ちながら統計コンサルタントのオフィスにおもむいて「で,これが統計的に有意だということがどう分かるんだい?」と聞くような罪を犯してはならない。統計学者は研究における協力者であるべきで,マイクロソフトのExcelの代用品であってはならない。チョコレートやビールを統計学者のところに持っていくなり,あるいは次の論文の共著者にするなりすれば,引き換えに良い助言を得ることができるだろう。



アレックス・ラインハート 西原史暁(訳) (2017). ダメな統計学:悲惨なほど完全なる手引書 勁草書房 pp.161


低下するのか

 ドミニカ等を北方に引っ張ってフロリダ州と接する境界にまで移動させてみよう。これはアメリカにドミニカが加わったことを意味しているので,新しく算出されたIQの平均値は低下し,IQの分布は下方に広がるだろう。しかし,そのことによってもともとアメリカに住んでいた人々のIQが変化することはないだろう。つまり,彼らが持っていた遺伝的能力がどのようであれ,それはそのまま残るだろう。そしてIQ130位上のエリート(トップ2.27%)は,社会を動かすためにそのまま留まるだろう。仮に移民が人口の10%加われば,エリートの割合は低下し,2.27%に100を掛けて110で割った2.06%になるだろう。しかし,絶対数が変化することはない。もちろん,異民族間の結婚も多少あるかもしれない。しかし,アメリカのエリートが使用人や小作人と結婚する傾向はない。彼らは IQの釣り合った相手と結婚する傾向があり,そのなかには移民のなかの超エリートだけが少し含まれるだろう。したがって,こうした傾向は,次の超エリート世代のIQを低下させることにはならないだろう。



(Flynn, J. R. (2013). Intelligence and Human Progress: The Story of What was Hidden in our Genes. New York: Elsevier.)


ジェームズ・ロバート・フリン 無藤 隆・白川佳子・森 敏昭(訳) (2016). 知能と人類の進歩:遺伝子に秘められた人類の可能性 新曜社 pp.67-68


ピアソンの怒り

ピアソンは,ゴルトンの死後(1911年死去),優生教育協会が彼を賞賛しながら,その統計学的な研究方法を無視して優生学の内容を変質させたことに怒りを隠さなかった。1914年2月,優生教育協会がゴルトンの名を冠して行っていた定期講演会,ゴルトン・レクチャーで,フランシス・ダーウィン(ダーウィンのもう一人の息子で植物学者)は,「ゴルトンは,現代的なメンデル学説からみると中世の錬金術士のように映る。今日の進歩的な遺伝研究は,絶対にメンデル学説に立脚しなくてはならない」と述べた。ゴルトンの名を掲げたレクチャーで,その本人を標榜する優生教育協会の関係者の言動は,ピアソンにとって理解不可能なことであった。

米本昌平・松原洋子・橳島次郎・市野川容孝 (2000). 優生学と人間社会:生命科学の世紀はどこへ向かうのか 講談社 pp. 25

ブートストラップ

装置が増え,データの量が多くなるにしたがい,コンピューターは自分で数値を調整し,確率を正確にしていく。このような学習を,フィリポウスは「自助努力(ブートストラップ)」と呼んでいる。「この種類のモデルは十分に整然としているので,自分自身の教育が可能なのです」。自助努力での学習が進むにつれて,わたしたちが一瞬ごとに何をしているかの推測は,ますます当たるようになる。

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.214

ブログの分析

こうした研究によって,従来の調査手法はお払い箱になる。マーケターが指図しなくても,ブログには何百万という質問への答えが自発的に書き込まれる。「テレビのクイズ番組『ジョパディ!』では,回答が先に与えられて,解答者は対応する質問を考えます。ある意味で,わたしたちの仕事も同じです」とカウシャンスキーが語る。「特定の車や映画について,人々がすでに好きだとか嫌いだとか宣言しています。その回答にふさわしい質問を探すのです」

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.139-140

他分野から

つまるところ,いまのあなたが意識もしていないような買い物パターンを解き明かすのは,ウォルマートやグーグルの研究者でも,ガニが働くアクセンチュアの一員でもないかもしれない。その人物は,ひょっとしたら,いまはミミズとかナノメートルの精度の微細加工技術とかの研究をしていたり,選挙結果が浮動票に左右される州で民主党支持者の振る舞いを分析している可能性もある。
 たとえば,マイクロソフトのデーヴィッド・ヘッカーマンは,受信される電子メールからスパムメールを除外するプログラムの開発に専念していた。無差別に送られてくる広告メールは,かなり堅牢になったセキュリティの隙を突くために,特徴的なパターンをどんどん変えていく。その様子は,自然界における生物の突然変異に似ている。このような変化を予想するのも,プログラムに求められる機能の一つだ。コンピューター科学者だが医者でもあるヘッカーマンは,メールの変異に追随する手法が確立されれば,医学にも応用できると考えていた。そこで,当然のように,2003年,興味をエイズの病原であるHIV(ヒト免疫不全ウイルス)に移した。「使っているプログラムはまったく同じです」。スパムメールの検出で実績を積んだプログラムから,いずれはエイズワクチンが生まれるかもしれない。
 このように,<ニューメラティ>の世界では,大躍進のきっかけはどの領域でも起こりうる。

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.83-84

些細な関連でも

そこで,データマイニングの出番になり,買い物客のデータのさまざまな組み合わせが試される。わたしたちの振る舞いがいったん四種類の記号に置き換えられたら,遺伝子のパターンを検索するアルゴリズムが適用できる。コンピューターはうなりながら,実際に何十億という組み合わせを調べはじめるだろう。その努力のほとんどは無駄骨に終わる。たとえば,芽キャベツと砂糖入りシリアルの両方を買う人々は,スイス製チョコレートも平均より多く買うだろうか?
 まともな神経の持ち主なら,そんな組み合わせをわざわざ試したりはしない。だからこそ,コンピューターにはうってつけの仕事なのだ。命令されるだけで,人間には予想もできない相関関係を見つけるかもしれない。ある種の乳がんやハンチントン病の発症に関与する遺伝子領域を医学者に示すように,缶詰を買う人に勧めるべき果物とか,イヌの餌を買う人に勧めるべき雑誌とかを教えてくれるだろう。どうでもいいような提案だと思ってはいけない。宣伝をバケツごとに微調整することで,売り上げが2パーセントでも伸びれば,「マム」のシャンパンのコルクをぽんと抜く理由になる。なにしろ,利益率が0.1パーセント単位で見積もられる業界なのだ。

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.82-83

宇宙で最も洗練されたコンピュータ

情報はわずかしかなく,お粗末なほど表面的だ。たとえば,あなたが会議室で5人の同僚とマーケティングの新戦略を練るとき,どんな思考が働くだろうか?それは現実世界での典型的な活動だ。人間の脳は,あきらかに宇宙で最も洗練されたコンピュータで,驚くほど多岐にわたるデータを処理する。鼻で笑われたり,無視されたり,それとなく皮肉をいわれたり,軽蔑のまなざしを向けられたりすることまで見落とさない。においと音を結びつけ,過去の記憶や教訓とも関連させる。ほかの5人の言葉と表情と身振りのすべてを合わせると,脳に集まってくる信号は何千,いや,何百万にもなる。ヴァージニア大学の心理学者ティモシー・ウィルソンの著作『自分を知り,自分を変える』によれば,脳には五感から毎秒1100万個の本質的に異なる信号が流れ込んでくる。
 現在のコンピューターには,それほど大量の入力は処理できない。IBMが使う数学モデルは,従業員1人につき5個から10個のデータを取り込むだけだ。わたしの飼いイヌでさえ,人間の性質をもっと深く観察している。それでも,わたしたちがいったんデータとして表現されると,コンピューターは超人的な計算をはじめる。1秒とかからずに,何百万人,何億人ものデータを集計したり,そのなかから同じデータを探したりする。大規模で効率的な処理からは,新しい見識が期待できる。

スティーヴン・ベイカー 伊藤文英(訳) (2015). NUMERATI ビッグデータの開拓者たち CCCメディアハウス pp.41-42

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS /  /