忍者ブログ

I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   
カテゴリー「算数・数学・統計」の記事一覧

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

クラッシュ

今までの説明を読むと,私達が不必要にクラッシュの可能性にこだわっているように見えるかもしれない。結局のところ,今のアプリケーションプログラムを実行している今のオペレーティングシステムなら,クラッシュを起こすことは非常にまれなのだ。しかし,この疑問には答えるべきことが2つある。まず第1に,ここで使っている「クラッシュ」の概念は,かなり一般的である。コンピュータが機能を止めてデータを失うようなあらゆる事故を網羅している。考えられることとしては,電源異常,ディスクエラー,その他のハードウェアの誤動作,OSやアプリケーションプログラムのバグなどがある。第2に,一般化しようがクラッシュが起きるのはまれだとしても,銀行,保険会社など,データが実際の金額を表している会社のシステムでは,どのような状況でもレコードに不一致が含まれていてよいことはない。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.196
PR

トランザクション

データベースの世界でもっとも重要な観念は,おそらくトランザクション[英語のtransactionは,取引,処理などを意味する。データベースにおけるtransactionは,日本語文献でもトランザクションとカタカナ表記するのが普通なので,ここでもトランザクションという言葉を使う。意味についてはすぐあとを参照のこと]。しかし,トランザクションとは何なのか,なぜ必要なのかを理解するためには,コンピュータについて2つの事実を受け入れなければならない。最初の事実は,たぶん誰もはいやというほど知っていることである。コンピュータプログラムはクラッシュする。そして,プログラムはクラッシュしたときに,自分がしていたことをすべて忘れてしまう。コンピュータのファイルシステムに明示的に保存された情報だけが残る。知らなければならない第2の事実は,だいぶわかりにくいが,きわめて重要なことである。コンピュータのハードディスクやフラッシュメモリーなどの記憶装置が瞬間的に書き込めるデータはごくわずかで,一般的には約500字ほどである(専門用語に関心のある読者に説明しておくと,ここで言っているのはハードディスクの「セクターサイズ」のことで,一般に512バイトである。フラッシュメモリーの場合,問題になるのは「ページサイズ」だが,やはり数百〜数千バイトである)。最近のドライブは500字の書き込みを1秒に数百,数千回実行できるので,普通のコンピュータユーザーは,デバイスに瞬間的に書き込めるデータのサイズがこのように小さく制限されていることには気づかない。しかし,ディスクの内容は,1度に数百字ずつしか書き換えられないのは事実である。
 このこととデータベースにいったいどのような関係があるのだろうか。実は,きわめて重要な意味がある。一般に,コンピュータは,同時にデータベースの1行分しか更新できないのだ。先ほどの非常に小さくて単純なサンプルサイズでは,これを実証できない。上の例は,表全体で200字に足りないので,コンピュータは2行を同時に更新できるだろう。しかし,一般に合理的な規模のデータベースでは,2つの異なる行を書き換えるためには,2回の別々のディスク操作が必要である。
 以上の事実をはっきりさせると,問題の核心に入っていくことができる。データベースに一見単純な変更を加えようとすると,複数の行を書き換えなければならない。そして,今わかったように,2つの異なる行の書き換えは,1回のディスク操作では実行できない。そのため,データベースの更新は,複数回のディスク操作を連続的に行った結果となる。しかし,コンピュータはいつでもクラッシュする可能性がある。コンピュータがこのような2回のディスク操作の「間に」クラッシュしたらどうなるだろうか。コンピュータをリブートすることはできるが,クラッシュしたときに実行することになっていた処理のことは忘れている。そのため,必要とされる変更が実行されない場合がある。つまり,データベースが一貫性のない状態に取り残される場合があるということだ。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.190-192

圧縮

データやら情報やらを壊さずに「本当の」サイズよりも小さくし,あとですべての情報を完全に作り直すなどということが,どうすればできるのだろうか。実は,人間は,そうと考えもせずに始終これを行っている。例として週間のカレンダーについて考えてみよう。話を簡単にするために,あなたの仕事は1日8時間,週に5日で,カレンダーは1時間ごとに区切られているものとする。つまり,5日間でそれぞれ8時間分の枠があり,1週間あたり40時間分の枠があるということになる。そこで,あなたは自分の1週間分のカレンダーを誰か他人に知らせるときに,40個分の情報を伝えなければならない。しかし,誰かが翌週の会議の時間を押さえるために電話をかけてきたとき,40個の情報をずらずらと並べて出席できる時間を説明するだろうか。もちろん,そんなことはしないだろう。「月曜と火曜はいっぱいで,木曜と金曜は午後1時から3時がふさがっているけど,あとは大丈夫だよ」のように言うはずだ。これは,ロスなし圧縮の実例である。あなたの話を聞いた相手は,週の40時間の枠のうち,あなたが会議に出席できる時間を完全に再現できる。しかし,あなたは40個の枠全部についていちいち説明するわけではないのだ。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.162-163

20の質問と決定木

コンピュータ科学者たちにとって,「20の質問」ゲームには特別な魅力がある。このゲームでは,プレーヤーの1人があるものを思い浮かべ,ほかのプレーヤーたちは20個以下のイエス・ノーで答えられる質問に対する答えからそのものが何かを当てなければならない。あなたに20の質問をしてくる小さな携帯電話機さえ売っている。このゲームは,主として子どもを楽しませるために使われるものだが,大人がやっても意外に面白い。ゲームを始めて数分経つと,このゲームには「よい質問」と「悪い質問」があることがわかってくる。よい質問は大量の「情報」(どのような意味であれ)を与えてくれるのに対し,悪い質問は手がかりを与えてくれない。たとえば,最初の質問として「それは銅製ですか?」と尋ねるのはうまくない。答えが「ノー」だったら,可能性の幅がほとんど狭まらないからだ。良い質問と悪い質問を見分ける直観は,情報理論という魅力的な学問分野の核心である。そして,「決定木」というシンプルで強力なパターン認識テクニックの核心である。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.138

情報時代のマグナカルタ

誤り訂正符号は1940年代にはすでに存在していた。電子コンピュータ自体が誕生してからそれほど時間が経っていない。あとから考えると,その理由は割と簡単にわかる。初期のコンピュータは信頼性が低く,その部品は頻繁に誤りを生み出していた。しかし,誤り訂正符号の本当のルーツはもっと古く,電信や電話などの通信システムの頃からあった。だから,誤り訂正符号の開発のきっかけとなった2度の事件がともにベル研究所で起きたのは,驚くべきことではない。この物語のヒーローであるクロード・シャノンとリチャード・ハミングは,ともにベル研の研究員だった。ハミングにはすでに登場してもらっている。現在ハミング符号として知られる最初の誤り訂正符号が発明されたのは,ベル研のコンピュータが2回の週末にクラッシュするのにハミングがうんざりしたことからだった。
 しかし,誤り訂正符号は,「情報理論」というもっと大きな学問分野の一部に過ぎない。そして,ほとんどのコンピュータ科学者は,情報理論という学問分野の起源を1948年のクロード・シャノンの論文に求める。「The Mathematical Theory of Communication」(通信の数学理論)というタイトルのこの傑出した論文は,シャノンのある伝記作家が「情報時代のマグナカルタ」と呼んでいるほどのものである。アービング・リード(後述のリード=ソロモン符号の共同発明者)は,この論文について,「科学技術にこの論文以上に大きな影響を与えた仕事は,この世紀にはほとんどない。彼は通信理論と実践のあらゆる側面をもっとも深いところから刷新したのである」と言っている。このように高い評価が与えられているのはなぜだろうか。シャノンは,ノイズが多く誤りを引き起こしやすい回線を使っても,驚くほど高い確率で誤りのない通信を実現することが原則として可能だということを数学を通じて示したのである。シャノンが理論的に割り出した通信の最高速度を科学者たちが実際に実現したのは,それから何十年も後のことだった。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.122-123

ウェブスパムとの闘い

検索エンジンの世界では,この種の濫用を「ウェブスパム」と呼んでいる(この用語は,電子メールのスパムからの類推で作られたものである。ウェブ検索の結果を撹乱する迷惑なウェブページがあることは,電子メールの受信ボックスに迷惑なメールが届いているのとよく似ている)。すべての検索エンジンにとって,さまざまなタイプのウェブスパムを検出し,取り除いていくことは,継続的に進めなければならない重要な仕事である。たとえば,マイクロソフトの研究者たちは,2004年にちょうど1001個のページがリンクしているウェブサイトを30万以上も見つけた。これは非常に怪しげな動きである。これらのウェブサイトを手作業で調べてみたところ,そのリンクの大多数は,ウェブスパムであることがわかった。
 そのため,検索エンジンはウェブスパマーとの知恵比べに否応なく巻き込まれており,リアルなランクを返せるように,たえずそれぞれのアルゴリズムを改良しようとしている。このようにページランクに改良圧力がかかっているために。アカデミズムでも業界内でも,ウェブのハイパーリンク構造を使ってページのランク付けをするほかのアルゴリズムの研究が数多く生まれている。この種のアルゴリズムは,リンクベースランキングアルゴリズムと呼ばれることが多い。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.64

ハイパーリンク

ハイパーリンクは,驚くほど古いアイデアだ。1945年,つまりコンピュータ自体が初めて作られたのと同じ頃のことだが,アメリカの技術者,ヴァネヴァー・ブッシュは,「As We May Think」という予見的エッセイを発表した。ブッシュは,この広範な対象について論じたエッセイの中で,memexというマシンなど,彼が将来生まれるだろうと予想した様々な技術について論じている。memexは文書を保存して自動的に索引を作るが,できることはそれだけに留まらない。memexは「連想的なインデクシング,つまり,任意の項目が,ただちに,そして自動的にほかの項目を意のままに選択する機構」も持つ。つまり,初歩的な形のハイパーリンクである。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.48-49

インデクシング

インデックス(索引)の概念は,あらゆる検索エンジンを支えるもっとも基礎的な考え方である。しかし,インデックスを発明したのは検索エンジンではない。実際には,インデクシングの思想は,文章を書くこととほぼ同じくらい古い。たとえば,考古学者たちは,5000年前のバビロニアの遺跡で,テーマごとに楔形文字の粘土板の目録を所蔵する寺院の附属図書館を発見している。このように,インデクシングはコンピュータ科学でもっとも古い有用なアイデアだと言うことができる。

ジョン・マコーミック 長尾高弘(訳) (2012). 世界でもっとも強力な9のアルゴリズム 日経BP社 pp.28

人口の計算も難しい

総所得あるいは成長の傾向を推計するための基本的出発点は,人口を数えることである。サハラ以南アフリカの国民経済計算担当部署の標準的方法では,人口データを,定期的にデータを収集できない経済部門の測定のための乗数として使っている。非公式部門や自給自足生産では,これらの部門の国民経済への貢献を計算するのに,一人当たりの量を使って推計が作られているかもしれない。加えて,これらおよび他の部門で,経済成長はしばしば人口増加に比例すると考えられている。人口データはもちろん,開発に関する従来型の測定——実質一人当たり所得——において中心的要素であり,正確な計算なしには,教育や保健における一人当たりの傾向について何を言っても意味がない。このように,人口についてのデータは開発の測定や実践にとって不可欠なのである。人口推計はさらに,政治にも関係しており,国勢調査は選挙の選出議員数や財政支出にも直接影響する。そのため,人口の計算は,とくに権力が激しく争われている国や,国の監視力が弱いところでは議論の的となりやすい。

モルテン・イェルウェン 渡辺景子(訳) (2015). 統計はウソをつく:アフリカ開発統計に隠された真実と現実 青土社 pp.111-112

妥当か信頼できるか

データの入手可能性が決まると,進むべき正しい道は,次の2つの問いを投げかけることである。測定値は妥当か。測定値は信頼できるか。妥当性の概念は測定が正確かどうかに関係し,信頼性の概念は測定値が毎回同じように不正確あるいは正確かということに関係する。したがって,信頼性は妥当性とは異なるのである。測定値に予測可能な誤りがあった場合,この誤りは測定値を無効にするが,測定値はそれでもまだ信頼できる。1人当たりGDPに関していえば,水準となる推計が不正確であったとしても,この不正確さが時を越えて同じであるとしたら,それは経済変化wp理解するために有用であり続けるのである。同様に,すべての国の国民所得が同一の誤りによって間違って測定されたとしても,各国間の比較は行うことができる。だが,残念ながら,アフリカにはこれは当てはまらない。アフリカの開発統計には妥当性と信頼性の両方に問題がある。その基本的な理由は,GDPが,大部分,記録されていない経済を集計しているということにある。統計学的推論によれば,いったん妥当な測定を行えば,つまり,いったんすべての経済活動が算定されるなら,以前に記録されていない経済活動だけでなく,すべての「新しい」活動が「経済成長」であると理解されることになる。包括性からはほど遠いが,それは予見可能な将来に到達可能な目標ではないのだろう。したがって,すべてのGDP統計は,真理性と妥当性の両方の問題を抱えている。

モルテン・イェルウェン 渡辺景子(訳) (2015). 統計はウソをつく:アフリカ開発統計に隠された真実と現実 青土社 pp.49

調査データと管理データ

データには「調査データ」と「管理データ」の区別がある。調査は統計局が個々の主体から回答を収集するための道具である。統計局が調査を実施することができるか否かは,そのための財源を確保できるかどうかにかかっている。というのは通常,正規の予算からの引当金では事務所の基本的な運営費しか賄えないからである。管理データは日常的な統治を円滑に運ぶために公的機関によって収集され,そこには国家の野心や活動範囲が反映される。データの入手可能性は,国によって,またその時の環境によって異なるが,これが最終推計の質を決定するのである。

モルテン・イェルウェン 渡辺景子(訳) (2015). 統計はウソをつく:アフリカ開発統計に隠された真実と現実 青土社 pp.45

統計局

国民所得推計の質は,このように,統計局での活動の質の所産なのである。国民経済計算部門は,統計局のさまざまな部署で作成されたデータ,とりわけ人口,農業生産および工業生産,価格についてのデータに依存している。これらのデータ供給は,データ収集者の人数や,データの収集・処理に利用できる資金の水準によって左右される。しばしば統計局は,他の公的機関や民間団体から提供されたデータに依拠する。例えば,農業のデータは主として農業省やそれに相当する部署からもたらされる。建設業,鉱業,電気,水,金融,通信,運輸といった少数の大規模な運営者が支配している部門では,統計局はこれらの民間団体や公的機関からのデータ提供に依存している。

モルテン・イェルウェン 渡辺景子(訳) (2015). 統計はウソをつく:アフリカ開発統計に隠された真実と現実 青土社 pp.44-45

人間の要因

データの質に関する最も差し迫った問題は,データを利用する人間の無知である。経済統計の妥当性,信頼性を分析する能力を最も備えている学者たちは,しばしば自分自身データの利用者であり,したがって学者の仕事にとって不可欠なデータセットの土台を崩すことには消極的である。データへの懸念を表明するとしても,通常,脚注で慎重な言い回しで警告するのがせいぜいである。国際機関がデータの主要な提供者であり,発信者であるが,彼らのプログラムや計画はしばしばターゲットや指標と結びついている。そのため,実際的なアプローチはデータを額面通り受け入れることから始まる。私的に,あるいは技術的な協議においては助言が与えられるかもしれないし,データ作成の段階で直接的圧力が加えられることがあるかもしれない。また,国内政治の場で,この問題について透明な議論が行われることはほとんど,もしくは,全くない。経済的リテラシーの欠如が問題であり,統計が国内議論の最重要項目となる場合には,技術的議論は政治課題へと移行する。こうして,データの質の問題は二重に曖昧にされるのである。

モルテン・イェルウェン 渡辺景子(訳) (2015). 統計はウソをつく:アフリカ開発統計に隠された真実と現実 青土社 pp.38-39

パターン,集計データ

一般的に,企業が個人のデータを所有しても,ビジネス上のメリットはない。たとえば,ボブが火曜日の二時半にどこにいたかがわかっても,生産性については何もわからない。企業がもっと注目すべきなのは,「チームや部署はどのように協調しているのか」「人々の満足度や生産性を高める行動や対話とはどういうものなのか」というような,全般的なパターンや集計データなのである。データの集計は,プライバシーを保護する唯一の方法でもある。

ベン・ウェイバー 千葉敏生(訳) (2014). 職場の人間科学:ビッグデータで考える「理想の働き方」 早川書房 pp.45

新しいデータ,新しい観測手法

新しいデータは人間の世界観を根底からくつがえす力を持っている。私たちは一定のレンズを通して世界を見ると,必ずその尺度で現実をとらえる理論を築き上げてしまう。私たちの先祖は,夜空に輝く光の点を見て,光の点が複雑な球体の表面上を回っていると考えた。望遠鏡が発明されると,実際には見た目より大きな光の点があることや,その周囲を回る天体すらあることがわかった。すると,現実のモデルを見直せざるをえなくなった。
 新しい観測手法は,科学のあらゆる分野に大きな変化をもたらしてきた。たとえば,望遠鏡は天文学の研究に革命をもたらし,顕微鏡は生物学や化学の研究に革命をもたらした。しかし,社会学にはこの種の革命は起きていない。研究者たちは,いまだにペンと紙のアンケート,人間による観察,サクラを使った実験を用いて,社会の無数の現象を解明しようとしているのだ。

ベン・ウェイバー 千葉敏生(訳) (2014). 職場の人間科学:ビッグデータで考える「理想の働き方」 早川書房 pp.24

効果量

報告されている効果の大きさは,統計学者のジャコブ・コーエンが示唆した規定にしたがって,小または弱,中または中程度,大または強の3段階にわけてあらわした。小の効果は,統計的比較を利用しなければ感知できないものである。具体的な例をあげるなら,15歳と16歳の少女の平均身長の1センチ強の違いは小の効果である。中の効果は,肉眼でわかる程度に大きい。たとえば,14歳と18歳の少女の平均身長の2,3センチの違いがこれにあたる。大の効果は,当の現象の2グループ間に重なりがほとんどないときのものである。たとえば,13歳と18歳の少女の平均身長の違いがこれである。これらの効果の大きさが違うことは,13歳と18歳の少女では年齢の違いが身長の決定要因であるが,15歳と16歳の少女では身長の違いの決定要因として年齢はあまり重要ではないことを教えてくれる。容貌の小の効果対大の効果にも同じ理屈があてはまる。大の効果は,容貌が性格の印象,社会の反応,行動の重要な決定要因であることを意味し,小の効果は,容貌以外の影響が比較的大きな役割をはたしていることを意味する。

レズリー・A・ゼブロウィッツ 羽田節子・中尾ゆかり(訳) (1999). 顔を読む:顔学への招待 大修館書店 pp.21

科学の文法

ともあれ,観察という実在世界の事柄,理論(一般法則)という言語世界の事柄,この2つを結ぶ構造を科学は持っている。ばらばらと起こる現象をまとめ上げ,理論や一般法則として言語化するのは統計の役割なので,統計学は科学の文法と呼ばれる。これにより我々は一般化され言語化された理論を構築し,それを個別の事象に適用させることが出来る。

津田敏秀 (2011). 医学と仮説:原因と結果の科学を考える 岩波書店 pp.34

大戦争を防ぐべき

2つの世界大戦による死者は,130年間に起きたすべての戦争の死者の77パーセントを占めるというのは,驚くべき発見である。戦争は,べき分布によく見られる80:20の法則にさえしたがわず,80:2の法則にしたがう——死者のうち約80パーセントが,たった2パーセントの戦争で命を落としているのだ。この著しく偏った比率が教えているのは,世界が戦争による死をなくそうとするなら,まず大戦争を防ぐべきということである。

スティーブン・ピンカー 幾島幸子・塩原通緒(訳) (2015). 暴力の人類史 上巻 青土社 pp.399

戦争のプロセス

戦争がなぜべき分布になるのか,その理由は正確にはわからなくても,べき分布の特徴(スケールフリーとファットテール)が意味するのは,戦争には規模に関係のない,なんらかの根源的プロセスが存在するということである。もともとの規模の大小にかかわらず,武装した連合体はつねに少しだけ大きくなり,戦争はつねに少しだけ長くなり,損失はつねに少しだけ増大する可能性があるのだ。

スティーブン・ピンカー 幾島幸子・塩原通緒(訳) (2015). 暴力の人類史 上巻 青土社 pp.397

戦争被害はべき分布

このようにべき分布では,規模をグンと大きくしても頻度は急には下がらず,ゆるやかに減る。言いかえれば,極地が出現する確率はきわめて低いが,天文学的な低さではない。この違いは重要だ。身長6メートルの人に出会う可能性は天文学的確率であり,ないと命を賭けて言ってもいい。けれども人口2000万人の都市や,20年間連続のベストセラーが出現する可能性はきわめて小さくはあるが,それが現実になると想像することは十分できる。戦争の場合,それが何を意味するかは改めて指摘するまでもないだろう。1億人の犠牲者を出す戦争が起きる可能性はきわめてまれだし,10億人となればさらに可能性は低い。しかしこの核兵器の時代には,身の毛もよだつような想像と,べき分布の数学は同じ結論を指している——その可能性は決して天文学的に低いわけではないのだと。

スティーブン・ピンカー 幾島幸子・塩原通緒(訳) (2015). 暴力の人類史 上巻 青土社 pp.389

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS / 忍者ブログ / [PR]