忍者ブログ

I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

カルチャロミクス

 われわれはボアズのことを念頭において,科学者たちを相手に話をするときには,自分たちの取り組みを「カルチャロミクス(culturomics)」と呼ぶことにしている。
 文化(culture)に接尾辞「オーミクス(-omics)」を付けたのは,本来の生物学分野での用法(たとえば,遺伝子(gene)を研究する分野をゲノミクス(genomics)と呼ぶように,生物学では研究対象にこの接尾辞を付けて研究分野を表している)を越えて,ビッグデータを象徴するためである。
 文化はボアズの言う文化,つまり実験や実地調査によって知ることができ,その多様性が尽きることのない興味と本物の賞賛の対象になる文化のことである。
エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 234

PR

著名人とは

 それはともかく,過去二世紀の間に生まれた著名人の上位10人を第1位からあげると,アドルフ・ヒトラー,カール・マルクス,ジーグムント・フロイト,ロナルド・レーガン,ヨシフ・スターリン,ウラジミール・レーニン,ドワイト・アイゼンハワー,チャールズ・ディケンズ,ベニート・ムッソリーニ,リヒャルト・ワーグナーの順になる。
 史上最悪級の非道を働いた人物の一人に数えられるアドルフ・ヒトラーが1位の座を占めるという事実には,衝撃を受けざるをえない。それどころか,大量殺戮を指揮した人物の少なくとも3人が10位までに入っているのだ。ヒトラー,ヨシフ・スターリン,ベニート・ムッソリーニである。ヒトラーのナチス政権下では1000万人から1100万人の無辜の市民と捕虜が殺害され,ソ連の指導者スターリンが権力の座にあった時代には約2000万人の国民が殺された。イタリアがヒトラーのドイツと同名を結んでいた間,独裁者として君臨したムッソリーニは,数十万人が犠牲となったエチオピアでの集団虐殺を主導した。
エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 162-163

系統誤差

 それはともかく,先程あげた例のように,本来なら数のうちに入れてしかるべきものを無視してしまうという誤りは系統誤差の原因となり,第一種過誤と呼ばれている(見逃し,偽陰性ということもある)。この第一種過誤のために,われわれが測定する<名声>の出現頻度は,基本的には,対象としている人物への実際の言及頻度より低くなってしまう。
 系統誤差を生む過誤にはもう一つ,第二種過誤(誤検出,偽陽性)と呼ばれるものがある。第二種過誤が生まれるのは,本来は数に入れるべきでないものを数に入れてしまう場合である。「チャールズ・ディケンズ」と書かれていても,それは実際にはディケンズの長男で作家のチャールズ・ディケンズ・ジュニアのことなのかもしれない。孫のジェラルド・チャールズ・ディケンズの可能性もあるし,ひ孫のセドリック・チャールズ・ディケンズやピーター・チャールズ・ディケンズなのかもしれない。玄孫で俳優のジェラルド・チャールズ・ディケンズだってありうる。<名声>の測定では,このすべてが一族の大本に帰されてしまう。統計学者はこうした問題の危険性を承知しているが,理解の深さという点ではカリフォルニア大学バークレー校の統計学の教授,まいける・I・ジョーダンの右に出る者はいないだろう。その理由が知りたければ,グーグルに「マイケル・ジョーダン 統計学(Michael Jordan statistics)」と打ち込んで検索してみるといい。
エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 133-134

辞書と使用頻度

 それは出現頻度である。実を言うと,辞書は使用頻度の高い単語を見事にカバーしている。dynamite(ダイナマイト)など,100万語あたりの出現回数が1回を超す単語については完璧なまでに網羅している―文字どおり,すべての単語が100パーセント載っているのだ。少なくとも平均で10冊の本に1回は登場する単語なら,滞りなく辞書に登録されて定義されるはずである。


 しかし,辞書編纂者たちも出現頻度の低い単語を相手するときは苦戦する。出現頻度が100万語当たり1回より低くなると,その単語が辞書から除外される可能性は急激に高くなる。出現頻度が10億語当たり1回よりわずかに高い単語の場合,辞書が着目するのは全体の4分の1にすぎない。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 108-109


英単語とは

 われわれは現代英語で使われている単語をすべて含んだ記述的辞書を独自に作成することにした。考え方は単純だ。ある文字列が英語で書かれた現代の文の中にかなりの頻度で登場すれば,それは単語だとするのである。では,どの程度の出現頻度なら十分と見なせるのだろう?この場合の線引きには,辞書に項目として採用されている中でもっとも出現頻度が低いものの値を利用するのが自然だろう。その出現頻度を算定すると,ほぼ10億語につき1回という値が得られた。したがって,「英語の単語とは何か」の答えは次のようになる。



 英語の単語 ある特定の1グラムの文字列で,10億の1グラムからなる英文中に少なくとも1回は登場するもの。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 103-104


Ngram

 もっと正確に言えば,われわれが思いついたのは,グーグル・ブックスをもとに,英語の本に登場するすべての語や句の記録一式を作り出すことだった。こうした語と句はコンピュータ科学の分野では一風変わった「nグラム(n-gram)」という用語を使って表されることがある。単語はいずれも1グラムで,円周率を表す3.14159も1グラムになる。banana split(バナナスプリット=バナナを縦に半分に切ってアイスクリームなどを載せたデザート)は2つの単語からなるので2グラム,the United States of America(アメリカ合衆国)は5グラムである。その記録にはそれぞれの語や句について,本の中にその特定のnグラムが登場する頻度を示す数字が載っていることになる。過去5世紀にわたって年ごとの出現回数を調べるので,数字の列はかなりの長さになるはずである。これなら非常に興味深いものになるだけでなく,法的にも問題ならないように思われた。ライマーの本は他の人の書いた小説に出てくる単語を抜き出してアルファベット順に並べ替えたものだが,そんな「改訂版」を出したことを理由に彼女が告訴されたことは一度もなかった。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 94


分析データを作る時

 では,どのような「影」を作れば,このようなビッグデータの隘路を抜け出せるだろう。つまり,ビッグデータからどのような情報を集めて利用すればいいのか,ということである。そこには満たさなければならない4つの規準がある。1つ目は,元になるデータセットは多数の人々の集団としての行動や行為が生み出したものなので,それらの人々の権利を守る必用があることだ。2つ目には,取り出した情報が興味深いものでなければならないことがあげられる。3つ目は,データを管理・監視している企業の目的に反するものであってはならないことである。そして,最後の4つ目は,元のデータから実際に作り出せなければならないことだ。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 91


データセットの影

 非常に運がよければ,データセットの影を簡単に作れる場合もある。たとえば,ビッグデータでしばしば問題になるのは,取り扱いに慎重を要する個人情報が明らかになってしまうことである。それなら,それぞれの記録に付随している個人名を消してしまえば十分なはずのように思える。だが,そんな単純なケースはまれである。問題は,多くのビッグデータは情報がきわめて豊富なため,じっくり考えれば各記録の個人名など,冗長なデータにすぎない。つまり,記録自体に個人を特定するための特徴が豊富に含まれていて,それに該当しうる人物は地球上にたった一人しかありえないということになるからだ。こうしたケースでは,個人名を外してもあまり実効性はない。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 89


本の世論調査

 グーグルがデジタル化した本のデータは,本というもの全体の傾向を知るための「世論調査」のようなものだと見なすのも一つの考え方である。その調査がどれほど広範囲に及ぶかを理解するには,これまでに出版された本の総数(1億3000万冊)―総部数ではない!―が,アメリカ合衆国の選挙人名簿に登録済みの有権者数(1億3700万人)とほぼ同数になることを考えるといい。2012年のアメリカ大統領選挙の5日前に発表されたギャラップ調査の場合,調査対象になったのは投票に行く可能性の高い2700人で,総有権者数の約5万人に1人の割合である。グーグルの場合は,1億3000万冊のうちの3000万冊が含まれているから,ほぼ4冊に1冊の割合になる。「調査」,すなわちデジタル化が進むにつれて,その範囲は信じられないくらい広がっている。それはまさに,人間の文化の記録の要約,それも先例のない規模の要約なのである。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 84-85


チュパカブラ

 そうは言っても文化的概念は広まっていくので,サスカッチという単語を見つけ出すのは,いまではそれほど難しくはなくなっている。サスカッチに比べれば,Loch Ness monster(ネス湖の怪獣,いわゆるネッシー)という語句のほうが見つけにくい。200冊に1冊登場するだけなのだ。だが,謎めいた動物の呼び名を対象に,語彙の歴史的足跡をたどる追跡者としての根気がどれほどのものかを本気で検証したいと考えているなら,Chupacabra(チュパカブラ)という単語が出てくる例を探してみるといい。この吸血動物が最初に目撃されたのは1995年で,場所はプエルト・リコだった。それ以上のことはよくわかっていない。それでも,サスカッチよりチュパカブラのほうがはるかに「目にする機会が少ない」と言うことはできる。目撃するのは,1億5000万語に1回,冊数で言えば約1500冊に1回にすぎない。これは,並外れた読書家でも生涯に1回,目にするかどうかの数字である。もしかすると,これがチュパカブラとの最後の出逢いになるかもしれないから,この機会を心ゆくまで味わってほしい。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 80-81


不規則動詞の未来

 われわれは特定の不規則動詞が将来どうなるかも予想できた。われわれのリストでは現在も不規則動詞として残っているのは177のうち97だが,いまから何千年も経過したとき,長年連れ添った伴侶を捨てて若い相手に走るかのように,現行の時制変化のパターンを捨てて新方式のパターンに乗り換えている可能性がいちばん高いのはどれだろう?皮肉にも答えはwed(結婚する)で,この不規則動詞は現在残っている98の不規則動詞の中では使用頻度が一番低いのだ。もう以前から,従来の時制変化wed/wed/wedに代わるwe/wedded/weddedがいたるところで頻繁に顔を出している。だから,newly-wedを使って「新婚なんです」と言いたいなら,いまが結婚の最後のチャンスかもしれない。はるか未来のカップルが「幸せな結婚」を願っても,wed blissは望みようがなく,wedded blissで我慢するしかないだろう。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 68-69


規則化

 現代の言語学者たちはこの過程を「規則化」と呼んでいる。規則化の過程はいまなお進行中である。たとえば,繁栄するという意味がある動詞thriveを見てみよう。約90年前の『ニューヨーク・タイムズ』紙は,カジノの賑わい振りを扱った記事の見出しの中で,thriveの過去形としてアプラウトに従ったthroveを使っていた。しかし,2009年の『タイムズ』紙の科学欄の記事に付けられた「大量絶滅のあと,繁栄をとげた軟体動物も」の見出しには,throveではなくthrivedが登場している。幸運にも繁栄をとげた軟体動物とは異なり,throveはアプラウトに従う不規則動詞の大量絶滅を免れることができなかったのだ。逆戻りはありえない。ひとたび規則化されてしまった動詞が不規則化されることはほぼ皆無なのである。数少ない例外が,過去形がsneakedだがsnuckと不規則化して使われることのあるsneak(こそこそ歩き回る)だ。これと過去形がflewなのにfliedが使われることもあるfly(飛ぶ)を例にして言えば,snuckの数より,不規則動詞の仲間から飛び出してしまったfliedのほうが圧倒的に少ないのだ。


 テルモピュライの戦いで最後まで奮戦したスパルタの精兵300人さながらに,英語の強変化動詞―300の強者―は,紀元前500年ころから一族に加えられた情け容赦のない猛攻に敢然と立ち向かって撃退してきた。戦いは英語圏のすべての都市,町,村,通りを戦場にして,一日も休むことなく続いた。いま残っている300ほどの不規則動詞は,2500年もの長きにわたって戦ってきた。これらの不規則動詞は単なる例外ではなく,戦いを生き抜いた猛者たちなのである。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 61


不規則動詞の滅亡

 では,不規則動詞はどうやって生まれたのだろう?それには長い歴史がある。いまから6000年から1万2000年前にかけて,現代の研究者がインド・ヨーロッパ祖語と呼んでいる言語が広範な地域で使用されていた。英語,フランス語,スペイン語,イタリア語,ドイツ語,ギリシア語,チェコ語,ペルシア語,サンスクリット語,ウルドゥー語,ヒンディー語をはじめ,驚くほど多数の現代の言語がインド・ヨーロッパ祖語を祖先にもつ。インド・ヨーロッパ祖語には現代の研究者たちが母音交替(アプラウト)と呼んでいるシステムがある。これは,一定の規則に従って単語中の母音を変化させて意味や時制の異なる別の単語を派生させることをいう。英語では,いまでも不規則動詞の微妙な変化のパターンにこのアプラウトを見ることができる。


 一例として,sing(歌う),ring(鳴る,鳴らす)が過去形および過去分詞ではそれぞれsang,sungとrang,rungになるパターンがあげられる。もう一つの例は,stick(突き刺す,貼る)やdig(掘る)が過去形と完了形のどちらもstuckとdugに変化するパターンである。活用の規則が廃れてしまってっも,あとに言語の「化石」は遺る。不規則動詞はまさにそうした言語の化石なのである。


 巨大隕石の落下が恐竜絶滅の引き金になったとされている。では言語の世界では何が隕石の役割を果たしたのか?不規則動詞という化石だけを残して古代のアプラウトという規則を一掃したのは何だったのだろう?


 その隕石となったのは,現代英語で―edと表記される接尾辞,いわゆるデンタル・サフィックスだった。過去形を示すための接尾辞―edは,紀元前250年から紀元前500年ころにかけてスカンジナヴィアで使われていたドイツ祖語に由来する。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 59-60


38度線の生物多様性

 軍事境界線が設けられた後,両陣営は警備のためにこの境界線の植生を焼き払い,相互に大型スピーカーを設置して政治宣伝や音楽を大音響で流した。とても野生動物が生息できる環境ではなかった。


 しかし,南北軍事実務者協議で野焼きや拡声機の使用中止が合意された結果,鉄条網や地雷で守られた無人の軍事境界線では過去20年間,草原や森林が目に見えて戻り野生動物も増えてきた。


 韓国政府環境部の報告(2010年)によれば,森林は境界線の78.3%を占めるまでに回復した。森林以外にも,湿地と河川が1.2%,牧草地が19.1%,遊休農地が1.3%を占め,多様な自然は動植物にとっては天国になった。


 境界線に生息する動植物は2716種類にもおよび,狭い地域ながら東アジア有数の生物多様性の宝庫になった。67種の絶滅危惧種および保護対象種も確認されている。内訳は,哺乳類52種(韓国全体の52%),鳥類201種(51%),淡水魚類106種(12%),両性・爬虫類29種(71%),植物1597種(34%)など。今や韓国でもっとも豊かな生物多様性を誇る地域になった。



石弘之・石紀美子 (2013). 鉄条網の歴史:自然・人間・戦争を変貌させた負の大発明 洋泉社 pp. 255-256


鉄条網の実験

 これをケニア北部の乾燥地帯で実証することになった。地元民が燃料にするために木を持ち去り,家畜が植生を食い尽くした荒涼とした地域である。ここに,10メートル四方の3つの区画を用意した。


 第1の区画は,4ヵ所に杭を打っただけで何もしない。第2の区画は,この付近の代表的な植林樹種であるユーカリやニームの苗木を植えた。第3の区画は,鉄条網で囲って人と家畜が入れないようにした。そして,地元のNGOの協力で2年間観察した。第1区画は何の変化もなかった。第2区画は村人や家畜が入り込んで,あっという間に苗木が消えて元の木阿弥になった。


 ところが,鉄条網で囲っただけの第3の区画には,一面に草や木が戻ってきて緑の野に変わった。それまでこの一帯では絶滅したと信じられていた野生のオリーブの実生までが現れた。改めて,人と家畜がどれだけ自然を圧迫しているのかを思い知らされた。



石弘之・石紀美子 (2013). 鉄条網の歴史:自然・人間・戦争を変貌させた負の大発明 洋泉社 pp. 251-252


オーストラリアのウサギとキツネ

 結局,オーストラリアのアナウサギの個体数は,導入から1世紀足らずの1950年には,推定7億5000万頭にまで増加し,ヒツジ1億頭分の草を横取りして各地で作物に大きな被害を引き起こした。


 アナウサギ駆除のため,天敵のキツネがイギリスから運んで放された。しかし,すばしこいウサギよりも動きのにぶい有袋類の方を捕食するようになり,数種類の小型カンガルーが絶滅の危機に追いやられた。


 次に,ブラジルからウサギのウイルス性伝染病である粘液腫症(ミクソマトーシス)が導入された。この病気はわずか1年以内でオーストラリア全域に広がり,アナウサギの死亡率は99.8%にものぼった。


 ところが,ごく一部のウサギがこの病気の免疫を獲得し,この系統が生き残ってウサギの死亡率も7年後には25%以下に低下した。アナウサギの個体数はまたもや急速に復活し,長期間つづけられた撲滅運動も失敗に終わった。依然として牧場の敵ナンバーワンである。



石弘之・石紀美子 (2013). 鉄条網の歴史:自然・人間・戦争を変貌させた負の大発明 洋泉社 pp. 249-250


酒か逃げ出すか

 インディオと白人の混血で,インディオの人権運動の活動家エンリコ・ベラスケスと会ったときにこういわれた。


 「インディオが酒に溺れるとよく批判を浴びるが,もしあなたが500年後の世界に突然タイムスリップしたら,働き口をみつけて稼げるか,その社会に適応できるか。おかしな衣装や装飾品だとまわりからジロジロ見られるのに耐えられるか。むろんうまくできる人もいるだろうが,まったく適応できずに絶望の淵に立たされたら,あなたなら酒を選ぶか,それともこの世から逃げ出すか」



石弘之・石紀美子 (2013). 鉄条網の歴史:自然・人間・戦争を変貌させた負の大発明 洋泉社 pp. 230-231


バイソン

 草食獣のバイソンは,放牧された牛の草を奪うという理由で牧場主から目の敵にされ,さらに牧場にするために鉄条網で囲われて生息地は狭められていった。他方,入植者や鉄道建設労働者の食用にするために殺された。


 東部ではバイソンの舌が珍味として高値で取り引きされたために,殺して舌だけをとって塩漬けにして大量に送られた。政府も官製ツアーを募り,「鉄道の窓からバイソンを撃ち放題」と宣伝した。先住民の生活基盤を奪うのが目的だった。1回のツアーで1000頭以上のバイソンが殺されることもあった。


 15世紀には3000万~6000万頭は生息していたと推測されるバイソンは,1889年にはわずか542頭と絶滅寸前にまで減っていた(現在は保護策が実って野生は約3万頭,食育用などに飼育されているのが約50万頭にまで回復した)。



石弘之・石紀美子 (2013). 鉄条網の歴史:自然・人間・戦争を変貌させた負の大発明 洋泉社 pp. 215-216


対人鉄条網

 100年近くほとんど変わらなかった鉄条網は,トゲの部分が尖らせた針金からカミソリ(レザー)の刃のような鋭利なものに進化した。「レザー・ワイヤー」「対人鉄条網」とよばれ,1970年代に米国の刑務所の塀に設置されはじめたが,やがて紛争の激化とともに中東に普及していった。もっとも目立つのが,イスラエルとパレスチナとを隔てる長大な壁である。



石弘之・石紀美子 (2013). 鉄条網の歴史:自然・人間・戦争を変貌させた負の大発明 洋泉社 pp. 183


ベルリンの壁とウサギ

 西側世界が歓迎したベルリンの壁の崩壊で,最大の被害者はウサギだった。二つの壁に囲まれた無人地帯に,数千匹のウサギが棲みついた。彼らの記録映画『ベルリンのウサギたち』がドイツ・ポーランドの合作でつくられ,2010年のアカデミー賞の短編ドキュメンタリー賞にノミネートされて,すっかり有名になった。


 野生のアナウサギが入り込んできて,安全を保障された無人地帯で大増殖をとげた。壁の崩壊とともにウサギは棲みかを失ってちりぢりになった。追跡調査をしている研究者によると,現在は10の集団に分かれて各地の公園などに棲んでいるらしい。そのうちの9つまでが西側で,旧東側に棲むのは1集団だけという。ウサギもやはり西側が好きだったようだ。



石弘之・石紀美子 (2013). 鉄条網の歴史:自然・人間・戦争を変貌させた負の大発明 洋泉社 pp. 182


bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS / 忍者ブログ / [PR]