忍者ブログ

I'm Standing on the Shoulders of Giants.

読んだ本から個人的に惹かれた部分を抜き出します。心理学およびその周辺領域を中心としています。 このBlogの主な目的は,自分の勉強と,出典情報付きの情報をネット上に残すことにあります。書誌情報が示されていますので,気になった一節が見つかったら,ぜひ出典元となった書籍をお読みください。

   

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

Ngram

 もっと正確に言えば,われわれが思いついたのは,グーグル・ブックスをもとに,英語の本に登場するすべての語や句の記録一式を作り出すことだった。こうした語と句はコンピュータ科学の分野では一風変わった「nグラム(n-gram)」という用語を使って表されることがある。単語はいずれも1グラムで,円周率を表す3.14159も1グラムになる。banana split(バナナスプリット=バナナを縦に半分に切ってアイスクリームなどを載せたデザート)は2つの単語からなるので2グラム,the United States of America(アメリカ合衆国)は5グラムである。その記録にはそれぞれの語や句について,本の中にその特定のnグラムが登場する頻度を示す数字が載っていることになる。過去5世紀にわたって年ごとの出現回数を調べるので,数字の列はかなりの長さになるはずである。これなら非常に興味深いものになるだけでなく,法的にも問題ならないように思われた。ライマーの本は他の人の書いた小説に出てくる単語を抜き出してアルファベット順に並べ替えたものだが,そんな「改訂版」を出したことを理由に彼女が告訴されたことは一度もなかった。



エレツ・エイデン ジャン=バティースト・ミシェル 坂本芳久(訳) (2016). カルチャロミクス:文化をビッグデータで計測する 草思社 pp. 94


PR

bitFlyer ビットコインを始めるなら安心・安全な取引所で

Copyright ©  -- I'm Standing on the Shoulders of Giants. --  All Rights Reserved
Design by CriCri / Photo by Geralt / powered by NINJA TOOLS / 忍者ブログ / [PR]