リキャプチャでは,2つの単語を入力させる。1つめは従来のキャプチャと同じで,本当に人間が利用しているかどいうかを確かめるための単語だが,2つめの文字列にちょっとした細工が仕掛けてある。この単語,コンピュータによる文書読み取り(OCR)業務でうまく読み取れなかった文字列なのだ。OCRでは,原稿の文字にかすれがあったり,滲んでいたりすると,読み取りミスが発生する。コンピュータでお手上げだった単語を拾ってきて,リキャプチャで人間に読み取り作業をさせれば,正しい読み取りが可能なうえに,人間かどうかの認証もできるとあって一石二鳥。おまけに作業報酬もタダと来ている。
その価値は計り知れない。実際に入力作業に人を雇えばとてつもないコストがかかる。仮に1回当たり10秒働いてもらったとして,1日に2億件だから,1日の延べ労働時間は55万時間にもなる。米国の2012年の最低賃金は時給7.25ドル。つまりOCRで読めなかった語句の解読作業を業務として発注すれば,1日約350万ドル(3億5000万円),年間10億ドル(1000億円)をゆうに超える計算だ。それがフォン・アーンの手にかかれば,無償で人々に仕事をさせていることになる。グーグルは,このリキャプチャをウェブサイト向けに無料で提供しており,すでにフェイスブックやツイッター,クレイグズリストなど,20万ものサイトが採用している。
∨・M=ショーンベルガー&K.クキエ 斎藤栄一郎(訳) (2013). ビッグデータの正体:情報の産業革命が世界のすべてを変える 講談社 pp.152-153
PR