全世界の本3000万冊を分析してわかったこと 文化をビッグデータで計測することは可能か

著者フォロー
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

何の役に立つのかわからないがとにかくおもしろい例としては、be/was,do/did,know/knewなどの不規則動詞が英語の動詞の使用頻度上位10位までを独占し、それ以外の数百語も軒並み使用頻度が高いことへの仮説──「目にしたり聞いたりする機会が少なくなればなるほど不規則動詞を覚えるのが難しく、忘れてしまうから使用頻度の低い不規則動詞は規則化されてしまう」を検証してみせたりもする。これによってある不規則動詞の使用頻度がわかれば、専用の式を使うことでその不規則動詞がいつ頃規則動詞へと変貌を遂げるのかもある程度予測できるようになる。

もっとなんかできることないの?

上の画像をクリックするとアマゾンのサイトにジャンプします

そういう「結果」はどれも新しくておもしろいし、文化的な変化を定量的に測るという意味で意義は大きいのだが、もうちょっとなんかできることないの? と思ってしまうのも事実。もっとなんかこう、具体的には金を儲けたり不規則動詞じゃない未来予測とかはできないのか? といえば、まだ始まったばかりの分野なだけにさまざまな形で実験中というところだろう。

たとえば、高安美佐子氏による本書解説に詳しいが、ツイッター上でタイムスタンプ付で誤情報が広まっていく過程などをモデル化し分析やシュミレーションを重ねることでどうすればいち早く誤情報の修正ができるのかなどを検証する研究も行われている。先程話題に出した検閲の例に関連したものでいうと、不自然に特定の語や言葉がメディアに登場しなくなる状況を検出することで、社会的に抑圧されている人物を割り出すことが可能になるなど活躍予定の場は広い。

小説では代名詞の統計的分析や、単語の使用頻度から行われる作家分析など、これまであまり交流のなかった科学と人文科学分野が実質混ざり合いつつあり、応用の幅は実質的にいくらでもある。今、もっとも熱い──は言い過ぎかもしれないが、かなり今後の展開がおもしろい分野であることは間違いない。それも、「どこかの誰かが研究に役立てている」だけではなく、そのうちTwitterやFacebookなどさまざまな場所に設置され、誰でも手に入れることのできる「文化用の虫眼鏡」のような、一般的な立ち位置を獲得していくかもしれない。

ちなみに、本書で検証に使われているツールであるN・グラムは現在無償提供されていて(→Ngram Viewer)誰でもアクセスして使うことができる。僕も本書を読んだら即座にやってみたくなり、いろいろな単語を複数入れ、出てきたグラフを見てはキャッキャと次の単語を入れとしばらく遊んでしまった。真っ先に入れた単語はエロ系の単語だったが、これは時代によって性欲が減衰したり増大したりするのか(それが言葉によって推測できるのか)という学術的な好奇心に基づくものであったことは断りを入れておきたい。

冬木 糸一 HONZ

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

1989年生。フィクション、ノンフィクション何でもありのブログ「基本読書」運営中。 根っからのSF好きで雑誌のSFマガジンとSFマガジンcakes版」でreviewを書いています。

 

この著者の記事一覧はこちら
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

関連記事
トピックボードAD
ライフの人気記事