[PR] 本ブログの商品紹介リンクには広告が含まれています
先日、とある研究のお手伝いで、雑誌記事のテキストから単語を抜き出す作業をしました。
単語は記事単位にまとめて機械で統計処理していたのですが、統計処理の結果、どうやら同じテキストが重複して現れているような偏りがある、という問題が見えてきました。
テキストが重複していそうなファイルを探し出すために、研究者の方が全部の調査対象記事のキーワードベクトルのコサイン類似度を計算してくれました(このサイトの
関連記事の抜き出しと同じ手法ですね)。
そうやって、機械が「似ている」と判断した記事テキストを、ひとつずつ目視でチェックしました。
似ている記事リストの上の方には、校正中のバージョン違いの同じ記事とか、どの号でも同じ内容が並んでいる奥付のページなどが並んでいたのですが、そういうのを排除したあとに興味深いファイルの群れ、それもかなり大量のファイルが残りました。
どれも人間が目で見る限りはまったく違うことが書いてあるように見えるのです。でも機械は、中で使われている特徴的な単語がとても類似している、と判断していたそのファイルとは……
それは、星占い。
とっても有名な西洋占星術研究家が毎月連載しているもので、2ページ見開きぐらいに誕生日の星座ごとに今月の運勢とかラッキーアイテムとかが書いてある、まあ、よくある大きめの占いコーナーなのですが、違う月の占いが機械から見るととても類似した単語の羅列に見えるんですね。
占いって、特に古代では、狩りに行く場所や植える農作物の種類なんかを乱数で散らして、いつも同じ資源を消費することを避けさせるという重要な役割を持っていたと思うのですが、考えてみれば「今日のコーディネートを決めてあげる占い」だって、みんなが同じ格好をしてしまって埋没しないよう、それぞれがアテンションを獲得できるようにしていると考えれば、今日でもアテンションエコノミー時代でも資源の消費を分散させる役割を果たしていると言えます。
よく当たる、という評判の占星術の秘密は、ボキャブラリーを限定して、限られた特徴的な単語を上手に分散させてちりばめてあげるところにあるのかもしれません。
山中 正さんのコメント:
アテンションエコノミー時代ってまさに今そういうWeb2.0的(すでに死語か?)な時代に突入したんだって思ってたんですが...
うーん、樋口さんにかかると石器時代と同義語として使われてるんだ。
このブログ、もっともっと私自身のアテンションを張らなければなりませぬ(笑)