日経BPネットで紹介されているデータベース。スゴイです。
明治の「バラバラ事件」もヒット 読売新聞の記事DBを体感
読売新聞が、明治7年(1874)以来のすべての新聞記事をコンピュータで自由自在に検索し、記事そのものを読めるようにするというデータベースを作っているそうです。
まだ、全てが揃っているわけではないようですが、立花隆さんが絶賛しているほどなので、本当にすごそうです。
Googleも、世の中の全てのデータを検索できるようにするという目標を立てて、博物館などと協力してデータベース化を行っているようですが、Googleの検索と、この読売新聞のデータベースは、品質的に全く違うレベルのものだと思います。
それが記事のタイトルにもなっている「バラバラ事件」なのですが、Googleは全文検索が基本なので、本文中にある文字列であれば検索ができます。しかし、逆の言い方をすれば、本文にない文字列は検索できません。
100年以上前からの新聞記事の検索をする場合、それでは不都合なことがおきるのです。時代によって同じような内容の事件でも表現方法が変わっているからです。バラバラ事件という表現以外で、バラバラ事件が報じられていても、このデータベースでは検索できるのです。
なぜかというと、OBおよび現役の記者達が、記事を読んでタグ付けをしているからです。時代と共に表現方法が変わっても、同じ内容のものがちゃんと検索されるのです。
人間が読んで判断をするという作業が入るため、全部がそろうのは2009年頃で、しかも、全部を購入すると500万円くらいになります。
なかなか趣味で購入するレベルではないのですが、立花隆曰く「これがあればいくらでも論文が書ける」くらいのものなので、500万円は安いと思います。自分で買うのは無理だと思いますが、図書館などに設置して有料でもよいので使用したいです。