「ノイズとクラゲ」を除外するバーティカル検索エンジン

etizen2

TOBYOプロジェクトは「ネット上のすべての闘病体験を可視化し検索可能にする」ことをめざしている。徐々に可視化作業は進んでおり、すでに約800疾患、1万8千件の闘病体験ドキュメントを整理分類し、近々、そのうち1万4千件が検索可能になる予定だ。ネット上の闘病ドキュメントはおよそ3万件程度存在すると推定しているが、これは毎年約4千件から5千件づつ増加していると見ている。

ネット上の闘病ドキュメントのほとんどは、主に個人サイトとブログを通じて配信されているが、最近、Twitter、YouTuve、Googleブックスなどで配信されるケースも増えてきている。今後、TOBYOはこれらの情報も収録していく予定だ。そこでとりあえず、Googleブックスの闘病記について収録を開始した。Googleブックスの闘病関係書籍は約6百数十点登録されているが、そのうち本文をプレビューできるのは110点ほどである。そのほとんどは自費出版本であり、メジャー出版社から出されている書籍のほとんどはプレビュー不可となっている。これは著作権をめぐる出版元とGoogleの調整がまだ決着していないためだが、長い目で見れば、いずれリアル本の闘病記のほとんどをネットで閲覧できるようになるだろう。Googleブックスの収録状況を見ていると、書籍のみならず、雑誌に掲載された闘病体験記事などもスキャンしているようだ。

さて、このように闘病者側の体験情報は整理分類が進んでいくのだが、問題は医療(医学)情報である。TOBYOプロジェクトは闘病体験を通じて医療を見ていこうとしているのだが、やはり一方では疾患概要や治療法に関わる信頼性のある医療(医学)情報というものが一般の消費者にわかりやすく提供されなければならない。TOBYOプロジェクトを進めるうちに、だんだんそんな思いも強くなってきたのである。

というのは、これまでも再三指摘してきたが、ネット上に医療に関するノイズや素性のはっきりしない情報が氾濫しているからだ。偽装闘病サイト、あるいは「テンプレサイト」と呼ばれるらしいが運営主体もはっきりしない「医療関連サイト」などが、エチゼンクラゲのように大量発生しており、日本語ウェブ上で素性の明確な医療情報を探し出すことが難しくなってきている。

これらノイズやクラゲの発生原因は、日本語ウェブにおける医療(医学)情報が質量ともに非常に貧弱であることにある。米国におけるWebMDやRevolutionHealthのような、わかりやすい医療情報コンテンツを満載した巨大医療ポータルが日本には存在しない。また、メイヨークリニックの消費者向け大規模医療情報サイトのようなものも日本には皆無だ。日本の医療機関、研究機関、学界などから出される医療情報は、営業情報に偏っていたり、更新頻度が少なく鮮度が悪かったり、過度に専門的で消費者向けではなかったりするのだが、とにかく量的不足感は否めない。そこに、ノイズやクラゲが発生する余地があるのだろう。

これらを解消するためには巨大医療ポータルの出現や、医療界からの積極的な情報配信を期待するしかないが、とりあえずノイズやクラゲを除外して検索できるバーティカル検索エンジンが必要になっている。これは本来、TOBYOプロジェクトの範疇ではないとも言えるのだが、今後の課題として取り組みたい。開発しているTOBYO事典のバーティカル検索エンジンを使い、これを医療情報に最適化するようなイメージを描いている。

三宅 啓  INITIATIVE INC.


「ノイズとクラゲ」を除外するバーティカル検索エンジン” への1件のコメント

  1. ピンバック: Twitter Trackbacks for " » 「ノイズとクラゲ」を除外するバーティカル検索エンジン" by TOBYO開発ブログ [tobyo.jp] on Topsy.com

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>