DFC(Direct from Consumer)開発に取り組む過程で、TOBYOプロジェクトの役割というものをあらためて考え直す機会を持つことが出来たのは幸いだった。これまでプロジェクトミッションは「ネット上に存在するすべての闘病体験を可視化する」と定義してきたのだが、さらにもっと直截で具体的な表現を用いるとすれば「医療事実の蒸留器(distiller)」とでも呼べるかも知れない。
まずTOBYOは、ネット上に多数存在するスパムサイトや偽装サイトなどのノイズを除去し、自発的に公開された闘病記録を含むサイトだけを収集してきている。つまりGoogleやYahooのような汎用検索エンジンに比べると、よりクリーンな情報ソースだけを検索することが可能だ。これはバーティカル検索の強みである。
だが一口に「闘病体験を含むサイト」と言っても、闘病記録がほぼ100%を占めるようなサイトからわずか10%程度のサイトまで雑多なバリエーションがある。私たちが2万件を越えるサイトを見てわかったのは、むしろ闘病記録よりも日常雑記の方が全体として情報量は多いということだ。育児、教育、仕事、趣味、旅行、時事など、多彩な日常記録が公開されており、その中の一部分として闘病記録が収載されているのが普通である。
私たちがある時点から「闘病記」という見方をやめたのは、このようなサイトの実情のためもある。たとえば300エントリからなるブログがあるとして、そのうち30エントリだけが闘病記録であるものを、はたして「闘病ブログ」と呼んだり「闘病記」と呼んだり出来るだろうか。それはいささか無理だろう。
そうすると「ネット上のすべての闘病体験を可視化する」だけではなく、日常雑記の中から闘病記録を抽出することが必要になる。TOBYOプロジェクトはまずネット上のノイズから「闘病体験を含むサイト」を選び出しているのだが、さらにその上に、各サイトの日常雑記群の中から闘病記録だけを抽出することが必要になる。つまり二段階の精製作業が必要であり、特にエキスパート向けに情報提供する場合には、後段の闘病記録抽出の精度が重要になる。
このように考えると、TOBYOプロジェクトは闘病記録をネット上の混沌とした情報集合体から精製抽出し、消費者やエキスパートの役に立つ形で出力し提供することをめざすプロジェクトだと言うことが出来る。そしてDFCは、日常雑記の中から闘病記録あるいは医療事実のみを抽出することがその基本的な機能となる。その意味でDFCは、冒頭述べた「医療事実の蒸留器」に該当するものだと考えている。
そしてその際、闘病記録や医療事実を構成する基本要素は固有名詞群である。あるいは医療用語群である。だから、DFCは固有名詞と医療用語の形態素抽出がベースとなり、その上に組み立てられるものだと思う。私たちはTOBYOプロジェクトのかなり早い段階から、固有名詞の重要性に着目してきた。これら固有名詞は事実を可視化する鍵であり、一方では全体としての「闘病ユニバース=知識・体験・情報集合体」の傾向や性格の指標となりうるものである。
三宅 啓 INITIATIVE INC.
おぉ、”distiller”!!
これぞという言葉だと思います。