ことばの宇宙

UNIVERSE

前回エントリ「患者による医療評価のイノベーション」に、たくさんのアクセスをいただき驚いている。この分野、つまりウェブ上の患者ドキュメント分析の分野に、予想以上の人々が関心を抱いていることを認識させられた。

ことばの宇宙

これまで私たちは、ウェブ上に自然発生的に生成された闘病ドキュメント・サイト群によるネットワークを「闘病ユニバース」(闘病の宇宙)と呼んできた。このブログでもいろいろな角度から、この自生的なゆるいネットワークを分析してきたのだが、この「闘病の宇宙」が何によって出来上がっているかというと、それは「ことば」によってである。だから「闘病の宇宙」とは「ことばの宇宙」なのである。

現在、闘病ユニバースの広がりはおよそ5万サイトと推定される。そのうち4万サイトをTOBYOでは可視化しているが、この可視化領域に存在することばの総量はおよそ30億ワードである。この30億ワードから、どのように価値のある知識・情報を抽出するかを、私たちはTOBYOプロジェクトの初期段階から考えてきた。その第一段階では、私たちは、この「ことばの宇宙」を名詞とくに固有名詞の集合体と見ていたと思う。病名、病院名、薬剤名、治療法名、医療機器名など、医療分野の名詞・固有名詞に着目し、それらを闘病ユニバースからいかに効率的に抽出するか。これを最初に目指したのである。

続きを読む