無限ループからの脱出

dimensions_Analysis

dimensionsの新コンテンツ「Analysis」

長く寒い冬が去り、ようやく春がきた。石神井公園では先週から、桜、こぶし等、様々な花々が一斉に開花している。暖かい風に吹かれながら、池を散歩するのは気持ちが良い。

さて、以前のエントリでお知らせしたように、TOBYOプロジェクトはdimensionsの新コンテンツ「Analysis」の実装に取り組んでいるが、当初計画よりもやや遅れ気味になっている。「Analysis」では、TOBYO収録4万4千件の患者ドキュメントを集計分析し、順次パブリッシュする予定だが、従来研究してきたテキストマイニングに加え、最近、新たに「機械学習」機能を導入することを考えている。

TOBYO収録データは700万ページを越え、近い将来1000万ページも視野に入れなければならなくなってきた。こうなると、症状、治療、意思決定など闘病情報と日常雑記や趣味など生活情報、あるいはノイズなどを自動分類することがますます重要になってきている。機械学習は、まずデータ・クリーニングのために必要なのだ。

そればかりではない。患者体験ドキュメントを「時間軸上に配列された医療イベントのシークエンス」というふうに捉えるとすれば、「初期症状、検査、告知、診療方針、手術、病理結果報告・・・」などキイになる医療イベントあるいは場面を特定し、自在に抽出する機能が重要になってくる。どの疾患の、どの患者の体験であれ、今日、診療ガイドラインなどによって医療の標準化が進むにつれ、どの患者体験も同じような医療イベント群を同じようなシークエンスで配列したものと見ることさえ可能である。もちろん個々の患者体験はそれぞれ異なるものの、それら全体を俯瞰してみると、通底する同じようなパターンが浮かび上がってくる。 続きを読む

ワードクラウドで患者の言葉を可視化する

ハーセプチン体験者約1000人が語っている言葉


(図をクリックすると大きく表示)
ネット上に公開された膨大な患者の言葉をわかりやすく要約する方法を、あれこれ試している。一目で見て、パッと全体の傾向がつかめるようなものがよい。その一つがワードクラウドである。

かつてWeb2.0時代に盛んに用いられた「タグクラウド」だが、その後、単にタグを表示するものから、テキストマイニングの結果を表示する「ワードクラウド」へとその役割は変わってきている。これはテキストデータをマイニングし、言葉の出現度数に応じてサイズを変えて言葉を表示しようという、まことにシンプルな発想にもとづいている。近年の有名な事例としては、オバマ大統領の就任演説をワードクラウド化し、初回就任演説と第二回就任演説の言葉を比較するものがあった。

演説にせよ闘病ドキュメントにせよ、本来、中身を把握するためにはそれらをはじめからシーケンシャルに「読む」ことが必要となる。それらを読み進めるうちに、様々な「意味」や「ニュアンス」あるいは「雰囲気」などが出現し、あるまとまったメッセージやイメージが理解されていく。このように「書かれた言葉」は「読む」という一種の生産活動によって、メッセージやイメージを生成するのである。だが、数万人の数百万ページにおよぶ数十億語を読むということになると、人の短い一生を費やしても読みきる事は困難になる。 続きを読む

TOBYOプロジェクトと「物語」

「物語というのは、その書き手が何かを語ろうとして、自分宛に書く手紙のようなものだ。書く以外の方法では、それが発見出来ないのだ。」 (「風の影」 カルロス・ルイス・サフォン, 集英社文庫)

私たちがTOBYOプロジェクトを始めた当初、どうしても避けて通れなかったのはウェブ上に公開された「闘病記」というものをどう見るべきかを徹底的に考え抜くことであった。その際、私たちが選んだのは、いわゆる「物語」や「作品」という視点からではなく、あくまでも「事実」や「データ」という視点からネット上に大量に公開された患者ドキュメントを見ることであった。

「物語」や「作品」という視点からあえて離れることによって、固有名詞で特定される具体的事実と数量化が可能なデータを可視化するというアイデアが生まれた。そのアイデアから、まず最初に「TOBYO事典」という自前のバーティカル検索エンジンが開発され、次に固有名詞をジャンル別に時系列で抽出・集計する「dimensions」が開発された。そしてその延長上に「がん闘病CHART」「V-search」とそれらの「TOBYO_API」が作られていった。

こう見てくると、やはり最初の方向付けというものが決定的に重要であったと言わなければならないし、今後もその方向付けを繰り返し確認し、さらに一層豊富化し精緻化していくことが必要だと思える。もしも、私たちがウェブ上の患者ドキュメント群を「物語」や「作品」という視点でだけ見ていたとしたら、その後、私たちのプロジェクトはどこへも行きようがなかったに違いない。 続きを読む