患者言語研究事始

最初の選択

私たちのTOBYOプロジェクトは、ネット上にすでに公開されている闘病ドキュメントに着目するところからスタートした。闘病ドキュメントを集める方法としては、患者コミュニティを作り、そこで闘病記を書いてもらうというのがむしろ一般的だろうが、私たちはそうではなく、「すでにネット上に存在するドキュメント」を活かす方法はないかと考えたのである。当然、「これからコミュニティを作り、ユーザーを集め、書いてくれるのを待つ」よりも、「もう既に書かれて公開されているものを集める」ほうが確実でしかも早い。つまり最初の段階で、私たちは「コミュニティを作る」という発想を捨て去り、もっとも容易でシンプルな方法を選択したことになる。経営リソースの乏しいベンチャー企業にとって、「あれも、これも」という贅沢な選択をする余裕はない。「あれか、これか」と取捨選択を徹底し、自分たちの在り様をできるだけシンプルでスリムにしておくことが求められるのだ。

その結果として、TOBYOプロジェクトは4万件の収録サイト数達成を目前にしている。これはおよそ5万件と推定される闘病ユニバースの8割をカバーする規模であり、TOBYOは文字通りネット上の最大の闘病ドキュメント・ライブラリーに成長することができた。今後も規模の拡大を継続し、初期のミッション「ネット上のすべての闘病ドキュメントを可視化し、検索可能にする」を遂行することにかわりはないが、プロジェクトはさらに新たなミッションを帯びた新規の活動段階に来ていると考えている。それは4万サイトに蓄積された500万ページのデータを読み取り、そこに隠された意味を探索し、そこから患者の感情と一般意志を抽出し理解することである。

dimensions CUSTOMのリリース

この取り組みは、検索エンジン「TOBYO事典」を開発し、それをベースとして患者体験ソーシャル・リスニング・ツール「dimensions」を開発することによって、すでに始まっているともいえる。まず長らくテスト運用してきた「TOBYO事典」だが、近々、新バージョンへ移行する。dimensionsも従来のBASICサービスに加え、いよいよ新たに3つのサービスからなる「CUSTOM」を本格的にリリースする。

BASICサービスでは、ある特定の固有名詞(例:薬品名、治療法名など)で一人の患者体験をトラッキングする「distiller」と、拡張バーティカル検索エンジン「X-サーチ」を提供している。「distiller」はブログのような因果関係を持ったデータを、固有名詞をキイとして時系列で見ていくには便利であるが、患者体験の全体像は把握しづらい。そこで患者体験の全体像を出力する「ドキュメント・サンプラー」というサービスを開発した。これは疾患ごとに選出した「ベスト100サイト」のいわば「目次と索引」みたいなもので、表集計ワークシート1枚に、時間軸に沿って患者が体験したイベントと固有名詞をマッピングした「患者体験サマリー」(目次)、およびドキュメントに出現するすべての医療関連固有名詞を50音順に配列したリスト「患者体験インデックス」(索引)を提供するものである。

「CUSTOM」の2つ目のサービスは「ドキュメント・リサーチ」。これは500万ページのドキュメントをテキストマイニングによって分析するサービスであり、出現語の計量的分析を基礎として、医療選択のメカニズム、医療評価、満足度、副作用・後遺症、患者特有のセンチメント等の分析テーマに即し、様々な調査ニーズに応えるものである。

3つ目のサービスは「VOP」(The Voice Of The Patients)と名付けた。先の「ドキュメント・リサーチ」は様々な顧客の多様な調査ニーズにオーダーメイドで対応するものだが、こちらの方はパッケージ化した調査レポートとなる予定だ。医療関連のさまざまな製品とサービスに対する「患者の声」を集成したレポートで、とりあえず医薬品シリーズからスタートし、個別医薬品のレポートを順次リリースしていく予定だ。たとえば個々の医薬品を体験した患者の声を「ポジティブ、ニュートラル、ネガティブ」に分類することや、当該医薬品に関連する語群の結びつきの可視化、あるいは競合ブランドの患者マインド・マップなどを提供する。上図は、乳がんの患者ドキュメント100件のデータに基づき、「ハーセプチン」に関連する語群の関係を、共起関係分析と多次元尺度法で出力してみたものである。

データの量と精度が必要

以上の3つの新サービスの基礎がテキストマイニングであることは事実だが、それよりもむしろデータの量と精度のほうが重要なのである。TOBYOプロジェクトは患者ドキュメントのデータベースとしては、おそらく世界最大の規模に達していると思われる。4万サイト、500万ページという十分なデータ量が確保できているのだ。そして、一つひとつの闘病ドキュメントを人間が精査し、メタデータを付しながら整理分類しているから、資料価値の高いデータが集まっている。ネット上には、ペットの闘病記、健康食品・宗教活動等の偽装闘病記、果てはスパムサイトに至るまでさまざまなノイズが存在している。これらを一緒くたに機械集計するようなサービスでは、いくら高度なテキストマイニング技術を投入しても、結果はノイズだらけの出力しか得られない。

患者言語研究へ

さて、これらの新しい活動をする上で、私達に課せられているのは「患者言語研究」というミッションではないかと思う。冒頭触れたように、私たちはプロジェクト構想段階であえてコミュニティという発想を捨て、自分たちのリソースを「既存ドキュメント」へ集中することを選択した。この時点で、私たちは実は「患者言語研究」の方へと進路をとっていたのである。「コミュニティ」とは「交流、コミュニケーション、リレーション」などの機能を提供する場のことである。それに対し私たちが選んだ「ドキュメント」とは、何かを取り持つ機能ではなく、自然言語(言葉)で書かれたテキストであり「データ」のことである。はじめはデータを量的に集めることが最優先されたのだが、やがて量的規模が一定の段階まで達すると、次にデータを探索的に分析することが求められるようになる。この「探索的に分析する」という言葉が、今後、重要になるのだ。

今、想定している「患者言語研究」とは、患者のテキストを読解し評論することではない。むしろそれは、患者のテキストを計量的に分析してみせることであり、いわば「予断なく、データ自身によって、データを語らせる」というスタイルをイメージしている。今回、「ドキュメント・リサーチ」という新しい言葉を作ってみたが、実は、ここ2年ほど使ってきた「リスニング」という言葉にも、だんだんと違和感がつのってきている。あくまで比喩的な言い回しにしても、「リスニング」という言葉では、ドキュメントの計量分析という意味での患者言語研究を正しく表現できないような気がしている。

従来の「マーケティング・リサーチ」から脱却し、最近、使われることが増えてきた「データ・サイエンティスト」という言葉が指し示す方向で、行動経済学などの新しい知見も取り入れながら、私たち独自の患者言語研究を追求して行きたい。

三宅 啓    INITIATIVE INC.

 


患者言語研究事始” への1件のコメント

  1. 今までのこと、これからのことがよくわかるブログでした。「データ自身によって、データを語らせる」と言うフレーズがイイネ!と思いました。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>