患者コーパスとドキュメント・リサーチ

このところ厳しい寒さが続いていたが、今日は春を思わせる暖かい一日であった。新宿御苑の梅も開花し始めた。明日から三月である。

患者コーパス

昨日、TOBYO収録サイト数は4万件に到達した。TOBYOは闘病ユニバースの成長と歩調を合わせて成長してきている。貴重な体験ドキュメントを公開してくれた、すべての闘病者の方々に感謝の気持ちでいっぱいである。このように多数の闘病体験が、まとまったドキュメントとして公開されているのはおそらく日本語ウェブ圏だけだろう。

TOBYOは4万サイト、500万ページの闘病ドキュメント・データベースであるが、前回エントリでも述べたように、今後は蓄積された大量のデータからいかに「患者の声にもとづく医療評価」を切り出すかが新たなテーマとなってくる。そのための新たなミッションを「患者言語研究」と呼んでみた。もちろん、従来から私たちがテーマとしていた「患者が体験した事実の可視化」は引き続き追求しなければならないが、患者が医療を語る場合に、どのような言葉を使用しているかを広くリサーチしなければならないと考えている。つまりTOBYOは闘病体験ドキュメント・データベースであると同時に、「患者コーパス」という側面も併せ持っていることを、最近、強く意識し始めている。(注:コーパス(corpus:Wikipedia)

テキストマイニングによるデータ処理

おそらく闘病者自身が綴ったテキストが、これほど大量に公開されているという事態は、歴史上初めてのことであるだろう。最初、私たちはこれらのテキストから患者が体験した事実を抽出するために固有名詞に着目した。dimensionsは「薬品、治療法、検査・機器、医療機関」の四ジャンルで、闘病ドキュメントに出現する固有名詞を分類し、時系列でトラッキングすることをめざして作られている。だが、次第に固有名詞だけではなく、患者のセンチメントを表出する形容詞、形容動詞、副詞などが重要であることに気付いたのである。

テキストマイニングの基礎は、テキストの形態素分解と品詞分類・集計であるが、固有名詞だけでなく他の品詞も柔軟にデータ処理することが可能であり、私たちのドキュメント・データ処理のレパートリーは飛躍的に豊富になった。その上で、改めてTOBYOを見てみると、それは「患者が体験した事実のデータベース」であると同時に、日本で初めての巨大な「患者コーパス」として目に映ったのである。このコーパスを利用して、たとえば医療現場における「患者-医療者」コミュニケーションを改善したり、痛みや症状についての患者の感覚表現を理解したりする際に活用できるだろう。

ドキュメント・リサーチへ

これら「患者言語研究」は、常に実践的な出力を伴わなければならない。私たちは、イノベーションに挑戦するベンチャー企業であり、研究者ではない。その意味で、「患者言語研究」の成果を活かして、たとえばマーケティング・リサーチ分野で「ドキュメント・リサーチ」という実践的領域を開拓していきたい。これまでこのブログで少しづつそのアイデアを書いてきているが、これほど大量の闘病ドキュメントがあれば、そこから調査テーマに基づいて当該テキストを出力するだけでリサーチが行えるだろうと考えている。

すでにそこにある大量のドキュメントデータ

前回エントリでも触れたように、TOBYOプロジェクトは「これからユーザーを集めて、これから体験ドキュメントを書いてもらう」のではなく、「すでにネット上に存在するドキュメントを集める」という方法を選んだ。同様にリサーチにおいても、「これから被験者を集め、これから調査票を配って記入してもらい、集計分析する」のではなく、「すでにある大量のドキュメントを集計分類する」だけで済むのではないかと、私たちは考えているのだ。つまり、「被験者を集め無理に答えさせる、無理に情報生成させる」というレガシー・リサーチの発想ではなく、「患者が自発的に書いたドキュメントがこんなに大量にあるなら、まずそれらを分析すべきだ」という発想に立脚したいのである。

これまでのマーケティング・リサーチを考えてみると、分析するためのデータを一から新たに生成するということが自明視され、そこから抜けられなかったのではないだろうか。そのために時間も費用もかかった。これは、ネットを利用した様々な調査手法においてもいえることだ。だが、たとえば闘病者は自分たちの体験ドキュメントをすでに500万ページも書いており、データはすでに生成され、公開されているのである。しかし、これまでこの大量のデータから効率的に必要な情報を抜き出すツールがなかっただけなのだ。

ところで、二年前に出たあるマーケティング・リサーチの本には「AskingからListeningへ」と銘打った帯が付いていた。このフレーズにはいたく感動したものだが、実はこれはこの本の著者自身の言葉ではなかったらしい。後日、ある場所で著者が「Askを否定しているわけではない」と述べるのを聞いたことがある。しかし、ウェブ上にはすでに、「Ask」されて無理に答えさせられた「声」ではなく、自分の意志によって、自分の考えや感情を自発的に書いた膨大な量のテキストが存在している。特に闘病ユニバースのドキュメントは、「闘病」という関与度の高いテーマを扱っているためか、テキストのクォリティは非常に高い。「Ask」するまでもなく、すでに大量の自発的に生成されたドキュメントが存在するのだ。「ドキュメント・リサーチ」がまさに活きる分野なのである。

三宅 啓  INITIATIVE INC.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>