設問の再生: Patient Document Research

福島のスキーリゾート「アルツ磐梯」に来ている。今日から開催されたHealth2.0福島に参加するためだ。夫婦同伴で来たが、当方はイベントを、妻はスキーを楽しもうという趣向である。幸い好天に恵まれ、紺碧の空のもと、素晴らしい眺望を楽しんでいる。ところで昨日から風邪で熱がある。ここのところ1ヶ月ばかり、休みなしで仕事を続けてきた疲れが出たのか。

さて、前回のエントリでも触れたように、いよいよネット上の患者ドキュメントの自然言語解析に本格的に取り組むことになった。最近、次世代エネルギー資源として、海底のメタンハイドレードが注目されているわけだが、ニュース解説などで「従来から、有望なエネルギー資源であると衆目の一致するところだったが、どうガスを抽出し、どう実用化するかが難問であった」と言われている。やっと五年くらいで実用化する目処がついたようだが、最近このニュースを目にするたびに、「あぁ、これはネット上の患者ドキュメントとまったく同じだなぁ」と思うのである。

ネット上に公開された患者ドキュメントは、TOBYOが可視化したものだけでも、4万サイト、500万ページ、30億ワードという分量に達している。繰り返すが、このように大量の医療体験が公開されたのは、史上始まって以来のことである。また、このデータが医療業界、行政、マーケティング、研究などさまざまの分野で非常に価値があることは、誰も異論を挟む者はいないだろう。しかし、メタンハイドレードと同じように、このデータからどう有用な情報を取り出して、どう実用化するか、という点が難問なのであった。

ここ数年、TOBYO本体のローンチ、バーティカル検索エンジン「TOBYO事典」の開発、さらにdimensionsの開発と少しづつ、その「難問」を乗り越える試行を続けてきた。それでも、まだまだ充分ではないとの思いが常によぎってきており、少し違うアプローチとして「がん患者クチコミ検索エンジン=CHART」、「疾患別バーティカル検索エンジン=Vsearch」まで作ってみたのである。システムやツールを開発しながら、アイデアを少しづつ、このブログで実験的に書きだしたりもしてきた。立ち止まって振り返ってみると、結局、私たちは「ネット上の患者ドキュメント・データから有用な情報を抽き出し、どう実用化するか」という一点だけに、ずっと取り組んできたと言えるだろう。この一点をめぐり試行錯誤を繰り返してきたわけだが、ようやく一つの焦点へ向け収斂しつつあると、最近、手応えを感じはじめている。

整理してみると、私達が試行錯誤を経て到達した方法は、「ネット上に公開された患者ドキュメントを、『仮想アンケート調査票』に対する回答群とみなす」ということになる。従来のように、新たに調査票を設計し、被験者をリクルートし、質問し、集計分析するのではなく、「すでにネット上にある『回答』に着目し、その『質問』をあとで再生する」みたいな発想の逆転が、ネット時代のリサーチに求められていると当方は考えている。また、このような方法論でアプローチしなければ、ネット上に公開された、膨大な量の患者ー消費者のドキュメントを、実際に活用することはできないとも考えている。

ネット上に公開された患者ドキュメントは、構造化されておらず、いわば「全問が自由回答」であるようなデータである。だからまず求められるのは、いかにこれら非構造化データを構造化するかということなのだ。構造化しないままで利用するとすれば、「闘病記」を最初の1ページから全部読むことになるだろうが、500万ページ全部を読むとなると、それで人の一生は終わってしまうだろう。

逆にキイワードの出現を、単に時系列にトレンド・グラフ化したものは、確かにデータを視覚的に構造化するものではあるが、そこから多様な意味をくみとる余地はあまりない。データが語る豊富な意味を切り捨てている。このように考えてみると。これまでの「ブログ・リサーチ」や「見える化技術」などが、実はあまり有用なアプローチではなかったのではないか、と考えざるを得ない。新しいアプローチが必要なのだ。

その際、有望な利用技術としてテキストマイニングがあるのは事実だが、しかし、それでもなお不透明感はぬぐえなかったのである。もちろん技術が重要なのは間違いないが、同時に必要なのは作業仮説、あるいはフレームワークであることがわかってきた。ネット上に公開されている患者ドキュメントの意味をどのように考え、どう見て、どうハンドリングして構造化するか、という実践的なフレームワークが必要なのだ。

また、本来、これらネット上に公開された患者ドキュメント・データに対する公正な向き合い方は、「探索的に分析する」という態度であると思われる。性急な結論を出さず、少しづつ「事実」のほうへ向けて探索の歩を進める。その過程で「インサイト」を得ることができるはずなのだ。だが、どうやら世間では、この「探索的探求」が悠長に見えるらしい。これは困ったことだが、実際の調査ニーズがそうである以上、それに対応するしか選択の余地はない。

以上のような問題を、わかりやすく、シンプルに、解決するためのフレームワークが必要なのだ。まずその基本は、「リスニングの計量化」である。順次的に「物語を読む」のではなく、「語られているコト」を数量化し、集計し、「スパース(疎)なデータ」を数値へ圧縮する。そして、意外に聞こえるかもしれないが、それに基づく「従来アンケート調査」形式の出力が、当方が考えている新しいアプローチである。つまり、与えられた「自由回答」群を、一定のテーマのもとに整理再編し、そこから仮想的に「存在したはずの設問」を再生することになる。先行してすでに公開されている「回答」に対応する「設問」を再生することによって、データの構造化をはかることができると考えている。

来月からリリースするPatient Document Research(PDR)は、以上のような発想に基づき、「再生設問-回答」というフレームで、出力形式はいわば従来アンケート調査形式で、わかりやすく患者ドキュメント・データを集計出力するものである。たとえば「あなたは、以下の抗癌剤を体験して、どのように思われましたか」という「再生設問」のもとに置かれた「再生回答肢」ごとに集計された患者体験データ群が、あたかも従来アンケート調査の数表のような形式で出力されることを考えている。かなり概念的な話になったが、いずれ実例をご覧いただければと考えている。

三宅 啓   INITIATIVE INC.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>