PDR:患者ディスクールの分析視点

PDR

「最近ある医薬品業界のマーケティング担当者が、次のように指摘した。あらゆる患者の経験が、今やデータの川となって流れ出しているが、これを賢く蓄積すれば、患者の健康状態に関する詳細なポートレートを描き出すことができ、さらに他の患者のデータの川と合流させることにより、疾患の全体像と患者集団全体に関する知識の深い貯水池としてまとめあげることができる。」(「ビジョンから決断へ ファーマ2020」, PwCジャパン)

花も終わり、ひところに比べると、新宿御苑を訪れる人並みも落ち着いてきた。今日の昼、御苑を歩いていると何組かの幼稚園児が遠足に来ていたが、あちこちに設営され始めたテントが目をひいた。毎年恒例のことだが、首相主催の観桜会が週末に開催されるらしい。

4月も半ば過ぎとなったが、今月はずっとテキストマイニング運用準備に取り組んできた。主にデータベースや形態素解析エンジンのチューニングをやったわけだが、結果として解析プロセスに要する時間は、従来の半分以下に短縮することができた。これで、闘病ブログ4万サイト、500万ページ、30億ワードのドキュメント・データすべてを、テキストマイニング処理する準備が整った。

これからリリースするサービスは、PDR(Patient Document Research)とPDS(Patient Document Sampler)の二つだが、一応、今の時点では、患者リスニングツール「dimensions」のカスタム・サービスという位置づけを想定している。特にPDRだが、dimensionsが固有名詞と名詞を抽出・集計し、個々の患者体験に出現する薬品名や検査・治療法名などをトラッキングするツールであるのに対し、新たに形容詞・形容動詞と動詞・サ変名詞を抽出することになる。

続きを読む

設問の再生: Patient Document Research

福島のスキーリゾート「アルツ磐梯」に来ている。今日から開催されたHealth2.0福島に参加するためだ。夫婦同伴で来たが、当方はイベントを、妻はスキーを楽しもうという趣向である。幸い好天に恵まれ、紺碧の空のもと、素晴らしい眺望を楽しんでいる。ところで昨日から風邪で熱がある。ここのところ1ヶ月ばかり、休みなしで仕事を続けてきた疲れが出たのか。

さて、前回のエントリでも触れたように、いよいよネット上の患者ドキュメントの自然言語解析に本格的に取り組むことになった。最近、次世代エネルギー資源として、海底のメタンハイドレードが注目されているわけだが、ニュース解説などで「従来から、有望なエネルギー資源であると衆目の一致するところだったが、どうガスを抽出し、どう実用化するかが難問であった」と言われている。やっと五年くらいで実用化する目処がついたようだが、最近このニュースを目にするたびに、「あぁ、これはネット上の患者ドキュメントとまったく同じだなぁ」と思うのである。

ネット上に公開された患者ドキュメントは、TOBYOが可視化したものだけでも、4万サイト、500万ページ、30億ワードという分量に達している。繰り返すが、このように大量の医療体験が公開されたのは、史上始まって以来のことである。また、このデータが医療業界、行政、マーケティング、研究などさまざまの分野で非常に価値があることは、誰も異論を挟む者はいないだろう。しかし、メタンハイドレードと同じように、このデータからどう有用な情報を取り出して、どう実用化するか、という点が難問なのであった。 続きを読む

患者コーパスとドキュメント・リサーチ

このところ厳しい寒さが続いていたが、今日は春を思わせる暖かい一日であった。新宿御苑の梅も開花し始めた。明日から三月である。

患者コーパス

昨日、TOBYO収録サイト数は4万件に到達した。TOBYOは闘病ユニバースの成長と歩調を合わせて成長してきている。貴重な体験ドキュメントを公開してくれた、すべての闘病者の方々に感謝の気持ちでいっぱいである。このように多数の闘病体験が、まとまったドキュメントとして公開されているのはおそらく日本語ウェブ圏だけだろう。

TOBYOは4万サイト、500万ページの闘病ドキュメント・データベースであるが、前回エントリでも述べたように、今後は蓄積された大量のデータからいかに「患者の声にもとづく医療評価」を切り出すかが新たなテーマとなってくる。そのための新たなミッションを「患者言語研究」と呼んでみた。もちろん、従来から私たちがテーマとしていた「患者が体験した事実の可視化」は引き続き追求しなければならないが、患者が医療を語る場合に、どのような言葉を使用しているかを広くリサーチしなければならないと考えている。つまりTOBYOは闘病体験ドキュメント・データベースであると同時に、「患者コーパス」という側面も併せ持っていることを、最近、強く意識し始めている。(注:コーパス(corpus:Wikipedia) 続きを読む

患者言語研究事始

最初の選択

私たちのTOBYOプロジェクトは、ネット上にすでに公開されている闘病ドキュメントに着目するところからスタートした。闘病ドキュメントを集める方法としては、患者コミュニティを作り、そこで闘病記を書いてもらうというのがむしろ一般的だろうが、私たちはそうではなく、「すでにネット上に存在するドキュメント」を活かす方法はないかと考えたのである。当然、「これからコミュニティを作り、ユーザーを集め、書いてくれるのを待つ」よりも、「もう既に書かれて公開されているものを集める」ほうが確実でしかも早い。つまり最初の段階で、私たちは「コミュニティを作る」という発想を捨て去り、もっとも容易でシンプルな方法を選択したことになる。経営リソースの乏しいベンチャー企業にとって、「あれも、これも」という贅沢な選択をする余裕はない。「あれか、これか」と取捨選択を徹底し、自分たちの在り様をできるだけシンプルでスリムにしておくことが求められるのだ。

その結果として、TOBYOプロジェクトは4万件の収録サイト数達成を目前にしている。これはおよそ5万件と推定される闘病ユニバースの8割をカバーする規模であり、TOBYOは文字通りネット上の最大の闘病ドキュメント・ライブラリーに成長することができた。今後も規模の拡大を継続し、初期のミッション「ネット上のすべての闘病ドキュメントを可視化し、検索可能にする」を遂行することにかわりはないが、プロジェクトはさらに新たなミッションを帯びた新規の活動段階に来ていると考えている。それは4万サイトに蓄積された500万ページのデータを読み取り、そこに隠された意味を探索し、そこから患者の感情と一般意志を抽出し理解することである。

続きを読む

今月から始まる新しい活動


もう二月である。早い。うかうかしてしていると、どんどん時間がたってしまうが、今月から始まる当方の新しい活動についてお知らせしたい。まず、上の写真をご覧いただいておわかりのように、今度、Yahoo Japanさんからお声をかけてもらい、「YahooNews個人」のオーサーとして、今月から記事を投稿することになった。

個人ページ「ウェブ医療レビュー」も作っていただいたが、自分の顔写真を人様にさらすのは恥ずかしいものだ。ページが出来上がってみると「好々爺」然として、今さらながら歳を自覚した次第。「温厚な爺さん」というキャラクターがにじみ出ている。とにかく当ブログ同様、今後はこっちの方ものぞきに来ていただきたい。よろしくお願いします。

「ウェブ医療レビュー」には世界の新しいウェブ医療サービスの動向を取り上げ、こっちの「TOBYO開発ブログ」はTOBYOプロジェクトや医療以外のテーマを中心に、というような分担を考えているがさてどうなるか。とりあえず「ウェブ医療レビュー」はHealth2.0の総括からスタートした。これは、ここ数年の私の仕事のベースとなったテーマだったわけだが、そろそろこの辺で「Health2.0とは何であったか?」と総括してしまい、先へ進んでいきたい。

「先へ進む」ということでは、dimensionsのカスタム出力で、テキストマイニングを実行する環境がようやく整ってきている。これまでいろいろ当方なりに思うところもあり、あえてマイニング技術を封印してきたのだが、ソーシャル・リスニングをもっと活用するためには不可欠であると判断した。今月にはその成果をご覧いただけるのではないかと思う。

またTOBYO_APIまわりでも、各方面での運用をお願いしており、今月から稼働していただく予定の案件もある。

「すべての医療情報から患者の声が聞こえるように」を実現すべく、全力を尽くす2月である。

三宅 啓  INITIATIVE INC.