無限ループからの脱出

dimensions_Analysis

dimensionsの新コンテンツ「Analysis」

長く寒い冬が去り、ようやく春がきた。石神井公園では先週から、桜、こぶし等、様々な花々が一斉に開花している。暖かい風に吹かれながら、池を散歩するのは気持ちが良い。

さて、以前のエントリでお知らせしたように、TOBYOプロジェクトはdimensionsの新コンテンツ「Analysis」の実装に取り組んでいるが、当初計画よりもやや遅れ気味になっている。「Analysis」では、TOBYO収録4万4千件の患者ドキュメントを集計分析し、順次パブリッシュする予定だが、従来研究してきたテキストマイニングに加え、最近、新たに「機械学習」機能を導入することを考えている。

TOBYO収録データは700万ページを越え、近い将来1000万ページも視野に入れなければならなくなってきた。こうなると、症状、治療、意思決定など闘病情報と日常雑記や趣味など生活情報、あるいはノイズなどを自動分類することがますます重要になってきている。機械学習は、まずデータ・クリーニングのために必要なのだ。

そればかりではない。患者体験ドキュメントを「時間軸上に配列された医療イベントのシークエンス」というふうに捉えるとすれば、「初期症状、検査、告知、診療方針、手術、病理結果報告・・・」などキイになる医療イベントあるいは場面を特定し、自在に抽出する機能が重要になってくる。どの疾患の、どの患者の体験であれ、今日、診療ガイドラインなどによって医療の標準化が進むにつれ、どの患者体験も同じような医療イベント群を同じようなシークエンスで配列したものと見ることさえ可能である。もちろん個々の患者体験はそれぞれ異なるものの、それら全体を俯瞰してみると、通底する同じようなパターンが浮かび上がってくる。 続きを読む

今年のTOBYOプロジェクト

患者のコト、もっと知りたい。

ずいぶんブログを放置している間に、年が変わり、季節の歯車は回転し、気がつけば一年で最も寒い時期となった。昨年末は身辺にいろいろあったが、先日、母の49日法要を無事終え、ひとまづ一段落ついたような気がしている。ブログは停止していても、その間、TOBYOプロジェクトは進行していたわけだが、ブログのブランク開けに、まずそのあたりからご報告したい。

TOBYO収録の患者ブログは、現在、4万3千件、720万ページに達している。プロジェクトを立ち上げた頃には、想像もしていなかった規模になりつつあるが、闘病ユニバースは今後ますます拡大していくと思われる。ここ二三年、ソーシャルメディア、とりわけTwitterとFacebookに注目が集まったわけだが、一方ではブログの健闘が目立つ。特に闘病体験の記録となると、引き続きブログが一番多く利用されている。それはブログがデータをストックするメディアであるからではないか。対してTwitterやFacebookはフロー型のメディアであり、タイムライン上をニュースが文字通りフローして消失してしまう。記録メディアとしては使いにくいのだろう。 続きを読む

PDR:患者ディスクールの分析視点

PDR

「最近ある医薬品業界のマーケティング担当者が、次のように指摘した。あらゆる患者の経験が、今やデータの川となって流れ出しているが、これを賢く蓄積すれば、患者の健康状態に関する詳細なポートレートを描き出すことができ、さらに他の患者のデータの川と合流させることにより、疾患の全体像と患者集団全体に関する知識の深い貯水池としてまとめあげることができる。」(「ビジョンから決断へ ファーマ2020」, PwCジャパン)

花も終わり、ひところに比べると、新宿御苑を訪れる人並みも落ち着いてきた。今日の昼、御苑を歩いていると何組かの幼稚園児が遠足に来ていたが、あちこちに設営され始めたテントが目をひいた。毎年恒例のことだが、首相主催の観桜会が週末に開催されるらしい。

4月も半ば過ぎとなったが、今月はずっとテキストマイニング運用準備に取り組んできた。主にデータベースや形態素解析エンジンのチューニングをやったわけだが、結果として解析プロセスに要する時間は、従来の半分以下に短縮することができた。これで、闘病ブログ4万サイト、500万ページ、30億ワードのドキュメント・データすべてを、テキストマイニング処理する準備が整った。

これからリリースするサービスは、PDR(Patient Document Research)とPDS(Patient Document Sampler)の二つだが、一応、今の時点では、患者リスニングツール「dimensions」のカスタム・サービスという位置づけを想定している。特にPDRだが、dimensionsが固有名詞と名詞を抽出・集計し、個々の患者体験に出現する薬品名や検査・治療法名などをトラッキングするツールであるのに対し、新たに形容詞・形容動詞と動詞・サ変名詞を抽出することになる。

続きを読む