無限ループからの脱出

dimensions_Analysis

dimensionsの新コンテンツ「Analysis」

長く寒い冬が去り、ようやく春がきた。石神井公園では先週から、桜、こぶし等、様々な花々が一斉に開花している。暖かい風に吹かれながら、池を散歩するのは気持ちが良い。

さて、以前のエントリでお知らせしたように、TOBYOプロジェクトはdimensionsの新コンテンツ「Analysis」の実装に取り組んでいるが、当初計画よりもやや遅れ気味になっている。「Analysis」では、TOBYO収録4万4千件の患者ドキュメントを集計分析し、順次パブリッシュする予定だが、従来研究してきたテキストマイニングに加え、最近、新たに「機械学習」機能を導入することを考えている。

TOBYO収録データは700万ページを越え、近い将来1000万ページも視野に入れなければならなくなってきた。こうなると、症状、治療、意思決定など闘病情報と日常雑記や趣味など生活情報、あるいはノイズなどを自動分類することがますます重要になってきている。機械学習は、まずデータ・クリーニングのために必要なのだ。

そればかりではない。患者体験ドキュメントを「時間軸上に配列された医療イベントのシークエンス」というふうに捉えるとすれば、「初期症状、検査、告知、診療方針、手術、病理結果報告・・・」などキイになる医療イベントあるいは場面を特定し、自在に抽出する機能が重要になってくる。どの疾患の、どの患者の体験であれ、今日、診療ガイドラインなどによって医療の標準化が進むにつれ、どの患者体験も同じような医療イベント群を同じようなシークエンスで配列したものと見ることさえ可能である。もちろん個々の患者体験はそれぞれ異なるものの、それら全体を俯瞰してみると、通底する同じようなパターンが浮かび上がってくる。 続きを読む

患者オピニオン集約、分析、社会伝達

患者のコトは、患者にきけ。

早いもので、もう二月。石神井公園では梅園の寒紅梅が盛りだ。今年はゴイサギやアオサギが多く、例年にもまして三宝寺池は鳥達でにぎやかだ。

昨年は、当ブログもYahoo!ニュース個人ニュースも、あまりエントリをポストすることができなかった。ちょうど一年前頃から開始したテキストマイニング試行に、かなりの時間を費やしたことがその主な原因であったが、家庭の事情もあった。あれやこれやで、折々の自分の考えをエントリにまとめ、公開することまで力がおよばなかったのである。今年は、できるだけ書いていこうと考えているが、さてどこまでやれるだろうか。

一昨日Yahoo!個人ニュースにポストしたエントリでは、最近話題騒然のSTAP細胞開発について書いてみたのだが、想定していた最終結論までたどりつけず、なんとも中途半端なエントリになってしまった。STAP細胞開発という破壊的イノベーションに触発されて、Health2.0やTOBYOプロジェクトの再考へと展開したかったのであるが。

STAP細胞については、ネット上で様々な賞賛があふれているが、従来の定説や常識を軽やかに飛び越えてみせたその自在で柔軟な思考のあり方に、世の多くの人が共感したということだと思う。また高度に複雑な技術によってではなく、あっけないほどシンプルな方法によって高度な成果を生み出すという、その「コロンブスの卵」的な発想が、新鮮な驚きを喚起したということもありそうだ。 続きを読む

今年のTOBYOプロジェクト

患者のコト、もっと知りたい。

ずいぶんブログを放置している間に、年が変わり、季節の歯車は回転し、気がつけば一年で最も寒い時期となった。昨年末は身辺にいろいろあったが、先日、母の49日法要を無事終え、ひとまづ一段落ついたような気がしている。ブログは停止していても、その間、TOBYOプロジェクトは進行していたわけだが、ブログのブランク開けに、まずそのあたりからご報告したい。

TOBYO収録の患者ブログは、現在、4万3千件、720万ページに達している。プロジェクトを立ち上げた頃には、想像もしていなかった規模になりつつあるが、闘病ユニバースは今後ますます拡大していくと思われる。ここ二三年、ソーシャルメディア、とりわけTwitterとFacebookに注目が集まったわけだが、一方ではブログの健闘が目立つ。特に闘病体験の記録となると、引き続きブログが一番多く利用されている。それはブログがデータをストックするメディアであるからではないか。対してTwitterやFacebookはフロー型のメディアであり、タイムライン上をニュースが文字通りフローして消失してしまう。記録メディアとしては使いにくいのだろう。 続きを読む

患者の主張を「代表的な文」で提示する

ハーセプチンの構文解析

一昨日、母が他界した。11月26日の夕刻、母は誤嚥性肺炎で発作を起こし、病院へ救急搬送され集中治療を受けた。だが、わずか一日で症状は急激に悪化し、一昨日夕刻に亡くなった。医師からは腸閉塞、回盲部腫瑠、肝転移、認知症等も指摘された。救急搬送に際して、運良く短時間で病院の救急外来診察を受けられたものの、空きベッドがなく、他院転送となり不本意な選択を強いられた。この件について言いたいことはあるが、今は触れないでおく。

以前のエントリにも書いたが、9月から当方、新宿から自宅へ仕事拠点を移した。これは母の健康状態悪化が明らかになり、自宅介護をしなければと考えたからだ。しかし、それから三ヶ月が経ち、結局、母を死なせてしまった。この間、夏の終わりから、秋の終わりへと季節は移った。今にして思うが、この三ヶ月は実に長い、そして貴重な時間だった。何か遠い遠い昔にあった出来事のような気もする。晴れの日には石神井公園の美しい景観を、車椅子に母を乗せ、一緒に見つめていた。だが、突然それらの日々は遠景へ退き、もう二度と手の届かない、遠い過去の残像へ変わってしまったのだ。

そしてこの三ヶ月、仕事では、初夏に構想を得た”Perspective for Drugs”の開発に取り組んでいた。これは、ネット上の患者ドキュメントから薬剤体験データをテキストマイニングで抽出し、「患者による薬剤評価」を薬剤アイテムごとに提供するためのサービスである。当初、巷間流布するいわゆる「テキストマイニング・サービス」というものを、さしたる疑念もなく患者ドキュメントに適用していたのだが、やればやるほど違和感というか不足感、あるいは隔靴掻痒感にとらわれた。このいわく言いがたい「何かが足りない」という感触を手がかりに、この三ヶ月、ほとんどあらゆる種類の現存するテキストマイニング手法を試してみた。何度か「よしコレで行けるぞ!」と視界が開けた感触を掴んだものの、やがてその方法の限界点が露わに見えてしまう・・・・。その繰り返しが続いた。

続きを読む

薬剤の違いを可視化する

ハーセプチン、タキソール、リュープリンの患者パーセプション(クリックすると拡大)

患者がウェブ上に公開している膨大な量の闘病体験ドキュメントをどのようにわかりやすく可視化するか。前回エントリではワードクラウドを使って、患者の言葉をグラフィカルに可視化してみた。同じワードクラウドを使って、今回は薬剤ごとに患者が述べた言葉から、それぞれの薬剤の「違い」を可視化してみよう。乳がん治療に使われるハーセプチン、タキソール、リュープリンの三剤について、まず結びつきの強い言葉を患者ドキュメントからテキストマイニングによって抽出し、三剤との関連性の強度を数値化する。そして、三剤に関する患者の言葉および関連性データからなるリストを作成し、それらの相互関係にもとづいてワードクラウドを出力する。

おおよそ、そんな手順にしたがって作成されたのが上図である。これを見れば、ハーセプチン、タキソール、リュープリンが、それを体験した患者の心のなかで、どんなふうにその「違い」をイメージされているか、患者の言葉を手がかりとして視覚的に捉えることが出来る。三剤について患者が述べた言葉を比較分析し、ハーセプチンに関して言われることが多かった特徴的な言葉を緑、タキソールの特徴的な言葉をオレンジ、リュープリンに特徴的な言葉を紫で表示した。今回抽出したのは名詞、サ変名詞、形容動詞、ナイ形容詞、副詞可能、動詞、形容詞、副詞の約300語で、患者パーセプションの大まかな傾向をつかむために、どちらかと言えばやや広範囲な抽出となった。三剤の「違い」をもっと明確にするために、今後、品詞選択を絞り込むことが必要だろう。

次に、乳がん治療薬三剤の「共通点」だが、これは患者パーセプションにおいてどのように捉えられているだろうか。次の図は、三剤に共通して患者が述べた言葉を100語抽出しワードクラウド化したものだ。これを見ると、とにかく「副作用」が患者の一番の関心事であることが一目でわかる。痛いほどわかる。主な言葉を拾ってみると「副作用。チェック。今日。言う。病院」などが目に飛び込んでくるが、それらからストーリーを想像するまでもなく、患者の三剤に共通する関心事が極めて直截に伝わってくる。

ハーセプチン、タキソール、リュープリンに対する患者の共通認識


今後、薬剤のみならず治療法、そして医療機関の比較などもワードクラウド化したい。患者パーセプションを直接可視化する方法として、今後さまざまなワードクラウド出力に取り組んでいくつもりだ。

三宅 啓  INITIATIVE INC.