ワードクラウドで患者の言葉を可視化する

ハーセプチン体験者約1000人が語っている言葉


(図をクリックすると大きく表示)
ネット上に公開された膨大な患者の言葉をわかりやすく要約する方法を、あれこれ試している。一目で見て、パッと全体の傾向がつかめるようなものがよい。その一つがワードクラウドである。

かつてWeb2.0時代に盛んに用いられた「タグクラウド」だが、その後、単にタグを表示するものから、テキストマイニングの結果を表示する「ワードクラウド」へとその役割は変わってきている。これはテキストデータをマイニングし、言葉の出現度数に応じてサイズを変えて言葉を表示しようという、まことにシンプルな発想にもとづいている。近年の有名な事例としては、オバマ大統領の就任演説をワードクラウド化し、初回就任演説と第二回就任演説の言葉を比較するものがあった。

演説にせよ闘病ドキュメントにせよ、本来、中身を把握するためにはそれらをはじめからシーケンシャルに「読む」ことが必要となる。それらを読み進めるうちに、様々な「意味」や「ニュアンス」あるいは「雰囲気」などが出現し、あるまとまったメッセージやイメージが理解されていく。このように「書かれた言葉」は「読む」という一種の生産活動によって、メッセージやイメージを生成するのである。だが、数万人の数百万ページにおよぶ数十億語を読むということになると、人の短い一生を費やしても読みきる事は困難になる。 続きを読む

闘病ドキュメント解析へのチャレンジは続く

動詞系語でハーセプチン関連語をマッピング

いよいよ炎暑が来たかと思うと、涼しい日が続いたり、はたまた「戻り梅雨」だそうで、東北など滂沱たる強雨に襲われたり。今年の夏は、はっきりしないが、当方、毎日スイカを食べて元気に過ごしている。それでも最近、87歳になる母が、日を追って精神的身体的に弱ってきているのが気になる。老化は如何ともしがたいのだが、介護のことをこれまで以上に思案し始めている。当方のワークスタイルを含めて、これからどう働き、どう過ごしていくかを考える時期に来ているようだ。果たして「親を介護しながらベンチャー」みたいなことが、うまくできるものだろうか。

結局、闘病であれ介護であれ、家族が本人を支えていくことが基本になるのだろうが、その実態はどうなのか。患者視点による医療アウトカムの公開をめざす「Perspective」では、赤裸々にこれらの実態を記録した闘病ドキュメントの分析によって、闘病や介護における関係者の役割を可視化しようと考えている。

今回、dimensionsのデータベースから、乳がんの分子標的剤「ハーセプチン」が記載されたドキュメントデータだけを抜き出し、その服用実態分析をおこなってみた。これは患者1045人による、8968ページ、語数998万ワードからなるデータである。これをテキストマイニングして、「プロダクト・マップ、コミュニケーション・マップ、ディシジョン・マップ、サティスファクション・マップ」などアウトカム・マップを出力する予定だ。なかでもコミュニケーション・マップとディシジョン・マップは、患者が医療者や家族など関係者とどのようなコミュニケーションをしているか、あるいはどのような医療意思決定をしているかを可視化するものだけに、重要なポイントだと考えている。 続きを読む

新たにPerspectiveが加わり、dimensions2.0へバージョンアップ

dimesions 2.0

ここ二回連続で「クチコミ病院検索」の問題を扱ったが、こっちのブログで書き出したものに補筆し、改めてYahoo!Newsのほうへニュース投稿した。結局、「ネガティブ・コメントを削除するクチコミ検索」という現象は、医療パターナリズムに端を発するものである。そこを批判しなければ、似たようなことは形を変えて何度も繰り返されるだろう。しかし、このエントリは当方の予想を超える関心を惹起したようだ。

さて、患者の闘病体験をトラッキングし自由自在に検索する「TOBYO dimensions」だが、近々にバージョンアップする予定である。今年になってから、患者闘病ドキュメントをテキストマイニング出力するPDR、PAI、PDSなどサービスを開発してきたが、あれこれとっ散らかってしまったので、一度まとめなおす必要があると思っていた。いろいろ検討した結果、やはりdimensionsに統合するのが一番すっきりするということになった。新たにPerspectiveというサービスをdimensionsに追加するが、これはPDR、PAI、PDSなどをまとめたものである。テキストマイニングによるデータ出力をメインとして、さまざまな患者視点アウトカム・レポートを提供しようと考えている。

Perspectiveとは「考え方、見方」や「遠近法」という意味を持つ言葉だが、私たちが目指しているのは、まず「医療に対する患者の考え方、見方を提供する」ことであり、同時に「患者視点で医療を遠近法で透視し、患者の目に見えたままの医療を描出する」ことである。また近年、米国FDAなどが中心となって提唱している、新しい患者中心医療評価尺度である「患者報告アウトカム」(PRO)の考え方も念頭に置いている。 続きを読む

ことばの宇宙

UNIVERSE

前回エントリ「患者による医療評価のイノベーション」に、たくさんのアクセスをいただき驚いている。この分野、つまりウェブ上の患者ドキュメント分析の分野に、予想以上の人々が関心を抱いていることを認識させられた。

ことばの宇宙

これまで私たちは、ウェブ上に自然発生的に生成された闘病ドキュメント・サイト群によるネットワークを「闘病ユニバース」(闘病の宇宙)と呼んできた。このブログでもいろいろな角度から、この自生的なゆるいネットワークを分析してきたのだが、この「闘病の宇宙」が何によって出来上がっているかというと、それは「ことば」によってである。だから「闘病の宇宙」とは「ことばの宇宙」なのである。

現在、闘病ユニバースの広がりはおよそ5万サイトと推定される。そのうち4万サイトをTOBYOでは可視化しているが、この可視化領域に存在することばの総量はおよそ30億ワードである。この30億ワードから、どのように価値のある知識・情報を抽出するかを、私たちはTOBYOプロジェクトの初期段階から考えてきた。その第一段階では、私たちは、この「ことばの宇宙」を名詞とくに固有名詞の集合体と見ていたと思う。病名、病院名、薬剤名、治療法名、医療機器名など、医療分野の名詞・固有名詞に着目し、それらを闘病ユニバースからいかに効率的に抽出するか。これを最初に目指したのである。

続きを読む

患者による医療評価のイノベーション

Patient Assessment Index

「大型連休」とは言っても、当方なんだかんだと仕事を続け、結局、完璧に休んだのは二日だけだった。ここ数か月継続して取り組んできたPDRプロジェクトが、いよいよ最終局面に来たからだ。年初に始めたころはまさに暗中模索だったが、ここへきて視界は一気に開けてきている。開発コンセプト「患者の言葉を数量化する」を貫いてきたが、今から思い返してみても、結局この方法しかなかったのだと思う。そして最終的に「患者評価指標」というものにたどり着いた。これは今後のPDRプロジェクトにとって、決定的なアイデアであり、核心的な役割を担うことになると考えている。ネーミングは素直に”Patient Assessment Index”を「PAI」と略した。「パイ」と呼んでいただきたい。

前回エントリでも触れたように、患者は病院、薬剤、治療法、医療者などに対し、主として形容詞や形容動詞で自分の感想を表現している。たとえば薬剤Aに関連する形容詞・形容動詞だけを抽出し、その出現度数、出現確率、対象となる固有名詞との出現類似性等を計算すれば、それぞれの形容詞・形容動詞がどの程度強く薬剤Aと結びついているかを数値化できる。 続きを読む