薬剤の違いを可視化する

ハーセプチン、タキソール、リュープリンの患者パーセプション(クリックすると拡大)

患者がウェブ上に公開している膨大な量の闘病体験ドキュメントをどのようにわかりやすく可視化するか。前回エントリではワードクラウドを使って、患者の言葉をグラフィカルに可視化してみた。同じワードクラウドを使って、今回は薬剤ごとに患者が述べた言葉から、それぞれの薬剤の「違い」を可視化してみよう。乳がん治療に使われるハーセプチン、タキソール、リュープリンの三剤について、まず結びつきの強い言葉を患者ドキュメントからテキストマイニングによって抽出し、三剤との関連性の強度を数値化する。そして、三剤に関する患者の言葉および関連性データからなるリストを作成し、それらの相互関係にもとづいてワードクラウドを出力する。

おおよそ、そんな手順にしたがって作成されたのが上図である。これを見れば、ハーセプチン、タキソール、リュープリンが、それを体験した患者の心のなかで、どんなふうにその「違い」をイメージされているか、患者の言葉を手がかりとして視覚的に捉えることが出来る。三剤について患者が述べた言葉を比較分析し、ハーセプチンに関して言われることが多かった特徴的な言葉を緑、タキソールの特徴的な言葉をオレンジ、リュープリンに特徴的な言葉を紫で表示した。今回抽出したのは名詞、サ変名詞、形容動詞、ナイ形容詞、副詞可能、動詞、形容詞、副詞の約300語で、患者パーセプションの大まかな傾向をつかむために、どちらかと言えばやや広範囲な抽出となった。三剤の「違い」をもっと明確にするために、今後、品詞選択を絞り込むことが必要だろう。

次に、乳がん治療薬三剤の「共通点」だが、これは患者パーセプションにおいてどのように捉えられているだろうか。次の図は、三剤に共通して患者が述べた言葉を100語抽出しワードクラウド化したものだ。これを見ると、とにかく「副作用」が患者の一番の関心事であることが一目でわかる。痛いほどわかる。主な言葉を拾ってみると「副作用。チェック。今日。言う。病院」などが目に飛び込んでくるが、それらからストーリーを想像するまでもなく、患者の三剤に共通する関心事が極めて直截に伝わってくる。

ハーセプチン、タキソール、リュープリンに対する患者の共通認識


今後、薬剤のみならず治療法、そして医療機関の比較などもワードクラウド化したい。患者パーセプションを直接可視化する方法として、今後さまざまなワードクラウド出力に取り組んでいくつもりだ。

三宅 啓  INITIATIVE INC.

ワードクラウドで患者の言葉を可視化する

ハーセプチン体験者約1000人が語っている言葉


(図をクリックすると大きく表示)
ネット上に公開された膨大な患者の言葉をわかりやすく要約する方法を、あれこれ試している。一目で見て、パッと全体の傾向がつかめるようなものがよい。その一つがワードクラウドである。

かつてWeb2.0時代に盛んに用いられた「タグクラウド」だが、その後、単にタグを表示するものから、テキストマイニングの結果を表示する「ワードクラウド」へとその役割は変わってきている。これはテキストデータをマイニングし、言葉の出現度数に応じてサイズを変えて言葉を表示しようという、まことにシンプルな発想にもとづいている。近年の有名な事例としては、オバマ大統領の就任演説をワードクラウド化し、初回就任演説と第二回就任演説の言葉を比較するものがあった。

演説にせよ闘病ドキュメントにせよ、本来、中身を把握するためにはそれらをはじめからシーケンシャルに「読む」ことが必要となる。それらを読み進めるうちに、様々な「意味」や「ニュアンス」あるいは「雰囲気」などが出現し、あるまとまったメッセージやイメージが理解されていく。このように「書かれた言葉」は「読む」という一種の生産活動によって、メッセージやイメージを生成するのである。だが、数万人の数百万ページにおよぶ数十億語を読むということになると、人の短い一生を費やしても読みきる事は困難になる。 続きを読む