ワードクラウドで患者の言葉を可視化する

ハーセプチン体験者約1000人が語っている言葉


(図をクリックすると大きく表示)
ネット上に公開された膨大な患者の言葉をわかりやすく要約する方法を、あれこれ試している。一目で見て、パッと全体の傾向がつかめるようなものがよい。その一つがワードクラウドである。

かつてWeb2.0時代に盛んに用いられた「タグクラウド」だが、その後、単にタグを表示するものから、テキストマイニングの結果を表示する「ワードクラウド」へとその役割は変わってきている。これはテキストデータをマイニングし、言葉の出現度数に応じてサイズを変えて言葉を表示しようという、まことにシンプルな発想にもとづいている。近年の有名な事例としては、オバマ大統領の就任演説をワードクラウド化し、初回就任演説と第二回就任演説の言葉を比較するものがあった。

演説にせよ闘病ドキュメントにせよ、本来、中身を把握するためにはそれらをはじめからシーケンシャルに「読む」ことが必要となる。それらを読み進めるうちに、様々な「意味」や「ニュアンス」あるいは「雰囲気」などが出現し、あるまとまったメッセージやイメージが理解されていく。このように「書かれた言葉」は「読む」という一種の生産活動によって、メッセージやイメージを生成するのである。だが、数万人の数百万ページにおよぶ数十億語を読むということになると、人の短い一生を費やしても読みきる事は困難になる。

また、言葉をシーケンシャルに読む、つまり「物語」を読むのではなく、そこに書かれた事実を統計的に把握したいという場合もあるだろう。その場合、言葉の連続を切断し、言葉の数をカウントし、品詞分類し、ランダムに取り出すという手続きが必要となる。そしてその上で、それらを手っ取り早く見せる方法が必要になる。テキストマイニングとワードクラウドは、そのような手続きと見せ方の一例といえるだろう。

ウェブ上で大量に公開された闘病体験だが、「患者が多く話題にしていることはなんだろうか」を手っ取り早く把握するために、闘病ドキュメントに患者が記した言葉を多いもの順にリストにすればよい。非常に単純だが、世の中の真実というものは、たいてい単純な姿をしているものだ。

まず画面トップのワードクラウドだが、これは分子標的剤ハーセプチン体験者1045人がドキュメントに記した1000語の名詞、形容詞、形容動詞、サ変名詞をプロットしてみた。若干言葉の数を欲張り過ぎたせいか、いささか細部は見づらいが、それでもざっとこのワードクラウドを見渡してみれば、約1000人の患者が何を話題にし、何を思っているかが何となくわかるだろう。「理屈」ではなく、この「何となく」というわかり方が重要なのだ。あるいはワードクラウド上の任意の言葉と言葉を繋いで、ある因果関係を想起する人もいるだろうが、無理に因果関係をひねり出すよりも、むしろ「あるがまま」の言葉のタペストリー模様を眺めて、そこにある一種の雰囲気を感得するほうがよいだろう。

乳がん患者500人の体験ドキュメントで語られている薬剤名


次のワードクラウド(上図)は、500人の乳がん患者が記した217種類の薬剤名のワードクラウドである。よく見ると「パクリ」など、首をひねる言葉もあるが、これらは薬剤名の患者が付けた略称や愛称である。時にはハーセプチンを「ハーセブリン」など間違って記載しているケースもあるが、このような医療用語や固有名詞の書き間違いや誤認が患者側でかなり起きていることを把握することは、むしろ重要なことだと考えるようになった。疾患名や薬剤名をはじめ、医療にはわかりにくい専門用語が多すぎる。患者パーセプションがそれらテクニカルタームをどの程度正確に反映しているか、またそうでないか。不正確であり、誤認しているとすれば、それはなにゆえなのか。このような基礎的な患者パーセプションの問題があると考えている。

乳がん患者が医師について語る300語


さて、次は乳がん患者500人が医師についてどんな言葉を語っているかを示すワードクラウド(上図)である。名詞、形容詞、形容動詞、動詞、サ変名詞を、多いものから順に300語抽出しプロットした。これを見ても、乳がん患者の医師観というものが、あるニュアンスを伴って伝わってくる。それぞれの言葉と言葉の結びつき方の解釈は、ご自由にしていただきたい。

乳がん患者500人のドキュメントに出てくる病院

乳がん患者500人のドキュメントに出てくる病院


最後に、乳がん患者500人のブログに出現した228件の病院名をワードクラウド化した。病院名をあらためて眺めてみると、やたら長ったらしい名前が多い。長ったらしいから、患者の記憶もあやふやになり、純粋想起で書き出される病院名はいきおい不正確にならざるをえない。また、地域における略称や愛称も顔を出すから、一層、混沌としてくる。いったい、正確に病院のフルネームを記載出来る人なんているのだろうか? 病院検索サイトなどで公式フルネーム表記をしているが、あれではまったく使いにくいのだ。略称、愛称、部分名から検索できるような配慮が必要だろう。

医療に関する患者パーセプションの実態を把握するためには、患者側の言い間違え、略称、愛称、誤認などの実態がどうなっているかをつかむ必要がある。今回ワードクラウドを作ってみて、そんな思いを強く持った。患者の言葉の研究は、始まったばかりである。いずれにせよワードクラウドは、患者ドキュメントの傾向をつかむ上で有効なツールだとわかった。さっそくリリース予定の薬剤別患者ドキュメント・レポートに活用したい。

三宅 啓  INITIATIVE INC.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>