ワードクラウドで患者の言葉を可視化する

ハーセプチン体験者約1000人が語っている言葉


(図をクリックすると大きく表示)
ネット上に公開された膨大な患者の言葉をわかりやすく要約する方法を、あれこれ試している。一目で見て、パッと全体の傾向がつかめるようなものがよい。その一つがワードクラウドである。

かつてWeb2.0時代に盛んに用いられた「タグクラウド」だが、その後、単にタグを表示するものから、テキストマイニングの結果を表示する「ワードクラウド」へとその役割は変わってきている。これはテキストデータをマイニングし、言葉の出現度数に応じてサイズを変えて言葉を表示しようという、まことにシンプルな発想にもとづいている。近年の有名な事例としては、オバマ大統領の就任演説をワードクラウド化し、初回就任演説と第二回就任演説の言葉を比較するものがあった。

演説にせよ闘病ドキュメントにせよ、本来、中身を把握するためにはそれらをはじめからシーケンシャルに「読む」ことが必要となる。それらを読み進めるうちに、様々な「意味」や「ニュアンス」あるいは「雰囲気」などが出現し、あるまとまったメッセージやイメージが理解されていく。このように「書かれた言葉」は「読む」という一種の生産活動によって、メッセージやイメージを生成するのである。だが、数万人の数百万ページにおよぶ数十億語を読むということになると、人の短い一生を費やしても読みきる事は困難になる。 続きを読む