病院「イメージマップ」登場 =病院を患者の言葉で可視化する=

癌研有明病院に関する患者の言葉を可視化する。クリックすると拡大。

この夏から、TOBYOでは患者の話題を可視化する「TOBYOがんCHART」を公開しています。これは「病院、薬、検査・治療、症状、生活」の各ジャンルで、がん患者の言葉に基づいて作成したランキング・チャートです。実際にがん患者がネット上で話題にしているトピックを、一切加工せず、多いもの順にそのまま提供しています。各トピックの検索結果画面では、各種フィルターによって、いっそう詳しい情報を探索することができます。

そして今回、新たなコンテンツ「病院イメージマップ」を追加しました。これは「全がんTOP20病院」についてのがん患者の言葉を、計量化し統計処理した上で図解したものです。言葉を計量化し統計処理することを「テキストマイニング」と呼んでいますが、この手法によって大量のテキストデータの傾向を手際よく把握することができます。また、言葉をノード、言葉と言葉を結ぶ辺をエッジと捉えると、テキストデータをノードとエッジからなるネットワーク・グラフで表すことができます。

日本医科大学病院に対する患者の言葉。クリックすると拡大。

今回公開した「病院イメージマップ」は、それぞれの病院に対する患者の言葉とその関係を数量化し、ネットワーク・グラフで可視化したものです。言葉は出現度数ごとに大きさを変えたノードで表現され、言葉と言葉の関係は曲線でエッジとして表現されています。曲線で結ばれた言葉は、結びつきの強い言葉であり、その強さはエッジの太さと明度で表現されています。また、ノードは同じ性質のものを統計的にグループ化し色をつけています。これらによって、その病院について実際に患者が語っている言葉を、ひと目で確認することができます。

まだネットワーク・グラフ出力はテスト段階であり、様々な出力を試しています。今後、精度を上げて一層見やすく、わかりやすいものにしていきたいと考えています。TOBYOプロジェクトではこのイメージマップのような「患者の言葉の可視化」など「患者言語の研究」に取り組んでいます。4万6千サイト、800万ページ、60億語という膨大な「闘病の言葉の宇宙」から、患者、家族、社会に役立つ情報を抽出し届けていきます。ご期待ください。

ブログ統計:TOBYOがんチャート、Analysis

TOBYOがんチャート

今年もまた炎暑の夏が来た。石神井公園では例年に比べ、蝉の数が少ないような気もする。今月はTOBYOの新規コンテツ「TOBYOがんチャート」開発に取り組んでいた。また、9月からリリースするプロフェッショナル向け闘病ブログ統計「Analysis」の準備も進めている。この二つを開発する上で、闘病ブログのスキャン技術の精緻化が必要となったが、これは時間をかけ経験を蓄積し、今後も改善を積み上げていくほかない。

「TOBYOがんチャート」は7月の早い時期に公開すべく開発を進めてきたが、予想以上に様々な問題が出てきて、計画は大巾に遅れてしまった。それでもここ2~3日中には公開できそうだ。まだアルファ版であり、今後、少しづつ改良を加えていく。また、「患者が話題にしていることTOP20」ランキングを医療機関、薬剤。検査・治療の3ジャンルで公開するが、どうも「TOP20」では食い足りない気もする。今後、TOP30とかTOP50へと拡大することも検討したい。

さて、このようなクチコミ・ランキングを提供するのは、これまで患者の声を定量的に可視化する試みが少なすぎたと思えたからである。患者がネットで公開する闘病ブログなどドキュメントは、これまで「闘病記のネット版」とみなされてきた。だから、どうしてもそれらの一本一本をストーリーとして順次的に読むという接触態度が一般的であり、公開された膨大な患者体験の集積を数量化し、その全体を統計的に解析するという方法が開発されてこなかった。

つまり、闘病体験のそれぞれを「物語」として分離固定化し、それら集積が全体として何を言わんとしているかに関心を払ってこなかった。 もちろん、そもそも闘病ブログというものが非構造的で不揃いな質的データであるという事情もそこにはあった。

私達も「非構造化データにある程度秩序を与える」ぐらいのことは当初から考えていたのであるが、全面的に質的データを統計的に扱うことには躊躇があったことも否定出来ない。 しかし、昨年春頃には「質問票のないアンケート調査結果」として闘病ブログをとらえ、ブログ記述から逆に「質問」を再現するような方法で、数量的にデータを捉えようというアイデアが生まれた。ここから試行錯誤を繰り返し、紆余曲折を経て、結局、「ブログ統計」というシンプルな落とし所へと、私達の問題意識は収斂してきたわけである。

そして、9月リリース予定の「Analysis」にはシンプルに「ブログ統計」というフレーズを付すことになった。私達が現在めざすところは、患者ブログ全体を数量的に解析した結果を社会へ配信することである。このことによって、個々のストーリーではなく、全体として患者ブログがどんなことを主張しているかを統計的に可視化したい。

まずは「ランキング」というプリミティブな形式で、「患者が話題にしているコト」をわかりやすく提供したい。「TOBYOがんチャート」と「Analysis」は、当初、まったく別のプロジェクトとして想定されていたのだが、結局、「ブログ統計」というコンセプトの二つの表現形態であり、根っこで通底していることが徐々に明らかになってきた。

というわけで「TOBYOがんチャート」。最初はアルファ版から出発するが、徐々に完成度を上げ充実させていきたい。乞うご期待。

三宅 啓  INITIATIVE INC

「TOBYOがんチャート」で患者クチコミを可視化。来月(7月)公開!

病院、薬、検査・治療についての患者クチコミを可視化する「TOBYOがんチャート」。来月(7月)公開。

ネット上には、毎日、ブログや個人サイトで膨大な量の闘病ドキュメントが続々と公開されています。TOBYOは2008年から、それら闘病ドキュメントを病名ごとに分類し、性、年齢、地域などメタデータを付して収集・蓄積してきました。ネット上の闘病情報すべてをインデックス化し、誰もが簡単に、ほしい闘病体験にアクセスできることを実現しようと、少しづつデータを積み上げ、現在、その規模は1273疾患、4万5800サイト、およそ800万ページとなっています。(2014年6月27日)

多様な個人の闘病記録を参照できるので、一般的にデータは多ければ多いほどよいといえるでしょう。それでも、たとえば「乳がん」を例に取ると、すでに収録サイト4千件、60万ページを越えており、すべてに目を通すことが不可能なほどの情報量に達しています。もちろん検索エンジン「TOBYO事典」を使えば、膨大な収録情報の隅々まで全文検索できるわけですが、「どんなキイワードで検索すべきか」で悩むユーザーも多いようです。

特に診断で病名がついたばかりの患者は、その病気についての知識がほとんどない状態ですから、難解で複雑な医療用語に戸惑い、検索エンジンで何を検索したら良いかがまずわからない、というケースが多いようです。

そこで、闘病ドキュメントに出現する言葉を疾患ごとに集計し、「病院、薬、検査・治療」の3つのジャンルで、出現件数の多い順に、つまり患者が言及することの多い順にTOP20チャート形式で見てもらおうと、このたび「TOBYOがんチャート」を公開する運びとなりました。その病気の患者が多く使う言葉は、その病気を理解するための基礎となるボキャブラリーであり、それら頻出語の傾向を学習するためのツールとしてご利用いただければ幸いです。

別の観点から見れば、この「TOBYOがんチャート」は「病院、薬、検査・治療」に関する患者のクチコミを可視化するツールであるともいえるでしょう。

「乳がん患者が話題にしている病院は?」
「肺がん患者が話題にしている薬は?」
「胃がん患者の話題が多い治療法は?」etc…

このように、がん患者がネット上で話題にしているクチコミ情報を、疾患別にTOP20チャートで一覧することができます。

「TOBYOがんチャート」は、当面、TOBYO収録の「全がん、乳がん、肺がん、胃がん、大腸がん」の疾患カテゴリーごとに、TOP20を「病院、薬、検査・治療」ジャンルで表示します。TOP20チャートにある言葉は、検索エンジンで本文を確認することもでき、また検索結果を発病年時や様々な項目でフィルタリングして絞り込むことも可能です。

「TOBYOがんチャート」は来月(7月)に公開予定。ぜひ、みなさんの闘病生活に活用してください。