闘病ポータルから闘病コーパスへ

石神井公園の森のオフィス。

石神井公園の新緑が、日に日に鮮やかさを増している。池面に映る緑陰は色を深め、その上を身軽にトンボがホバリングしている。それを狙って、上空から急速滑空してくるのは燕。初夏の風景はまぶしすぎる。

天気の良い日には、よく外へ出て、石神井公園の緑陰のテーブルで仕事をする。これを「森のオフィス」と呼んでいる。風に鳴る葉音や、小鳥のさえずりを聞きながら仕事に没頭し、時を過ごすのがなにより気に入っている。都心からサバーバンへ来てみると、やっとここに、自分のワークスタイルを見つけたような気がする。

さて、年初から開発を進めてきたdimensionsの新サービス「Analysis」が、ようやく今月完成した。これまでdimensionsはプロフェッショナル向け患者リスニング・サービスとして、拡張検索エンジン「X-Search」、トラッキング・ツール「Distiller」の二つで構成されていた。今回、これに新たに「Analysis」が加わることになるが、これによってdimensionsは、かなり大きくその性格を変えることになるだろう。

Analysisは疾患ごとの患者ニーズや、医薬品や医療機関に対する患者の声を集計・分析し、広く患者の声を社会に伝えていくサービスをめざしている。私たちはdimensions開発の初期段階で、ユーザーが闘病ユニバースを自由自在に探索し、患者の声を傾聴するためのツールを提供しようと考えていた。しかし、ユーザー側の反応は、データの利用ツールよりも、データを集計分析した結果を知りたいとの声が多かった。そこで、ご要望に応えるべく、新たに「Analysis」の開発を思い立ったわけだが、いざ出来上がってみると、単なる集計分析レポートのパブリッシュ機能というよりは、これが闘病ユニバースに生成された膨大な量の患者の言葉をデータベース化し、「闘病コーパス」を創出するチャレンジであると、次第に思うようになった。

「コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。」(ウィキペディア「コーパス」

以前から何度も指摘してきたことだが、結局、インターネットの誕生によって医療のどこが大きく変わったかといえば、やはりそれは「患者が自発的に、自分の体験を公開・共有しはじめた」ということだと思う。現に日本語のネット空間では、医療者や行政など専門家発の医療情報を、患者発の医療体験情報が量的に凌駕するという事態が出来している。この新たな現実に対応すべく、私たちはネット上の闘病体験を可視化するTOBYOプロジェクトを立ち上げた。

これは、膨大な患者の言葉の宇宙(闘病ユニバース)の入り口あるいは玄関を作るという意味で、まさに「闘病ポータル」と言って良いものだろう。当時、「ポータル」(玄関)という言葉があまりにも手垢にまみれすぎ、清新なイメージがないように思えたので、この言葉を避けていたのだが、今にして思えば、わたしたちがつくろうとしていたのは「闘病ポータル」に他ならなかった。

そしてここ一年、試行錯誤のすえにAnalysisを完成する所まで来たが、「dimensionsの第三のツール」ということを超えて、これは患者の言葉の宇宙(闘病ユニバース)全体をデータベース化するチャレンジへ向けた第一歩なのだ。データベースと言っても、それは数十人や数百人程度のちゃちなものではない。少なくとも、数万人の患者が表出した、数千万ページ、数十億語というサイズのデータをまるごとDB化し、「日本語闘病コーパス」を創出するような、そんなスケールの大きい仕事になるはずだ。

こんなことはほんの十年前までは、まったく不可能な絵空事であった。だがこの10年間、「ムーアの法則」によって、ITコストは劇的に下がり、マシンは革命的に進化した。大企業や大組織でなくとも、私たちのようなスモール・ワークユニットでも、ローコストかつミニマムリソースで、十分ビッグデータを扱うことができるようになった。

プロジェクト関係者が大勢、数十人、数百人も蝟集し、開発費や税金をジャブジャブ使い、マスコミで大きく取り上げられ、それでいて成果はほとんどゼロという「巨大プロジェクト」を、私たちは何度も目撃してきた。それとは対極の場所から出発したのが私たちTOBYOだと思う。TOBYOプロジェクトは、私と奥山のたった二人からなる最小のワークユニットだ。最初から「大きな組織」になることは目指していない。そんなことよりも、まず、ネット上に公開された闘病ユニバースこそが医療を変えるにちがいない、との強い思い入れがあるだけだ。だからやるのだ。

TOBYOは闘病ポータルを創出するチャレンジだった。そして次に私たちがAnalysisで目指すのは、大規模DBすなわち日本語闘病コーパスである。すべてのネット上の患者の言葉、文を形態素分解し、DB化する。それが出来上がれば、そこから「患者の一般意志」を抽出し、「患者の言語表出事例」を列挙し、現実の医療の個別事例を、患者視点から照射し検討することが可能になるはずだ。

三宅 啓    INITIATIVE INC.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>