患者の主張を「代表的な文」で提示する

ハーセプチンの構文解析

一昨日、母が他界した。11月26日の夕刻、母は誤嚥性肺炎で発作を起こし、病院へ救急搬送され集中治療を受けた。だが、わずか一日で症状は急激に悪化し、一昨日夕刻に亡くなった。医師からは腸閉塞、回盲部腫瑠、肝転移、認知症等も指摘された。救急搬送に際して、運良く短時間で病院の救急外来診察を受けられたものの、空きベッドがなく、他院転送となり不本意な選択を強いられた。この件について言いたいことはあるが、今は触れないでおく。

以前のエントリにも書いたが、9月から当方、新宿から自宅へ仕事拠点を移した。これは母の健康状態悪化が明らかになり、自宅介護をしなければと考えたからだ。しかし、それから三ヶ月が経ち、結局、母を死なせてしまった。この間、夏の終わりから、秋の終わりへと季節は移った。今にして思うが、この三ヶ月は実に長い、そして貴重な時間だった。何か遠い遠い昔にあった出来事のような気もする。晴れの日には石神井公園の美しい景観を、車椅子に母を乗せ、一緒に見つめていた。だが、突然それらの日々は遠景へ退き、もう二度と手の届かない、遠い過去の残像へ変わってしまったのだ。

そしてこの三ヶ月、仕事では、初夏に構想を得た”Perspective for Drugs”の開発に取り組んでいた。これは、ネット上の患者ドキュメントから薬剤体験データをテキストマイニングで抽出し、「患者による薬剤評価」を薬剤アイテムごとに提供するためのサービスである。当初、巷間流布するいわゆる「テキストマイニング・サービス」というものを、さしたる疑念もなく患者ドキュメントに適用していたのだが、やればやるほど違和感というか不足感、あるいは隔靴掻痒感にとらわれた。このいわく言いがたい「何かが足りない」という感触を手がかりに、この三ヶ月、ほとんどあらゆる種類の現存するテキストマイニング手法を試してみた。何度か「よしコレで行けるぞ!」と視界が開けた感触を掴んだものの、やがてその方法の限界点が露わに見えてしまう・・・・。その繰り返しが続いた。


テキスト・データを形態素(単語)分解し、その出現頻度、出現確率、距離、共起関係等を計量し、多変量解析で散布図などに可視化して見せる。あるいは形態素の係り受け(dependency)関係を構文解析する(上図)。これらが主たるテキストマイニング手法である。当方もこれら手法に異存はない。しかし、これらはあくまで「キーワード(たとえば薬剤名)に関連の強い言葉はこれだ」というレベルでデータを分析しているのであり、「これが、患者がこのキーワードについて言っていることだ」と、患者の言わんとする「意味」を直接提示しているわけではない。

この「キーワードに関連の強い言葉」と「キーワードについて、患者が言わんとしていること」の微妙な差異が、先述した当方の「不足感、隔靴搔痒感」の原因であった。そして「患者が言わんとしていること」をダイレクトに取り出すためには、単語レベルの分析ではなく、文節さらには文レベルの分析が必要になる。「これが患者が言わんとしていることだ」と提示するには、複数単語のマッピングよりも、代表的な「文」を直接提示するほうわかりやすい。そして本来、私達が”Perspective for Drugs”で目指しているのは、「関連単語の統計と可視化」つまり「単語研究」ではなく、「患者がその薬剤について言わんとしていること」を直接理解することにある。もちろん「関連単語の統計と可視化」が「患者の言わんとすること」を近似的に予断なく提示し、「意味」を読み解く手がかりになることは否定出来ない。だが、キーワードを含む文を直接提示するほうが、「意味」はわかりやすいはずだ。

以上のように、問題は徐々に整理されて来たわけだが、細かいところは割愛する。そして最終的に、次の3つのレイヤーでテキスト・データを分析することになった。

第1レイヤー: キーワードを含む文(一文一行)
第2レイヤー: キーワードを含むページ
第3レイヤー: キーワードを含むサイト

まずネット上に公開されている患者生成テキストのうち、「キーワードを含む文」を抽出し「一文一行」形式に整形する。そして、これら文のパターンを構文解析し、出現頻度の高いパターンを抽出のうえ「代表的な文」として提示する。「キーワードを含む文」は、必ずキワードについて何らかの言及がされているから、「患者の言わんとすること」を直接表現するものと考えられる。だが、たとえば薬剤についての患者の情報探索行動とか医療者の説明などは、「キーワードを含む文」だけを見ていては捉えられないことがある。そこで、より広い範囲でのデータ抽出のために、第2レイヤー「キーワードを含むページ」でこれらを分析することになる。そして、たとえば患者属性を分類するなどのリクエストに対応するためには、第3レイヤー「キーワードを含むサイト」の全文データをクラスタリング処理することになるだろう。

このように”Perspective for Drugs”では、従来のテキストマイニング手法に加えて、患者の主張を直接「代表的な文」で提示することをめざしている。新奇性を求めた「マイニングのためのマイニング」ではなく、あくまで「患者の主張」をわかりやすく、広く社会に届けることがこのサービスの使命となる。

三宅 啓  INITIATIVE INC.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>