盛夏2015

石神井公園三宝寺池

季節の歯車は回り、気がつけばいつの間にかもう真夏だ。このブログも5月以来、随分ブランクを作ってしまった。6月、7月とdimensionsの新規コンテンツとなる患者意見抽出ツール「OPINIONS」開発に集中して取り組んでいた。なんとか今月中に開発を終え、来月リリースへ持って行きたい。

  • TOBYO収録闘病ブログが5万件を突破

まず、7月初めにTOBYO収録闘病ブログは5万件に達したことをご報告したい。とにかく、貴重な体験ドキュメントを公開していただいたすべての闘病者の皆さんに、感謝を申し上げねばならない。皆さんが労を惜しまず、貴重なご自分の闘病体験を記録し公開していただいたおかげで、TOBYOはそれらを収集し、後続の闘病者の皆さんにより利用しやすい形でご紹介することができた。あらためて、全ての闘病者の皆さんにお礼を申し上げたい。

さて、TOBYOプロジェクトはブログ5万件、約1000万ページの闘病ドキュメントを可視化するところまで来たが、今後も様々な形でこの闘病ビッグデータを便利に利用できるように、新しいコンテンツを開発していきたい。もちろんネット上の闘病ドキュメントは今後も継続して収集していく。TOBYOサイトのリニューアルにも、そろそろ着手していかねばならないだろう。

  • 患者意見抽出ツール「OPINIONS」の開発

冒頭触れたように、目下、9月リリースへ向け「OPINIONS」開発が佳境を迎えている。春先から、いくつかの開発上の難所をなんとか乗り越えてきた。振り返れば、一昨年初頭から、テキストマイニング研究に始まる一連の試行錯誤を繰り返してきたわけだが、「ネット上の患者ドキュメントをどうわかりやすい形で集計し出力するか」という一点を焦点として、あれこれ仮説出しと実験に明け暮れてきた。

  • テキストマイニングの限界

結論から言うと、当初想定していたテキストマイニングによる闘病ドキュメント解析は、いろいろなアプローチを経てその無効性を確認できたので、今後採用しないことに決めた。患者ドキュメントを形態素すなわち単語に分解し、単にその出現頻度と相互関係性を数量化するだけでは、患者ドキュメントが「何を語っているか」を直截に提示することは出来ない。テキストマイニングは「形態素-単語の研究」ではあるが、最も肝要な「患者は何を言っているか?患者の意見は何なのか?」の研究については隔靴掻痒感を免れない。「頻出単語リストはこれで、主要単語間の関係は次のように散布図に表せる」などというレベルでは、闘病ドキュメントに込められた患者のメッセージを抽出できない。

巷間普及している様々なマイニングツールは、「単語の見える化」はできても、「患者の意見、メッセージの見える化」を実現できていない。まして、一般的にブログは様々なノイズやゴミを大量に含んでおり、これらマイニングツールはゴミやノイズまで一緒くたに処理してしまい、出力されるデータの信頼性はきわめて低いと言わざるをえない。

テキストマイニングは言ってみればプロセスの技術である。テキストデータを解析する初期段階では有効なのだが、それで意見やメッセージの抽出、集計、出力まで、つまり「結論」まで処理できるかといえば無理である。患者の意見やメッセージという、ひとまとまりの意味を持ったものを、形態素(単語)の解析だけで済ますことは出来ないのだ。私達は「患者が使用する単語の研究者」になろうとしているのではない。

  • 構文解析が抱える問題点

一方、単語ではなく、ドキュメントの構文解析に基づき、ブログから意見抽出を図ろうとする試みが、ゼロ年代から様々にアカデミズムの諸研究で提起されてきている。「対象-属性-評価」の三つ組で意見抽出をおこなうこれらアプローチの有効性は、理屈では納得できるのだが、ここにも陥穽はある。闘病ブログを読めばわかるが、そこに記された文章は、およそ教科書通りの構文に即して書かれていないことが多い。「主語-述語」関係さえ明らかでなく、助詞の省略などで係り受け構造も判然とせず、極端にデフォルメされた文章が横溢している現実がある。さらに同病患者仲間での慣用的な言い回し、略号、誤記、顔文字など記号の多用など、実際には通常の構文解析では歯がたたない。

端的にいうと、一般的に構文解析をベースとし、機械学習で評価タイプ分類や極性分類をおこなう意見抽出モデルの精度(正解率)は、よくて80%台であり、実用レベルから見るとまだかなりつらいものがあると言わざるをえない。

  • 形態素(単語) → 構文解析 → フレーズ抽出

私達の開発プロジェクトもこれら構文解析に基づく意見抽出ツールから出発しているが、やはり以上のようなやっかいな問題になやまされることになった。それらを解決するために、私達は2つのアプローチを採用することにした。ひとつは精度(正解率)を実用レベル(95%以上)に上げるためのアプローチであり、もう一つは、意見抽出単位を単語でも構文でもなく「フレーズ」にしようというものである。

二年前の春先に、私達は「ブログをアンケート設問集計の形式で集計する」というアイデアを得たが、「OPINIONS」ではこれを応用することになる。たとえば「あなたはレミケードを投薬してみて、効果はありましたか?」という仮想アンケート設問があるとして、「効果があった」という回答肢に該当するブログ上のフレーズを抽出し、ブログサイト単位で、つまり『「効果があった」と答えた人が〇〇人』という形で集計すれば、あたかもブログ上の患者の意見をアンケート調査結果のような形式で出力できる。

しかし、一口に「回答肢に該当するフレーズ」と言っても、これはなかなか大変なのである。「レミケードは効果があった」という回答肢を想定してみると、これに対応するフレーズは、少なくとも数百から数千通りのバリエーションがある。「レミケード効いた」、「レミケード効果あった」というシンプルなフレーズから、「レミケードは先生から勧められ試してみたら、すごい、すぐに寛解状態になった。」などというフレーズに至るまで、膨大なバリエーションを想定しなければならないのだ。そして数千のフレーズをデータベースでクエリ処理することも、少なくない手間と時間を要する。

私達はこれら難問に直面したわけだが、たとえば膨大なフレーズ・バリエーションの冗長性を許容しながら抽出精度を高める方法、そして最近使えるようになったビッグデータ処理技術を使うことによって、なんとか解決の目処を立てることが出来た。

以上については、今後、このブログで少しづつ説明していきたいと考えている。

三宅 啓  INITIATIVE INC.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>