論文「闘病ブログに出現する(薬剤名,対象,効果)で表される薬剤服用情報の抽出」(北海道大学情報科学研究科,北嶋志保,他)をめぐって
先のエントリ「患者による医療評価」にも述べたが、目下、新規サービス「OPINIONS」の開発に取り組んでいる。これは大きく2つのパートからなっている。ひとつは闘病ブログから患者の薬剤・病院・治療など医療に対する意見・評価を抽出し、評価タイプや極性(ポジティブ、ネガティブ)によって分類して提供しようというもの。今ひとつは、患者の医療に対する意見・評価をアンケート設問形式で集計出力し、たとえば「薬剤レミケードについて『効いた』と答えた人が〇〇人、〇〇%。『効かなかった』と答えた人が〇〇人、〇〇%」というわかりやすいかたちで提供しようとするものだ。
この2つの機能からなる「OPINIONS」によって、闘病ブログに表現された患者の知識・体験を個々の「物語」としてではなく、ウェブに集積された「患者の集合知」として捉え、その全体の傾向をできるだけシンプルに抽出したいと考えている。たとえば、TOBYO収録の乳がん患者ブログはすでに4000件を越えているが、それらをひとつひとつ「物語」として読んでいくとすれば、それだけで多大な時間を費消することになるだろう。何年もかかるかもしれない。たしかに、そこには多くの興味ふかいエピソードが存在するだろうが、「患者の医療評価」という視点で全体の傾向を抽出することのほうが、おそらく社会、患者、医療業界にとって有益であると思われる。
「ウェブに集積された集合知」から意見や評価情報を取り出す試みは、ゼロ年代から10数年にわたり、多くの研究者によって続けられてきている。医療分野における患者の意見・評価抽出についてもさまざまなチャレンジがあるが、今春、日本知能情報ファジィ学会誌「知能と情報」に発表された論文「闘病ブログに出現する(薬剤名,対象,効果)で表される薬剤服用情報の抽出」(北海道大学情報科学研究科,北嶋志保,ジェプカ ラファウ,荒木 健治)には、TOBYOのバーティカル検索エンジン「TOBYO事典」データを用いた薬剤服用情報の抽出実験が紹介されており、そこに示された新知見から、当方「OPINIONS」開発にも大きな示唆をいただいた。ここに感謝しておきたい。
さて、「ウェブから知識を取り出す」アプローチは大きく2つの方向に分かれる。ひとつはナイーブベイズなど機械学習で分野ごとに文書を分類する方向であり、今ひとつはウェブから「意見・評価」情報だけを抽出するアプローチである。後者はまた、SVMなど機械学習を利用する方法と利用しない方法に分かれる。
私達の「OPINIONS」は、紆余曲折を経て、後者の機械学習を利用するアプローチを採用したが、その理論的フレームはすでに2005年の論文「意見抽出のための評価表現の収集」(奈良先端科学技術大学院大学情報科学研究科,小林のぞみ,他)で提案されている。これは「対象、属性、評価」の三要素(三つ組)によって意見を自動抽出するもので、上記論文「闘病ブログに出現する(薬剤名,対象,効果)で表される薬剤服用情報の抽出」もこの「三つ組」を踏襲し、服用情報を「薬剤、対象、効果」で表すことができるとし、特に頻出する服用・使用表現を32語の「手がかり語」として抽出している。
これらは、この研究チームが2012年に発表した論文「闘病ブログを対象とした手がかり語を用いた薬剤服用情報の抽出手法」ですでに明らかにされているが、今回は「手がかり語と構文情報を用いた提案システム」に「評価表現辞書抽出」手法を組み合わせ、さらに薬剤情報サービス「お薬110番」と医薬品医療機器総合機構「薬剤添付文書情報」から薬効と副作用に関する語群からなる辞書でフィルタリングする手法を提起している。これらは非常に興味深いアプローチだ。
一般にブログに書かれたテキストデータは非常に多様であり、その品質もかなりのばらつきがある。顔文字や記号の多用、崩した口語表現、省略形、変則的な句読点の位置、時としておよそ日本語になっていない文の出現など、単純な読解を阻む要素が多く、どこからどこまでをノイズとして排除するかなど、頭痛の種だらけだ。これらを単純に機械処理すると誤読によるエラーが頻発し、抽出精度は下がってしまう。そこで前処理段階のクリーニングがかなり重要となるのだが、私達は日本語の文として完結性の高いものだけを処理対象とするという割り切りをすることにした。当然、こぼれる文は増えるが、抽出量が多少減っても、抽出と分類の精度が優先すると判断した。
それに対し今回発表された論文は、患者ブログからできるだけ多くの薬剤服用情報を抽出しよう、当方があきらめているところよりも先へ進もう、という強い意志がうかがえた。この論文を読み、当方もまだまだシステムを改善し、もっと新しい方法を探索していかねばならないという思いを強く持った次第である。
またこの論文は、ここ10数年に渡る意見評価情報抽出研究動向のコンパクトなレビューとしても有用であることを付言したい。
三宅 啓 INITIATIVE INC.