無限ループからの脱出

dimensions_Analysis

dimensionsの新コンテンツ「Analysis」

長く寒い冬が去り、ようやく春がきた。石神井公園では先週から、桜、こぶし等、様々な花々が一斉に開花している。暖かい風に吹かれながら、池を散歩するのは気持ちが良い。

さて、以前のエントリでお知らせしたように、TOBYOプロジェクトはdimensionsの新コンテンツ「Analysis」の実装に取り組んでいるが、当初計画よりもやや遅れ気味になっている。「Analysis」では、TOBYO収録4万4千件の患者ドキュメントを集計分析し、順次パブリッシュする予定だが、従来研究してきたテキストマイニングに加え、最近、新たに「機械学習」機能を導入することを考えている。

TOBYO収録データは700万ページを越え、近い将来1000万ページも視野に入れなければならなくなってきた。こうなると、症状、治療、意思決定など闘病情報と日常雑記や趣味など生活情報、あるいはノイズなどを自動分類することがますます重要になってきている。機械学習は、まずデータ・クリーニングのために必要なのだ。

そればかりではない。患者体験ドキュメントを「時間軸上に配列された医療イベントのシークエンス」というふうに捉えるとすれば、「初期症状、検査、告知、診療方針、手術、病理結果報告・・・」などキイになる医療イベントあるいは場面を特定し、自在に抽出する機能が重要になってくる。どの疾患の、どの患者の体験であれ、今日、診療ガイドラインなどによって医療の標準化が進むにつれ、どの患者体験も同じような医療イベント群を同じようなシークエンスで配列したものと見ることさえ可能である。もちろん個々の患者体験はそれぞれ異なるものの、それら全体を俯瞰してみると、通底する同じようなパターンが浮かび上がってくる。 続きを読む