UGCソースのリサーチシステムについて

DFC_101115

開発中のDFCだが、医薬品、医療機関、医療機器、治療法など固有名詞の出現状況をテストしている。まだ全体を把握するところまできていないが、やはり基礎となるデータ量の十分な確保が何を置いても前提になることが痛感される。TOBYOの収録サイト数は今年中に2万5千件を超える見込みだが、今後も継続して積み上げを図っていくことになる。

私たちのDFCと同じような発想で開発されているイスラエルのFirst Life Researchは「16万サイト、100億レポート」を豪語しているが、掲示板やSNSなどにある闘病体験まで片っ端からクロールしているようだ。もちろんデータは多ければ多いほど良い。私たちの経験からすれば、マーケティング・リサーチに十分対応するシステムを作ろうとすると、最低でも300万ページ以上のUGCデータが必要だ。しばしば、「信頼性などデータの質の問題をどう考えているのか?」と訊かれることがあるが、UGCソース、あるいはソーシャルメディア・ソースのリサーチというものへ一歩踏み出すためには、当然、従来の「データの質」の見方も変わってくるだろう。

「量は少ないけれど質は高い」みたいなデータ観ではなく、UGCやソーシャルメディアの時代には「大量のデータを確保すれば、そこに含まれる良質のデータの絶対量も多いはずだ」というデータ観が必要になっている。データを集めるコストは劇的に下がっているのだから、前提となるのはあくまで「量」となっている。はじめから一つ一つデータの「質」を吟味するよりは、とにかく大量にデータを収集し、あとで選り分ける方が効率的だ。First Life Researchなどはこの考え方を徹底的につきつめたシステムだと言える。

ただTOBYOの場合、基本的にはこれらの新しい「データの質」の取扱い方に立脚しつつも、サイトや情報など収集対象の判断を人間がするようにしている。たとえばサイト管理者の性別、年代など最も基本的な情報さえ、まだマシンでは正確に判別できないからだ。また最終的なデータ処理・分析の方法も関係してくる。今のところDFCでは定量的なマイニング処理ではなく、固有名詞の抽出に基づく患者体験文脈の可視化をめざしている。最終的には闘病体験の時間軸上に固有名詞をマッピングし、そこから分析者が意味や解釈を自由に洞察することを助けるツールをめざしている。

とはいっても、今後、DFCがマイニング処理を導入しないわけではないし、対象固有名詞を現状分野に限定し続けるわけでもない。将来、今よりも優秀なマイニングツールが出てくれば導入したいし、もっと広範囲にたとえば「保健、健康維持」分野までデータ範囲を広げることも検討している。その際、たとえばOTCや特定保健用食品、それに体温計や血糖値チェッカーなどヘルス・ガジェットなども有力な候補だと考えている。

三宅 啓  INITIATIVE INC.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>