UGCソースのリサーチシステムについて

DFC_101115

開発中のDFCだが、医薬品、医療機関、医療機器、治療法など固有名詞の出現状況をテストしている。まだ全体を把握するところまできていないが、やはり基礎となるデータ量の十分な確保が何を置いても前提になることが痛感される。TOBYOの収録サイト数は今年中に2万5千件を超える見込みだが、今後も継続して積み上げを図っていくことになる。

私たちのDFCと同じような発想で開発されているイスラエルのFirst Life Researchは「16万サイト、100億レポート」を豪語しているが、掲示板やSNSなどにある闘病体験まで片っ端からクロールしているようだ。もちろんデータは多ければ多いほど良い。私たちの経験からすれば、マーケティング・リサーチに十分対応するシステムを作ろうとすると、最低でも300万ページ以上のUGCデータが必要だ。しばしば、「信頼性などデータの質の問題をどう考えているのか?」と訊かれることがあるが、UGCソース、あるいはソーシャルメディア・ソースのリサーチというものへ一歩踏み出すためには、当然、従来の「データの質」の見方も変わってくるだろう。

「量は少ないけれど質は高い」みたいなデータ観ではなく、UGCやソーシャルメディアの時代には「大量のデータを確保すれば、そこに含まれる良質のデータの絶対量も多いはずだ」というデータ観が必要になっている。データを集めるコストは劇的に下がっているのだから、前提となるのはあくまで「量」となっている。はじめから一つ一つデータの「質」を吟味するよりは、とにかく大量にデータを収集し、あとで選り分ける方が効率的だ。First Life Researchなどはこの考え方を徹底的につきつめたシステムだと言える。 続きを読む