京都新聞TOP > 情報技術最前線
インデックス

[22]テキスト・データマイニング

立命館大情報理工学部准教授 西原陽子氏
テキスト・データマイニング

 現代に生きる皆さんは、日々大量の情報に接しています。ウェブがなかった時代と比べると、1日の間に触れる情報の量は桁違いに多くなりました。少し古いデータですが、ある動画投稿共有サイトの2012年発表によると、1分間にアップロードされる動画は合計で60時間分になったとのことです。今ではアップロードされる動画はもっと増えていると考えられます。一つのサイトだけでも、それが抱える情報量は膨大となっています。ウェブ全体を考えますと、一人の人間が一生をかけても全ての情報を見たり読んだりすることは難しくなったと考えられます。

 そもそも、なぜこのように大量の情報が生み出されるのでしょうか。これは皆さん一人一人の日々の活動の結果により起こると考えられます。人間は朝起きてから夜寝るまで、さまざまな活動をします。活動の結果を他者に伝えて報告をすることもあるでしょう。その際に結果が情報という形で表現されます。

 例えばある人がいて、その人が新しく開店したお店に行ったら、このようなことをウェブにアップするかもしれません。「新しく開店したお店に行った。思いのほか雰囲気がよかった」や「新しく開店したお店でお菓子を買ってみた。おいしいけど、値段が高くて残念」とか。このような形で大量の情報が生み出されています。

 これらの発言はある人にとっては、とても貴重な情報となります。それは誰でしょうか。答えはお店の店主です。この情報が手に入ると、店主はお店をより良くするための対策をとることができます。雰囲気がよいと評価されているので、雰囲気を保つためにインテリアを工夫したり、値段が高いと評価されているので、少し小さくして値段を安くしたりするなど、お店の改善ができるようになります。

 このような貴重な情報は膨大な情報の中に埋もれています。そこから効率よく手に入れるにはどうすればよいでしょうか。これを支援する技術の一つにテキスト・データマイニングがあります。データは情報のことです。テキストはデータの一種で、言葉で書かれた情報を指します。マイニングは英語のmineから来ており、miningと書きます。mineの元々の意味は鉱山から貴重な鉱石を掘り起こすことです。鉱山と大量の情報、貴重な鉱石と貴重な情報の対比がされています。大量の情報の中から、貴重な情報を見つける支援をしてくれる技術がテキスト・データマイニングです。

膨大な情報から貴重なものを抽出

 筆者らの研究チームでは、テキスト・データマイニングの技術について研究を進めています。一例として、会員制交流サイト(SNS)に投稿される情報の中から、商品やサービスに関する要望や改善希望が書かれたものを抽出し、新しい商品や新しいサービスのアイデアを考えることに利用するものがあります。また書かれた文章の中で分かりにくい文を抽出して指摘し、誰が読んでも分かりやすい文章へと直していく支援をするものもあります。

 テキスト・データマイニングでは、大量の情報の中から貴重と思われる情報を抽出してくれますが、それに対して「なぜ貴重なのか」「どう使うと効果を発揮するか」など、抽出された情報に対して解釈を与える必要があります。解釈の作業は非常に複雑で多くの場合は人間がこれを行っています。解釈を行える人材をどう育てていくかも、この研究分野の課題と言えます。

にしはら・ようこ

 1980年生まれ。2007年大阪大学大学院基礎工学研究科博士後期課程修了。博士(工学)。日本学術振興会特別研究員、東京大学大学院工学系研究科助教、講師を経て、12年より立命館大学情報理工学部准教授。

【2019年01月23日掲載】