事例で学ぶテキストマイニング

posted with amazlet at 09.02.19

渕上美喜末吉正成高山泰博今村誠小木しのぶ村田真樹
共立出版
売り上げランキング: 173607

｢「事例で学ぶテキストマイニング」を発注｣経由で知って、直後に本屋に行ったところ偶然発見したので買ってみました。
こういう分野を専門にしている人というより、｢テキストマイニングに興味があるんだけど、何から手をつけたらいいんだろう｣という人向けな内容。
2章の自然言語処理入門と、3章のテキストマイニングの実践の基礎編を読めば、テキストマイニングで使われている基礎の技術と、実際にどうやって分析していくのかがなんとなくわかると思います。
事例が5つ取り上げられていますが、それぞれ、Chasen＋YamCha、WordMiner、Text Mining Studio、DIAMining EXと使っているテキストマイニングソフトが違います。実行結果の見方についても詳しく解説してあるので、テキストマイニングツールってどんなことができるのか知りたい人は参考になります。
個人的には、ChasenとYamChaによる｢社説タイトルを利用した社会動向の把握｣が自分とやっていることが近いので参考になりました。
後、付録1のデータマイニングソフトの比較は、他では見たことがないので、購入を検討している人には有益な情報になると思います。

参考になった技術の話

特徴分析（第3章の3.2.4）

ある文書の集合で特徴的な単語を抽出する方法です。

特徴度 = 共起回数の実測値 / 共起回数の期待値

でその集合における単語の特徴度を求めることができます。
たとえば、ブログの記事が100あって、その内10の記事に｢Java｣というタグがついていたとします。
｢wicket｣という単語を使っている記事数が全体で15、そのうち｢Java｣とタグがついた記事数が5だとした場合、

共起回数の期待値 = 15(｢wicket｣の総数) * 10(タグ｢Java｣の総数) / 100(総記事数) = 1.5
タグ｢Java｣における｢wicket｣の特徴度 = 5 / 1.5 = 3.33...

となります。
これをすべてのタグと単語について行えば各タグの特徴を分析することができます。
TF-IDFと比べるとどっちが効果的なのかな？

意味ソート(付録5)

ある単語に関連のある語を出すときに、50音順や頻度順で並べてもわかりにくいから、｢組織｣とか｢人間｣とかの意味でまとめたらわかりやすいよね、という話。分類語彙表を利用してソートします。
分類語彙表のデータベースは以下のページから申し込んで入手可能で、研究開発用途に使えます。
独立行政法人　国立国語研究所：データベースのお申し込み