自然言語処理ことはじめ―言葉を覚え会話のできるコンピュータ

自然言語処理ことはじめ―言葉を覚え会話のできるコンピュータ
荒木 健治
森北出版
売り上げランキング: 88452


研究などでmecabYahoo! 日本語形態素解析Webサービスを使って形態素解析した結果を統計的に処理したりすることが多いのですが、きちんと自然言語処理について網羅的に内容を勉強していないので、店頭で見かけて一番わかりやすそうなこの本を呼んでみることにしました。

わかりやすくするために詳しい話はカットされているので、難しい説明はほとんど出てこず、ページ数もそう多くないので、すぐに読むことが出来ました。
読み終わってから、今後意味解析とかに一歩足を踏み出せそうな気がしました。
各章ごとにコンピュータに自然言語を扱わせる方法を紹介しているのですが、章の終わりにその対象に対して筆者が実際にどのような研究をしているかの説明が入ります。
自然言語初心者としては少々難解な部分もあるので、興味のない部分は飛ばしてもよいと思うのですが、個人的にはGAを用いた帰納的学習の話が面白かったですが、論文をWebから自由に見ることができないのが残念でした。



以下、後でもうちょっと調べようと思った話。

n-gramの統計言語モデルで文章から単語を切り出す

文章中の単語の出現頻度を調べるときに、隣接するものを一まとめにして共起頻度を求め、確率が閾値を越えた場合に単語分割を行う手法です。文字単位でやる場合もあれば、単語単位でやる場合もあります。
buzztterの裏側でフレーズを抽出する話でも出てきましたね。
http://d.hatena.ne.jp/darashi/20071106/1194365071

ELIZAの話

精神分析医のインタビュー代行システムで、人間と雑談を行うことができるシステムです。
人口無能に興味がある人なら多分知っていると思います。
マイクロソフトも参入、広告分野で注目される人工「無脳」の魅力とは - CNET Japan
上記の記事でもあるように最近また人口無能が注目されてきているのかな?
実際のルールについては詳しく知らないので、時間があれば調べたいです。

遺伝的アルゴリズムによる文生成ルールの学習

先ほども少し触れましたが、これについてはちゃんと論文を読んでみたいと思っています。



筆者のWebページ:
http://sig.media.eng.hokudai.ac.jp/~araki/