言語処理のための機械学習入門


東工大の奥村先生監修、高村先生著の「言語処理のための機械学習入門」が発売されました。これは読まなければ!と思い、さっそく手に入れました。本書の感想は本当にシンプルな一言に尽きます。

「大学時代にこの本がほしかった。。。」

本書の目次の中見出しまでを以下に引用させていただきます。

1. 必要な数学的知識
1.1 準備と本書における約束事
1.2 最適化問題
1.3 確立
1.4 連続確率変数
1.5 パラメータ推定法
1.6 情報理論
1.7 この章のまとめ

2. 文書および単語の数学的表現
2.1 タイプ、トークン
2.2 nグラム
2.3 文書、文のベクトル
2.4 文書に対する前処理とデータスパースネス問題
2.5 単語ベクトル表現
2.6 文書や単語の確率分布による表現
2.7 この章のまとめ

3. クラスタリング
3.1 準備
3.2 凝集型クラスタリング
3.3 k-平均法
3.4 混合正規分布によるクラスタリング
3.5 EMアルゴリズム
3.6 クラスタリングにおける問題点や注意点
3.7 この章のまとめ

4. 分類
4.1 準備
4.2 ナイーブベイズ分類器
4.3 サポートベクターマシン
4.4 カーネル法
4.5 対数線形モデル
4.6 素性選択
4.7 この章のまとめ

5. 系列ラベリング
5.1 準備
5.2 隠れマルコフモデル
5.3 通常の分類器の逐次適用
5.4 条件付確立場
5.5 チャンキングへの適用の仕方
5.6 この章のまとめ

5. 系列ラベリング
5.1 準備
5.2 隠れマルコフモデル
5.3 通常の分類器の逐次適用
5.4 条件付確立場
5.5 チャンキングへの適用の仕方
5.6 この章のまとめ

6. 実験の仕方など
6.1 プログラムのデータの入手
6.2 分類問題の実験の仕方
6.3 評価指標
6.4 検定
6.5 この章のまとめ

数学的知識の解説が充実している

目次を見ただけで、納得していただけるのではないでしょうか。特に僕がよいと思ったのは1章の「必要な数学的知識」の充実振りです。僕も学生時代にはとても苦しんだのですが(今でも苦しみますが。。。)、時々、論文を読んでいて、「何がわからないかがわからない」ということがありました。
高村先生の先生としての経験の中から、機械学習を勉強するには、まずこれを知らないと理解ができないということをとてもよくまとめてくれているように思います。僕も学生時代にサポートベクターマシンを勉強しているときに苦しんだのですが、本書では以下のように解説されていて、当時にこれがあればなー!と思いました。

p.15

ラグランジュの乗数法をきっちり理解すれば、理解できる論文の数は激増するといってよいだろう。実際、確率分布のパラメータ推定でも(4.2節)、EMアルゴリズムでも(3.5節)、ナイーブベイズ分類器でも(4.2節)、サポートベクトルマシンでも(4.3節)、ラグランジュの乗数法が使われている。

素敵です。こういう情報があらかじめあるかないかで、論文を読むスピードはとても早くなると思います。学生のときはわけもわからず読み進め、わからないところがあっては、本で調べ、参考文献を読んで、を繰り返し、なんとなくわかってくることだと思うの\
ですが、本書を読めば、その時間がかなり短縮できるように思いました。

準備が素敵

3,4,5章の導入には「準備」と題して、これらの技法が実際どのように使われるのかが解説されています。本書の内容は一見、数学的で難しそうな感じもあるのですが、実世界とのリンクも考慮されていて、初学者にとっても理解しやすい構成となっています。

ビギナーな方にとってはとっつきにくいと感じられるかもしれない

本書は導入の時点で最適化問題や、ラグランジュの乗数法が解説されているため、ビギナーな方にとっては「なんか難しそう!」と感じて挫折感を味わってしまうかもしれません。しかし、これらは論文を読む上で、とっても大事な話が凝縮されているように見えます。そういった意味では、ものすごく親切な構成になっていると私は感じておりますので、ビギナーの方もあきらめずに読み進めることをお勧めします。

まとめ

今もぱらぱら読みながらこのレビューを書いているのですが、読むたびに、「あーこれ情報がなくて苦しんだんだよなー!」ってトピックがあって涙腺を緩ませながら読んでいます。最近は自然言語処理学での研究テーマは機械学習を用いた手法がトレンドとなっております。しかし、本書のように機械学習の勉強を始めるための解説書があまり無かったため、苦労する人が多かったのではないかと思います。本心で良い教科書だと思いました。本エントリーを読んで下さった皆さまもぜひご一読してみてください。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です