お久しぶりでございます。
技術評論者さまのWEB+DB PRESS Vol.59で少しだけ執筆させていただきました。
[実践]大規模データ分析というテーマで特集を組ませていただき、
1章 データマイニング入門
2章 テキストマイニング
3章 クラスタリング
4章 ログデータマイニング
5章 リンクマイニング
という章立てで僕は「テキストマイニング」について書かせていただきました。
テキストマイニングということで、とても幅の広い話なので、どのようにまとめるかに苦難しました。専門家の方には物足りないかもしれませんが、紙面にも限りがあるため、今回はテキストマイニングの概要とhadoopを使った効率的な頻度分析、共起分析についてまとめ、全体的に基本的な内容でまとめさせていただく運びとなりました。
キーワードを抽出し、特徴ベクトルさえできてしまえば、応用できる手法を掲載した書籍がたくさんあることもあり、今回はキーワード抽出のところに重きを置かせていただきました。hadoopを使ってmixiの日記から簡単にキーワードランキングを作成する方法や、共起分析をした結果なども掲載しました。
ぜひ、ご一読していただけたら幸いです!
仕事が少し落ち着いてきたのでそろそろblogを再開したいと思います!!