突然なのですが、よく分類器などを実装して、その精度をチェックするためにコーパスが必要になることってよくありますよね。
そこで、よく論文などで評価で使われているデータセットを使おうと考える訳ですが、そうゆう時に限ってデータセットの名前が出てこなかったりします。
あと、いつも同じデータセットだとあんまり面白みもかけてきちゃったりして、よーし自分で作っちゃおうぞー!ってなってがんばってクローラーを書いたりして、ウェブコーパスを作ったりしようとするんですが、だいたい途中で飽きちゃったりするんですよね。

さて、前置きが長くなりましたが、machine learningの評価で使われるデータセットがまとめてあるページを見つけたので紹介させていただきます。

UCI Machine Learning Repository: Data Sets

ぱぱーっと見た感じで、すごい色々な種類があってぜひ色々試してみたいですね。ダウンロードもできるみたいだし、さくっと使えそうです。
今日は寝る時間なので試せないですが、今度時間があるときにいくつか実際に試したレポートを書きたいと思います!その日まで待っていてください。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です