5.2 はタグ付きコーパスの続き。
タグの NN$
のように、$がついているとプロットするときのラベルとしてパースでいないので、雑に削除するコードを昨日書いた。んだけど、これはよくないことに気づく。
読み進めていくと、NN
タグは spam のような一般的な名詞、 NN$
タグは spam's のような所有格名詞を表す。
import nltk
tagged_words = nltk.corpus.brown.tagged_words(categories="news")
dist = nltk.FreqDist(tag.replace("$", r"\$") for (word, tag) in tagged_words)
dist.plot()
Top comments (0)