Skip to content
loading...

入門自然言語処理 pp.199-203

twitter logo ・1 min read  

5.2 はタグ付きコーパスの続き。

タグの NN$ のように、$がついているとプロットするときのラベルとしてパースでいないので、雑に削除するコードを昨日書いた。んだけど、これはよくないことに気づく。

読み進めていくと、NN タグは spam のような一般的な名詞、 NN$ タグは spam's のような所有格名詞を表す。

import nltk
tagged_words = nltk.corpus.brown.tagged_words(categories="news")
dist = nltk.FreqDist(tag.replace("$", r"\$") for (word, tag) in tagged_words)
dist.plot()
twitter logo DISCUSS
Classic DEV Post from Nov 14 '19

Share your CSS knowledge

Today I learnt about the :placeholder-shown pseudo-selector thanks to Daniel’s Tweet....

Toru Furukawa profile image
Join DEV

Learn how to be better at computers and programming and stuff. DEV 4 life.