loading...

入門自然言語処理 pp.86-117

twitter logo ・1 min read

3.2章は、Python の基本的な文字列処理。3.3 は Unicode とエンコーディングの考え方。Python 2 を前提にしているので、 u"..." とか。3.4、3.5 は正規表現と nltk の検索関数。

import nltk
from nltk.corpus import gutenberg, nps_chat

moby = nltk.Text(gutenberg.words("melville-moby_dick.txt"))
moby.findall(r"<a> (<.*>) <man>")

chat = nltk.Text(nps_chat.words())
chat.findall(r"<.*> <.*> <bro>")
chat.findall(r"<l.*>{3,}")

3.6 は正規化、ステミング。

twitter logo DISCUSS
Classic DEV Post from Dec 11 '19

If you work as a dev for a product team, what's it like?

Toru Furukawa profile image