loading...

入門自然言語処理 pp.215-225

twitter logo ・1 min read

5.4 自動タグ付けの続き。「's」で終わる単語は所有格名詞、のような正規表現にタグ付けをする。タグ付けされたコーパスの頻出単語からルックアップテーブルを作る、残りはとりあえずよくあるタグである名詞としてタグ付けする。と、そこそこの精度でタグ付けができるようだ。もちろんルックアップテーブルや正規表現パターンを増やせば精度はあがるけど、ある程度からは向上しない。

たぶん、時事ニュース記事なのか、ある特定の分野の学術論文なのか、はあちゅうのブログなのか、とかがあらかじめ分かっていれば、より適切なタグ付けモデルを作ることがきるんだろう。

5.5 Nグラムタグ付け。直前の単語も考慮することで、文脈によるタグ付けが可能になる。未知語にもある程度対応できる。

twitter logo DISCUSS
Classic DEV Post from Jul 17 '19

What are you (still) not interested in learning?

I'm interested in hearing not only what you are *not* interested in learning. But if you answered the question last time, has anything changed?

Toru Furukawa profile image