5.4 自動タグ付けの続き。「's」で終わる単語は所有格名詞、のような正規表現にタグ付けをする。タグ付けされたコーパスの頻出単語からルックアップテーブルを作る、残りはとりあえずよくあるタグである名詞としてタグ付けする。と、そこそこの精度でタグ付けができるようだ。もちろんルックアップテーブルや正規表現パターンを増やせば精度はあがるけど、ある程度からは向上しない。
たぶん、時事ニュース記事なのか、ある特定の分野の学術論文なのか、はあちゅうのブログなのか、とかがあらかじめ分かっていれば、より適切なタグ付けモデルを作ることがきるんだろう。
5.5 Nグラムタグ付け。直前の単語も考慮することで、文脈によるタグ付けが可能になる。未知語にもある程度対応できる。
Top comments (0)