オライリーの「入門自然言語処理」を読み始めた。2012年刷の本だけど、大きめのチュートリアルとして読むぶんには、たぶん問題ない。何も知らないんだから。
ロマンスのジャンルにおいてもっとも頻繁に現れる法助動詞が「could」なのに対し、ニュースの 場合は「will」であることがわかるだろう。そのことをこのコードを実行する前に予測できただろう か。特定の語の数を数えることでジャンルが特定できるかもしれないというアイデアは、6章で再 び収り上げる。
こんなこと考えもしなかった。いきなり面白い。
機械学習とかよりも前に、基本的な統計でできることはたくさんありそうだ。
今日は47ページまで読んだ。
Top comments (0)