粗略的看了一遍,最后几章几乎就是过了一眼。
有很多知识是暂时看不懂,过一段时间需要重读一遍。
没有提到中文的处理。不过大体的流程和原理应该是差不多的,书里提到了以下的技术,中文处理应该也同样需要,把看到大概的内容记录如下
1.Tokenize
2.Tagging,也就是给出词性标注,名词,动词,介词,形容词等等
这里提到了几种方法
简单的一种就是根据构词规则来做,比如ing结尾是动名词,ed结尾是动词过去式,es结尾是名词复数,等等,当然这样有不少缺陷。
也一种方法叫N-Gram Tagging,依据相连词的词性来确定,N=2,那就是2-gram,也叫bigram,比如两个句子 I read the book。I book the room。想要确定两个book的词性,通过学习发现在限定词后的book经常是名词,而在人称代词后的book经常是动词,于是就能区分这两个book的词性。
3.用文本的Features来做Classification
这一章里有个例子,统计情态动词的数量来区分文章的种类,发现
will使用频率最高的news,could用得最多的是romance,science这些词都相对比较少
4.IE,Information Extraction,主要是抽取非结构化文本中的信息组成结构化的信息
这里主要做的是Entity Recognition,处理的过程叫Chunking,然后再是Relation Recognition。
把标注好词性的token根据一些语法规则拼成更大单元的Chunk,有的是名词短语Noun Phrase Chunking,有的是动词 Verb Phrase Chunking,如果是名字还要做分类:人名,地点,时间,机构等,再用动词短语来确定他们之间的关系
后面的几章我没有再详细看了
不得不羡慕英文相比中文对计算机处理的友好程度
对“不得不羡慕英文相比中文对计算机处理的友好程度”的回应
《Python自然语言处理》热门书评
-
与NLTK关系暧昧的书
19有用 0无用 盐汤儿 2009-05-25
记得2007年上半年,最初读到这本书的时候还是草稿,用了整个一个暑假来仔细研究这本书,现在已经和以前的有很大不同了!如果你要是自然语言学或语言信息处理相关专业的学生,又对python与nltk感兴趣的话,就看这本书吧,可以当做入门读物来看,整本书即涉及...
-
不得不羡慕英文相比中文对计算机处理的友好程度
7有用 0无用 casanova80 2011-02-20
粗略的看了一遍,最后几章几乎就是过了一眼。有很多知识是暂时看不懂,过一段时间需要重读一遍。没有提到中文的处理。不过大体的流程和原理应该是差不多的,书里提到了以下的技术,中文处理应该也同样需要,把看到大概的内容记录如下1.Tokenize2.Tagging,也就是给出词性标注,名词,动词,介词,形容词...
-
在这本书的带动下,我有点喜欢上了自然语言处理
5有用 0无用 捂汗县长 2013-07-08
现在的研究方向是NLP,由于以前没有相关的基础知识(特别是数学很差劲),导致学习起来觉得困难重重。后来了解到Python语言在NLP领域有较好的应用空间,于是就学习了Python的基础知识,然后就发现了此书的中文翻译版,于是打印出来认真拜读。它的特点是:实例多(虽然木有中文方法的实例),条理清楚,涵...
-
很好的一本书
0有用 2无用 reedboat 2013-04-27
不过书中还用了一部分篇幅穿插讲解python最基础的编程技术,就不太让人理解了。 读这种书肯定是先对python有一定的了解了。这一点有点定位不清啊。 整体的还是很不错的。为什么发表不了,抱怨我评论太短。 150字还短么...
-
结合Python语言特性学习NLP,还不错
0有用 0无用 流镡随语 2014-03-01
结合Python的语言特性,循序渐进介绍了很多自然语言处理方面的知识,以及如何使用nltk进行NLP。再次体会到Python在文本处理方面有着很多先天优势。不过,如果Python较为熟悉,这本书的很多章节可以略过。...