文戴: 本书次要包罗整体引见部门、爬虫部门、天然言语处置部门、齐文检索部门和相干案例阐发。爬虫部门引见了网页遍历办法战怎样完成删量抓与,并引见了从网页等各类格局的文档中提与次要内乱容的办法。天然言语处置部门从统计机械进修的道理动身,包罗了中文分词取词性标注的实际取完成和正在
搜索引擎中的适用等细节,同时对文档排重、文天职类、主动散类、句法阐发树、拼写查抄等天然言语处置范畴的典范成绩停止了深化浅出的引见并总结了完成办法。正在齐文检索部门,分离Lucene 3.0引见了搜刮引擎的道理取停顿。用简朴的例子引见了Lucene的最新使用办法。