最近埋头苦看各种搜索引擎原理的书籍,当然我是一个入门者,所以从入门者的角度来说几句吧~
首先我的背景是给老外打工,所以几乎都是英文,挑选这本书仅仅是偶然,其实我想找的是另外一本 《信息检索实践》,在误点的情况下下载了本书,然后读完了,通读一遍的感觉是里面还不是很深入。
个人感觉搜索引擎的重点有三个:划词,搜索,抓取。
划词是最难的,个人感觉是最难的,因为不论从中文还是英文来说,各种的动词数词和名词都是比较难以掌控,简单点举个例子“google”是一个新生词,很多人用google代表搜索,用百度同样也可以代表搜索,在这种情况下,划词是最困难的……而电脑搜索和图书馆搜索的最大不一样在于图书馆是既定的,但是电脑是无限扩张。但是这本书里面其实并没有很详细的说这种东西,这种东西如果要说,其实也不只有300页就能讲完了吧。
排序,其实这玩意就是数学,加权神马的谁最高谁排第一,问题是怎么算这个值。这段部分其实作者也结合了各种划词的原理,来讨论各种词的属性之类,不过还不是很详细。
搜索是最接近程序员的,从一开始的SQL的各种select语句开始,就开始接触到了搜索,不过搜索引擎的搜索是以文档为基础的,而非以数据库。本书里面提到一个新的东西叫BigTable,我从来没有接触过,但是个人感觉和Linux的系统很相似,BigTable是一种基于文档结构而开发的带有数据检索功能的文档系统(怎么这么绕?)好吧,反正就是很好玩啦。
最近在接触的是NOSQL的数据库,也是大型的文档型数据库,正在尝试两者互相融入,因为数据流量并非只有100000这么少,日常的IO工作保守估计也会很大量,暂时还没做测试,所以不表。
最后一点就是抓取,花了大量篇幅来说抓取工作,从URL的角度,从页面链接的角度。对于这个我比较外行,所以我根本不知道我该说什么……因为什么都很重要,人工智能也不过如此吧。
最后的最后,欢迎交流,请勿吐槽,随笔于TUE图书馆。
其实还是比较推荐的
《搜索引擎》热门书评
-
很好的入门读物
6有用 0无用 笔端 2009-06-20
国内的著作,特别是冠以学术的东西,不论是可读性还是内容的质量都很糟糕,但这本却是例外。300多页的内容把搜索引擎的原理讲的很清晰,此书成于2005年,搜索引擎领域的发展发生了极大的变化,但是基本的原理还是想通的,需要解决的问题还是一致。比如分词,检索还有存储,书中给出的例子通俗易懂,远比直接看xx引...
-
国内书中不错的一本
2有用 0无用 Rocky 2009-03-22
主要是由北大李晓明那个实验室所发表的论文组成,很多地方偏学术,但是在国内这本书应该是最好的搜索引擎方面的书籍,推荐大家作为搜索引擎入门的书籍,要了解最新的搜索引擎技术还是要多读SIGIR,WWW等会议的相关论文。读完这本书,可以进一步学习<Pattern Recognition and Mac...
-
的确适合入门
1有用 0无用 likalover 2010-03-25
适合搜索引擎入门时阅读: 内容还算比较全面, 涉及到SE的各个方面,但很多技术的确有点老了, 毕竟这本书出的比较早建议配合TSE 代码阅读...
-
总体还好
1有用 0无用 wind 2012-03-14
因为以后要从事搜索开发的工作,所以公司推荐了这本书。书挺薄的,前后一个月看完吧,总体感觉还行。这本书把搜索引擎相关的各项技术基本都做了介绍,比较全面,算是为数不多、质量不错的入门书籍。说说缺点吧,这本书应该是北大n多论文拼出来的,有一种前后不太连贯的感觉;因为是论文,讲得都有点太偏学术性了,涉及实践...
-
其实还是比较推荐的
1有用 0无用 Melondear 2012-05-11
最近埋头苦看各种搜索引擎原理的书籍,当然我是一个入门者,所以从入门者的角度来说几句吧~首先我的背景是给老外打工,所以几乎都是英文,挑选这本书仅仅是偶然,其实我想找的是另外一本 《信息检索实践》,在误点的情况下下载了本书,然后读完了,通读一遍的感觉是里面还不是很深入。个人感觉搜索引擎的重点有三个:划词...