《自己动手写网络爬虫》 作者亲自主讲。每年培训不超过3期。
随着智能软件的不断普及,搜索引擎开发成为一项极富含金量的工作,市场对搜索软件开发工程师的需求极其旺盛。大型搜索门户需要大量专门的搜索软件开发人才,而众多中小型网站及企业也需要垂直搜索,网站搜索,全文检索,知识库系统等非结构化数据开发软件工程师。搜索引擎软件开发工程师培训将提供业界流行的基于Lucene的开源解决方案培训,以及网络信息抓取实用培训,文本挖掘等智能软件技术的深入应用培训。
完成培训的学员具有高端搜索引擎软件开发工程师的资质。
内容:高端搜索软件技术
在培训名师的亲自带领下,通过完成一个基于Java Lucene全文检索核心的、Linux平台、以Hadoop或Solr为搜索集群平台、使用Div和Ajax技术创建用户浏览器界面,完成一个包括网络信息抓取,自动分类的高性能,智能垂直职位搜索系统。培训学员全程参与软件产品的分析、设计和开发。掌握开发大型分布式搜索集群所需要的算法基础、实践经验。
前导知识简介:
希望学员在学这门课程时必须具备的知识是:CoreJava、Servlet、Jsp。如果学员具备以下知识点:数据结构、编译原理、概率论,会帮助学员更深刻的理解搜索。没有这些基础的学员也不必担心,随着课程的进行老师会帮大家整理相关知识点。
五大热点技术:
全文检索技术:Lucene/Solr的基本使用及高级技巧。
网络爬虫:Nutch、网页正文提取、信息采集。
中文分词:中文分词语料库整理、正向或反向最大匹配的中文分词方法以及概率分词算法、高效查找词典算法。
分布式搜索:多shard搜索单元的查找、Hadoop分布式云计算环境。
文本挖掘:拼写检查、自动摘要、采用机器学习方法训练的文本自动分类,自动聚类。
真实项目实战:
通过完成由北京盈智星科技发展有限公司提供的智能垂直人才招聘搜索的开发,精通全套智能搜索开发技术,掌握算法原理,实践和架构,积累1-2年的搜索软件开发经验。
就业通道:
国际一流的软件公司:
微软、IBM、阿里巴巴。
Alexa排名几千名以内的各大网站:
Google、百度、淘宝、搜狐、Ebay、宜搜、搜房网。
各大行业网站:
酷讯网、去哪网、医药网、律师网。
热门行业:
金融,电力,银行等。
授课方式:
人手一机。提供基于Linux集群的Nutch分布式搜索实战环境。
入学条件:理工科本科以上学历
从基础开始,由浅入深,循序渐进,适合理工科本科以上或同等学历者。
课程安排:全日班,2个月。
每期招收人数不超过10人,预报从速。
联系msn:lgjut@sina.com QQ:270954928 电话 010-81727660
搜索引擎开发培训
《自己动手写网络爬虫》热门书评
-
中国人写的就是这样的书?
40有用 1无用 飞林沙 2011-01-27
开始从Web开发转向了网络爬虫的方向,然后在书店一个特偶然的机会,就看到了这本书,由于这是国内唯一一本关于网络爬虫的书,所以想也没想就买下了。其实我原本是很不信任中国人写的书的,不过最近看了一些比如《Javascript王者归来》,再追溯到很久以前的《你所知道的.NET》,我发现其实国人写的书也是不...
-
罗刚再次抄袭,赤裸裸的欺骗
9有用 1无用 只差一步 2011-10-06
本不想骂人,对于罗刚只能骂。。。一本东抄西抄的书,更可恨的是超的多是几年前的东西。。很多类包就根本找不到,比如(newwatch.toolkit包)。而且第四章的正文提取代码连中文解释都是抄的。。不想再说什么了。这样赤裸裸的欺骗,。我准备投诉出版社。。。...
-
HttpClient的例子
4有用 3无用 lgjut 2011-03-30
书中介绍的HttpClient版本旧了,下面是新的4.0版本的例子:import java.io.BufferedInputStream;import java.io.IOException;import java.io.InputStream;import java.util.ArrayList;...
-
一本较综合的收集了网络相关知识的入门书
4有用 1无用 icefreedom 2010-12-30
虽然是最近才出的一本书,里面涉及到知识大部分可以在网络上找到,如第一章后面列举的爬虫,就有同样的英文文档,而且是很早以前的,作者根本没有自己去做些分析。第二章的bigtable,consistent hash都是现有论文或文章。书中大段的代码其实也是没必要的,光盘里都有,书的内容应该更充实,比如爬虫...
-
写得真的很烂
2有用 0无用 灰色影子 2014-05-25
想了解一下nutch,然后买了这本书,但是作者大量的copy网络资料,而且例子举得也很烂,然后东一点,西一点拼凑了这本书,看了几章,实在看不下去了。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...