http://www.topteam.cc/02-shop-detail.php?cid=47&pid=236
當你在飆網時,是否知道還有一類特殊的網路使用者也再網際網路上默默的工作著,他們就是網路爬蟲。這些網路爬蟲按照設計者預定的方式,在網路中穿梭,同時自動蒐集有用的資訊,進行分類和整理,將整理結果提供給使用者,方便使用者尋找他們感興趣的內容。由於網路爬蟲的實用性,引起很多程式師,特別是Web程式師的興趣。
本書是第一本專門講解網路爬蟲開發的書籍,將理論與實作相結合,介紹如何利用雲端運算架構開發分布式爬蟲、介紹網路爬蟲開發中的關鍵問題與java實現。從基本的爬蟲原理開始講解,引領讀者入門;到重點講述雲端運算的相關內容及其在爬蟲中的應用。適用於需要實際應用搜尋引擎的程式師使用,或作為電腦相關專業科系參考教材。
使用c#开发的读者,可以阅读:
http://product.dangdang.com/product.aspx?product_id=22602706
繁体版本
《自己动手写网络爬虫》热门书评
-
中国人写的就是这样的书?
40有用 1无用 飞林沙 2011-01-27
开始从Web开发转向了网络爬虫的方向,然后在书店一个特偶然的机会,就看到了这本书,由于这是国内唯一一本关于网络爬虫的书,所以想也没想就买下了。其实我原本是很不信任中国人写的书的,不过最近看了一些比如《Javascript王者归来》,再追溯到很久以前的《你所知道的.NET》,我发现其实国人写的书也是不...
-
罗刚再次抄袭,赤裸裸的欺骗
9有用 1无用 只差一步 2011-10-06
本不想骂人,对于罗刚只能骂。。。一本东抄西抄的书,更可恨的是超的多是几年前的东西。。很多类包就根本找不到,比如(newwatch.toolkit包)。而且第四章的正文提取代码连中文解释都是抄的。。不想再说什么了。这样赤裸裸的欺骗,。我准备投诉出版社。。。...
-
HttpClient的例子
4有用 3无用 lgjut 2011-03-30
书中介绍的HttpClient版本旧了,下面是新的4.0版本的例子:import java.io.BufferedInputStream;import java.io.IOException;import java.io.InputStream;import java.util.ArrayList;...
-
一本较综合的收集了网络相关知识的入门书
4有用 1无用 icefreedom 2010-12-30
虽然是最近才出的一本书,里面涉及到知识大部分可以在网络上找到,如第一章后面列举的爬虫,就有同样的英文文档,而且是很早以前的,作者根本没有自己去做些分析。第二章的bigtable,consistent hash都是现有论文或文章。书中大段的代码其实也是没必要的,光盘里都有,书的内容应该更充实,比如爬虫...
-
写得真的很烂
2有用 0无用 灰色影子 2014-05-25
想了解一下nutch,然后买了这本书,但是作者大量的copy网络资料,而且例子举得也很烂,然后东一点,西一点拼凑了这本书,看了几章,实在看不下去了。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...