开学没到2周,这本书已经读完,写的非常细致,也很基础,只有英文版本的,但是写的很口语化,其中还有很多joke,如果你想入门爬虫,推荐这本书。
略去安装的细节,此书使用的是Py3.
第一,二章直接推荐大家使用BeautifulSoup来解析网页,个人觉得最好用的还是lxml,但是本书并没有讲到。BS的使用分为三个步骤,创建,搜索,访问。直接引用标签只会返回第一个匹配的element,你如果想要返回多个那么就要使用find_all,如果限制访问个数择则有一个limit属性,如果访问标签不存在则会返回None,但是如果继续访问这个不存在标签的属性,则会返回Error,所以使用要注意。其他的使用还有很多,例如Navigating Trees,BS最最强大的在于它支持ReEx,还有很多小的细节,访问节点的三种方式,匿名函数,最后也推荐了lxml。个人提示,当你的电脑装了lxml之后,在使用Bs创建对象的时候,加上html的解析器属性--html.parser
第三章,爬虫的基础,算是前面讲解的实战。
第四章,使用API爬取信息,可以省略大部分,后面关于JSON的解析有必要注意一下,loads,jumps直接对于Json格式和字典的转换。
第五章,存储数据,介绍了CSV(comma-separated values),以及MySQL,MySQL的使用可以专门去学习,而且很重要。Py2中是用MySQLdb库来操作数据库,在Py3中则换用PyMySQL,最后则是讲解了使用smtplib来发送Email,因人而异的功能。
第六章,文本的操作,手先讲解了编码的处理,decode > unicode > encode,utf8只是unicode的编码实现方式。首先是如何处理CSV文件(CSV),然后PDF(pdfminer)及docx(zipfile)
第七章,高阶爬虫的技巧,也是我看本书的最终目的。本章着重讲解数据的清洗,使用正则,或者repalce一下,其实python的numpy或者pandas在这方面已经很优秀。同时本书介绍了专门的软件按OpenRefine.
第八章,马尔可夫模型生成伪随机文本,还介绍了NLTK工具包,这个英文支持良好,中文不了解。
第九章,模拟登录,使用强大的requests。保持登录使用session来访问,最后稍微讲解了Auth。
第十章,Js解析,使用selenium和PhantomJS来解析网页,通过调用API来实现一些操作,最后处理了客户端Js重定向问题,服务器端不用担心,因为Python的内置库文件自动执行
第十一章,图像识别,反爬虫机制的发展是不断上升的过程。在CAPTCHAs可以使用PIL简单识别,或者使用Tesseract来模拟训练,图像识别或者说OCR本身就是很大的方向,可忽略
第十二章,避免爬虫陷阱,介绍一些坑爹的页面反爬虫机制及处理方式
第十三章,测试技巧,使用unittest或selenium测试
第十四章,IP限制使用Tor,但是国内被墙制作了解,及使用Google或者AWS的云服务
书中还有很多错误,希望能有勘误。
下面需要看一下算法或者深入机器学习的书籍,数据的获取和处理,我想作为一个数学系的学生,重点是如何Learning,如何去特征提取,Python的编程只是加分项,我也只把Python作为唯一的编程工具,源码需要学习。
人生苦短,快用Python
对“人生苦短,快用Python”的回应
《Python网络数据采集》热门书评
-
人生苦短,快用Python
16有用 1无用 水冰玲 2016-03-04
开学没到2周,这本书已经读完,写的非常细致,也很基础,只有英文版本的,但是写的很口语化,其中还有很多joke,如果你想入门爬虫,推荐这本书。略去安装的细节,此书使用的是Py3.第一,二章直接推荐大家使用BeautifulSoup来解析网页,个人觉得最好用的还是lxml,但是本书并没有讲到。BS的使用...
-
似乎所有的“分号”都应该是“冒号”
5有用 0无用 Brucie 2016-06-05
第三章有好几个地方出现“分号”,但又实在不明白哪里有分号,只好查了原文。原文是 colons,也就是冒号。写在这里,给其他同学提个醒。: 这是冒号; 这是分号公平地说,原书中也有一些低级错误,比如第七章开始不久,有个函数里把 input 写成了content,中文版照抄了下来。第97页那段代码,如果...
-
很好的一本书
4有用 1无用 陌上嫣然 2016-04-25
作者显然是此行达人,踩坑踩多了都是直接上经验。书里的代码很优美、正规并且很简洁,运用了大量的递归算法和正则表达式。但是有些地方译者翻译的有误,比如第31页,倒数第六行冒号翻译成了分号,显然运行了源码并且对比了wiki网站才会知道这是误翻译。另外,作者源码也有错误的地方,比如,第35页,getNext...
-
用python3讲一个完整的数据爬取和清洗的过程
2有用 0无用 说书人 2016-04-23
最近刚学了python3,看了一些讲语法的书籍和练手的题目,感觉这本书是一个比较好的系统的利用python完成从数据爬取到数据清洗整个流程的实践过程。觉得自己很有必要实践一下。刚刚看了下试读章节,15年出的英文版,难得的用python3进行工程实践而不只是讲语法的书。...
-
真的很合适入门的同学
1有用 0无用 WP花园 2016-12-12
诚然,这本书里面提到的一些python库不一定是最好的,但是整个爬虫的思路,还是非常值得大家借鉴。其实python的语法,以及爬虫的代码段,都不难,就是写爬虫的过程中,需要注意的事项和有可能踩到的坑,是我比较看中的。书中提到了一点,就是修改浏览器的header,默认貌似是个什么python的信息,要...
书名: Python网络数据采集
作者: [美] 米切尔
出版社: 人民邮电出版社
译者: 陶俊杰 | 陈小莉
出版年: 2016-3-1
页数: 200
定价: CNY 59.00
装帧: 平装
ISBN: 9787115416292