人生苦短，快用Python

水冰玲对 Python网络数据采集的书评发表时间：2016-03-04 10:03:15

开学没到2周，这本书已经读完，写的非常细致，也很基础，只有英文版本的，但是写的很口语化，其中还有很多joke，如果你想入门爬虫，推荐这本书。
略去安装的细节，此书使用的是Py3.
第一，二章直接推荐大家使用BeautifulSoup来解析网页，个人觉得最好用的还是lxml，但是本书并没有讲到。BS的使用分为三个步骤，创建，搜索，访问。直接引用标签只会返回第一个匹配的element，你如果想要返回多个那么就要使用find_all，如果限制访问个数择则有一个limit属性，如果访问标签不存在则会返回None,但是如果继续访问这个不存在标签的属性，则会返回Error,所以使用要注意。其他的使用还有很多，例如Navigating Trees，BS最最强大的在于它支持ReEx，还有很多小的细节，访问节点的三种方式，匿名函数，最后也推荐了lxml。个人提示，当你的电脑装了lxml之后，在使用Bs创建对象的时候，加上html的解析器属性--html.parser
第三章，爬虫的基础，算是前面讲解的实战。
第四章，使用API爬取信息，可以省略大部分，后面关于JSON的解析有必要注意一下，loads，jumps直接对于Json格式和字典的转换。
第五章，存储数据，介绍了CSV(comma-separated values)，以及MySQL，MySQL的使用可以专门去学习，而且很重要。Py2中是用MySQLdb库来操作数据库，在Py3中则换用PyMySQL，最后则是讲解了使用smtplib来发送Email，因人而异的功能。
第六章，文本的操作，手先讲解了编码的处理，decode > unicode > encode，utf8只是unicode的编码实现方式。首先是如何处理CSV文件（CSV），然后PDF（pdfminer）及docx（zipfile）
第七章，高阶爬虫的技巧，也是我看本书的最终目的。本章着重讲解数据的清洗，使用正则，或者repalce一下，其实python的numpy或者pandas在这方面已经很优秀。同时本书介绍了专门的软件按OpenRefine.
第八章，马尔可夫模型生成伪随机文本，还介绍了NLTK工具包，这个英文支持良好，中文不了解。
第九章，模拟登录，使用强大的requests。保持登录使用session来访问，最后稍微讲解了Auth。
第十章，Js解析，使用selenium和PhantomJS来解析网页，通过调用API来实现一些操作，最后处理了客户端Js重定向问题，服务器端不用担心，因为Python的内置库文件自动执行
第十一章，图像识别，反爬虫机制的发展是不断上升的过程。在CAPTCHAs可以使用PIL简单识别，或者使用Tesseract来模拟训练，图像识别或者说OCR本身就是很大的方向，可忽略
第十二章，避免爬虫陷阱，介绍一些坑爹的页面反爬虫机制及处理方式
第十三章，测试技巧，使用unittest或selenium测试
第十四章，IP限制使用Tor,但是国内被墙制作了解，及使用Google或者AWS的云服务
书中还有很多错误，希望能有勘误。
下面需要看一下算法或者深入机器学习的书籍，数据的获取和处理，我想作为一个数学系的学生，重点是如何Learning，如何去特征提取，Python的编程只是加分项，我也只把Python作为唯一的编程工具，源码需要学习。

有用 16 无用 1

您对该书评有什么想说的？

对“人生苦短，快用Python”的回应

woniu 2017-02-22 15:31:48

犀利啊，数学系加上编程真不错！

回应他

137****4628 2016-10-12 15:37:42

楼主看完有没有什么实战项目啊？

回应他

艾缀奇 2016-05-26 11:44:02

写的很不错！两个typo，一个RegEx，一个json 是dumps

回应他

yuedong 2016-04-14 12:30:13

好贵啊

回应他

fan2c 2016-03-26 19:57:02

楼主总结的很好，很有帮助，也是看了楼主的介绍，买了这本书

回应他

《Python网络数据采集》热门书评

书名： Python网络数据采集
作者： [美] 米切尔
出版社：人民邮电出版社
译者：陶俊杰 | 陈小莉
出版年： 2016-3-1
页数： 200
定价： CNY 59.00
装帧：平装
ISBN： 9787115416292

人生苦短，快用Python

您对该书评有什么想说的？

对“人生苦短，快用Python”的回应

《Python网络数据采集》热门书评

16有用 1无用水冰玲 2016-03-04

5有用 0无用 Brucie 2016-06-05

4有用 1无用陌上嫣然 2016-04-25

2有用 0无用说书人 2016-04-23

1有用 0无用 WP花园 2016-12-12

人生苦短，快用Python

您对该书评有什么想说的？

对“人生苦短，快用Python”的回应

《Python网络数据采集》热门书评

16有用 1无用 水冰玲 2016-03-04

5有用 0无用 Brucie 2016-06-05

4有用 1无用 陌上嫣然 2016-04-25

2有用 0无用 说书人 2016-04-23

1有用 0无用 WP花园 2016-12-12

16有用 1无用水冰玲 2016-03-04

4有用 1无用陌上嫣然 2016-04-25

2有用 0无用说书人 2016-04-23