Python网络数据采集[试读]
1.1 网络连接
一旦你开始采集网络数据,就会感受到浏览器为我们做的所有细节。网络上如果没有HTML 文本格式层、CSS 样式层、JavaScript 执行层和图像渲染层,乍看起来会有点儿吓人,但是在这一章和下一章,我们将介绍如何不通过浏览器的帮助来格式化和理解数据。 本章将首先向网络服务器发送GET 请求以获取具体网页,再从网页中读取HTML 内容, 最后做一些简单的信息提取,将我们要寻找的内容分离出来。 1.1 网络连接 如果你没在网络或网络安全上花过太多时间,那么互联网的原理可能看起来有点儿神秘。准确地说,每当打开浏览器连接http://google.com 的时候,我们不会思考网络正在做什么, ... 查看全部[ 1.1 网络连接 ]
1.2 BeautifulSoup简介
“美味的汤,绿色的浓汤, 在热气腾腾的盖碗里装! 谁不愿意尝一尝,这样的好汤? 晚餐用的汤,美味的汤!” BeautifulSoup 库的名字取自刘易斯 •卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。在故事中,这首诗是素甲鱼1 唱的。 就像它在仙境中的说法一样,BeautifulSoup 尝试化平淡为神奇。它通过定位HTML 标签来格式化和组织复杂的网络信息,用简单易用的Python 对象为我们展现XML 结构信息。 注1: Mock Turtle,它本身是一个双关语,指英国维多利亚时代的流行菜肴素甲鱼汤,其实不是甲鱼而是牛肉, 如同中国的豆制品素鸡,名为素鸡,其实与鸡无关。 ... 查看全部[ 1.2 BeautifulSoup简介 ]
书名: Python网络数据采集
作者: [美] 米切尔
出版社: 人民邮电出版社
译者: 陶俊杰 | 陈小莉
出版年: 2016-3-1
页数: 200
定价: CNY 59.00
装帧: 平装
ISBN: 9787115416292