Python网络数据采集[试读]

1.1 　网络连接

一旦你开始采集网络数据，就会感受到浏览器为我们做的所有细节。网络上如果没有HTML 文本格式层、CSS 样式层、JavaScript 执行层和图像渲染层，乍看起来会有点儿吓人，但是在这一章和下一章，我们将介绍如何不通过浏览器的帮助来格式化和理解数据。本章将首先向网络服务器发送GET 请求以获取具体网页，再从网页中读取HTML 内容，最后做一些简单的信息提取，将我们要寻找的内容分离出来。 1.1 　网络连接如果你没在网络或网络安全上花过太多时间，那么互联网的原理可能看起来有点儿神秘。准确地说，每当打开浏览器连接http://google.com 的时候，我们不会思考网络正在做什么， ... 查看全部[ 1.1 　网络连接 ]

1.2 　BeautifulSoup简介

“美味的汤，绿色的浓汤，在热气腾腾的盖碗里装！谁不愿意尝一尝，这样的好汤？晚餐用的汤，美味的汤！” BeautifulSoup 库的名字取自刘易斯 •卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。在故事中，这首诗是素甲鱼1 唱的。就像它在仙境中的说法一样，BeautifulSoup 尝试化平淡为神奇。它通过定位HTML 标签来格式化和组织复杂的网络信息，用简单易用的Python 对象为我们展现XML 结构信息。注1： Mock Turtle，它本身是一个双关语，指英国维多利亚时代的流行菜肴素甲鱼汤，其实不是甲鱼而是牛肉，如同中国的豆制品素鸡，名为素鸡，其实与鸡无关。 ... 查看全部[ 1.2 　BeautifulSoup简介 ]

书名： Python网络数据采集
作者： [美] 米切尔
出版社：人民邮电出版社
译者：陶俊杰 | 陈小莉
出版年： 2016-3-1
页数： 200
定价： CNY 59.00
装帧：平装
ISBN： 9787115416292

Python网络数据采集[试读]

1.1 网络连接

1.2 BeautifulSoup简介

1.1 　网络连接

1.2 　BeautifulSoup简介