大数据、数据挖掘、机器学习和可视化,近来计算界的几件大事好像总也绕不开数据这个主角。从统计学家到软件开发人员,再到图形设计师,一下子所有人都对数据科学产生了兴趣。便宜的硬件、可靠的处理工具和可视化工具,以及海量的免费数据,这些资源的汇集使得我们能够比以往任何一个时期更加精准地、轻松地发现趋势、预测未来。
不过,你可能还未听说过的是,数据科学的这些希望与梦想都建立在乱七八糟的数据之上。在正式应用于我们认为是数据科学的核心的算法和可视化之前,这些数据往往需要经过迁移、压缩、清洗、打散、分片、分块以及其他多种转换处理。
本章内容将涵盖以下几个方面:
关于数据科学的六个简单处理步骤,包含数据清洗
与数据清洗有关的参考建议
对数据清洗有帮助的工具
一个关于如何将数据清洗融入整个数据科学过程的入门示例
1.1 新视角
最近我们读报时发现《纽约时报》将数据清洗称为看门人工作,并称数据科学家百分之八十的时间都花费在了这些清洗任务上。从下图中我们可以看出,尽管数据清洗是很重要的工作,但它并没有像大数据、数据挖掘或是机器学习那样真正地引起公众的注意。
干净的数据:数据清洗入门与实践——1.1 新视角
书名: 干净的数据:数据清洗入门与实践
作者: [美] Megan Squire
出版社: 人民邮电出版社
译者: 任政委
出版年: 2016-5
页数: 200
定价: 49.00元
装帧: 平装
ISBN: 9787115420473