当所有工作全都做完的时候,事实印证了《纽约时报》的报道。我们从这个简单的练习中可以看出,即便是回答一个小小的数据问题,数据清洗就占了整个过程80%的工作量(在这个全文共计900个单词的案例中,光是谈论数据清洗的基本原理和方案就用了700个单词) 。数据清洗的的确确是数据科学过程的关键部分,它不仅涉及对技术问题的理解,同时还要求我们做出相应的价值判断。作为数据清洗工作的一部分,我们甚至需要在尚未完成分析与可视化步骤的时候,预先考虑它们的输出结果将是什么样子。 重新审视数据清洗在这一章的工作中所扮演的角色,我们很容易发现,清洗效果的提升能够大幅减少后续处理的时间。 在接下来的一章里,我们将学习一些与数据有关的基础知识,这是每一个“数据主厨”在进入既宽敞又明亮的大“厨房”之前需要掌握的,内容包括文件格式、数据类型和字符编码。
干净的数据:数据清洗入门与实践——1.6 小结
书名: 干净的数据:数据清洗入门与实践
作者: [美] Megan Squire
出版社: 人民邮电出版社
译者: 任政委
出版年: 2016-5
页数: 200
定价: 49.00元
装帧: 平装
ISBN: 9787115420473