六步处理过程是围绕着问题和解决方案这个故事线组织的,因此,在作为报表框架使用时,它的表现十分优秀。如果你已经决定使用六步框架来实现数据科学过程报表,将发现只有到了第三步你才会真正开始进行与清洗有关的工作。 哪怕你并不需要把数据科学过程制成正式的报告文档,你仍然会发现,认真地记录下曾经按什么顺序做了些什么事情,对以后的工作也是极有帮助的。 请记住,哪怕是规模再小、风险再低的项目,你也要面对至少两人规模的受众:现在的你和六个月之后的你。请相信我说的话,因为六个月之后的你基本上不会记得今天的你做过什么样的清洗工作,也不记得其中的缘由,更谈不上如何重新再做一次。 要解决这个问题,最简单的方案就是保留一份工作日志。这个日志应该包含链接、屏幕截图,或是复制粘贴你曾经运行过的具体的命令,并配上为什么要这样做的解释性文字。下面是一个关于小型文本挖掘项目的日志示例,其中记述了每个阶段输出的外部文件链接以及相关的清洗脚本链接。如果你对日志中提到的某些技术不太熟悉的话,也没有关系,因为这个示例的重点只是让你了解一下日志的样子而已。 (1) 我们写了一条SQL查询语句来检索出每条数据及其相关描述。 (2) 为了能在Python中进行词频分析,我们需要把数据调整成JSON格式。因此我们做了一个PHP脚本,用它来循环遍历查询结果,并以JSON格式保存到文件中(第一个版本的数据文件)。 (3) 这个文件里的数据有些格式上的错误,比如包含了没有转义的问号和一些多余的内嵌HTML标签。这些错误可以在第二个PHP脚本中修正。运行第二个脚本之后,我们就可以得到一份干净的JSON文件了(第二个版本的数据文件)。 这里需要注意的是,我们用日志来解释程序做过什么和这样做的原因。日志的内容可以很简短,但要尽可能地包含一些有用的链接。 另外,我们还可以选择许多更复杂的方案来传达信息。例如,如果你对软件项目管理中常用的版本控制系统比较熟悉的话,如Git或是Subversion,就可以好好地规划设计一番,想想怎么使用这些工具来跟踪数据清洗工作。不管你使用什么样的系统,最重要的事情是做好日志,哪怕只有一句话。来吧,学着把它用起来,别耽误进度了。
干净的数据:数据清洗入门与实践——1.3 传达数据清洗工作的内容
书名: 干净的数据:数据清洗入门与实践
作者: [美] Megan Squire
出版社: 人民邮电出版社
译者: 任政委
出版年: 2016-5
页数: 200
定价: 49.00元
装帧: 平装
ISBN: 9787115420473