本书中涉及的数据清洗方法是通用的,适用范围非常广泛。你不需要任何高端专业的数据库产品或是数据分析产品(事实上,这些厂商和产品可能已经提供了数据清洗程序或是解决方法)。我围绕数据处理过程中的常见问题,设计了本书中的清洗教程。而我要展示的都是适用范围较为广泛的开源软件和技术,它们很容易在实际工作中获得和掌握。 下面列出了你需要准备的工具和技术。 几乎在每一章中,我们都会用到终端窗口和命令行界面,比如Mac OS X上的Terminal程序或者是Linux系统上的bash程序。而在Windows上,有些命令可以通过Windows的命令提示符运行,但其他的命令则需要通过功能更强的命令行程序来运行,比如CygWin。 几乎在每一章中,我们还会用到文本编辑器或者是适合程序员使用的编辑器,如Mac上的Text Wrangler,Linux上的vi或emacs,或是Windows上的Notepad++、Sublime编辑器等。 在绝大数章节里,我们需要使用Python 2.7版本的客户端程序,如Enthought Canopy,另外还需要足够的权限来安装一些包文件。其中大部分例子都可以直接在Python 3中运行,但有些不可以,所以如果你安装的是Python 3的话,可以考虑再安装一个2.7版本。 在第3章“数据清洗的老黄牛——电子表格和文本编辑器”中,我们需要使用电子表格程序(主要是Microsoft Excel和Google Spreadsheets)。 在第7章“RDBMS清洗技术”中,我们需要使用MySQL数据库和一个用于访问该数据库的客户端软件。
干净的数据:数据清洗入门与实践——1.4 数据清洗环境
书名: 干净的数据:数据清洗入门与实践
作者: [美] Megan Squire
出版社: 人民邮电出版社
译者: 任政委
出版年: 2016-5
页数: 200
定价: 49.00元
装帧: 平装
ISBN: 9787115420473