机器学习(ML)就是教机器自己来完成任务,就这么简单。复杂性源于细节,而这很可能就是你要读这本书的原因。 也许你现在拥有过多的数据,却对这些数据缺少理解,你希望机器学习算法可以帮助解决这个难题。于是你随机找了一些算法开始钻研,但过了一段时间就感到困惑了:在无数的算法中应该选择哪一个呢? 或许你笼统地对机器学习感兴趣,也阅读过相关的博客和文章。机器学习中的任何东西看起来都那么不可思议、那么酷,所以你开始进行探索,把一些简单的数据放入一个决策树或者一个支持向量机。但是,成功将它应用到一些其他数据之后,你又心生疑惑:所有的设置都正确吗?你得到最优的结果了吗?怎么知道有没有更好的算法?或者,你的数据是否就是“正确的”? 欢迎加入机器学习的行列!我们作为本书的作者,也曾处在这个阶段,寻找过机器学习理论教材背后的真实故事。我们发现,很多东西都是标准教材中通常不会讲到的“魔术”。所以,从某种意义上说,我们在把这本书写给年轻的自己。它不仅是机器学习的快速入门书,而且还会把我们积累的经验教训传授给你。我们希望它还可以让你更顺畅地走进计算机科学中最令人兴奋的一个领域。 1.1 梦之队:机器学习与Python 机器学习的目标就是通过若干示例(怎样做或不做一个任务)让机器(软件)学会完成任务。假设每天早上当你打开电脑,都会做同样的事情:移动电子邮件,把属于某一特定主题的邮件放入同一个文件夹。过了一段时间,你感到厌烦了,开始琢磨是否可以让这种琐事自动完成。一种方法是分析你的大脑,将整理电子邮件时大脑思考过程中的规则记录下来。然而,这种方式相当麻烦,而且总不完美。你会漏掉一些规则,同时又会对另一些规则细致过头。另一种更好的、更加面向未来的方法是将这个过程自动化,即选择一组电子邮件元数据信息和邮件正文/文件夹名对,让算法据此选出最好的规则集。这些数据对就是你的训练数据,而生成的规则集(也叫做模型)以后能够应用到新的电子邮件上。这就是最简单的机器学习。 当然,机器学习(也常称作数据挖掘或预测分析)本身并不是一个全新的领域。正相反,它这些年来的成功可以归因于务实地采用了已经验证了的坚实技术,以及借鉴其他成功领域的真知灼见,例如统计学。统计学的目的是通过学习更多的潜在模式和关联关系,来帮助人类深入理解数据。对机器学习的成功应用了解得越多(你已经查看过kaggle.com了吧?),越会发现应用统计学是机器学习专家经常研究的一个领域。 本书后面将会介绍,构想出一个合适的机器学习(ML)方法,从来都不是一个瀑布式的过程。相反,你需要反复分析,在各色各样的机器学习算法中尝试不同版本的输入数据。这种探索方式非常适合Python。作为一门解释性高级编程语言,Python似乎就是专为尝试不同事物而设计的。更重要的是,用它进行这些尝试非常迅捷。无疑,它比C语言或其他类似的静态类型编程语言要慢一点。然而,它有着大量易用的库,而这些库往往是用C语言编写的,因此你不必为了敏捷性而牺牲速度。
机器学习系统设计——1.1 梦之队:机器学习与Python
书名: 机器学习系统设计
作者:
出版社: 人民邮电出版社
原作名: Building Machine Learning Systems with Python
译者: 刘峰 | Luis Pedro Coelho
出版年: 2014-7-1
页数: 210
定价: CNY 49.00
装帧: 平装
ISBN: 9787115356826