机器学习系统设计[试读]
1.1 梦之队:机器学习与Python
机器学习(ML)就是教机器自己来完成任务,就这么简单。复杂性源于细节,而这很可能就是你要读这本书的原因。 也许你现在拥有过多的数据,却对这些数据缺少理解,你希望机器学习算法可以帮助解决这个难题。于是你随机找了一些算法开始钻研,但过了一段时间就感到困惑了:在无数的算法中应该选择哪一个呢? 或许你笼统地对机器学习感兴趣,也阅读过相关的博客和文章。机器学习中的任何东西看起来都那么不可思议、那么酷,所以你开始进行探索,把一些简单的数据放入一个决策树或者一个支持向量机。但是,成功将它应用到一些其他数据之后,你又心生疑惑:所有的设置都正确吗?你得到最优的结果了吗?怎么知道有没有更好的算法?或者,你的数... 查看全部[ 1.1 梦之队:机器学习与Python ]
1.2 这本书将教给你什么(以及不会教什么)
本书将全面展示不同应用领域正在使用的各种机器学习算法,以及使用它们时应当注意什么。然而,根据亲身经验,我们知道做这些很“酷”的事——使用和调整机器学习算法,比如支持向量机(SVM)、最邻近搜索(NNS),或者同时支持两者——其实只需要耗费一位优秀机器学习专家的一点儿时间。看看下面这个典型的工作流程,你就会发现绝大部分时间将花费在一些相当平凡的任务上: (1) 读取和清洗数据; (2) 探索和理解输入数据; (3) 分析如何最好地将数据呈现给学习算法; (4) 选择正确的模型和学习算法; (5) 正确地评估性能。 在探索和理解输入数据的时候,我们需要一点统计学和基础数学知识。但当这样... 查看全部[ 1.2 这本书将教给你什么(以及不会教什么) ]
1.3 遇到困难的时候怎么办
本书中,我们会试图讲清楚每一个必要的想法,保证你能重现各个步骤。虽然如此,你仍然可能会遇到困难。其原因可能是软件包版本的古怪组合,可能是简单的拼写错误,也可能是理解上的问题。 在这种情况下,可以通过很多不同的途径来获取帮助。很有可能,你想问的问题早已有人提出,而且下面这些优质的问答网站已经给出了答案。 http://metaoptimize.com/qa 这个问答网站专注于机器学习主题。几乎所有的问题都会得到机器学习专家的高水平解答。即使你并没有问题,不时地翻阅这些问答也是一个很好的习惯。 http://stats.stackexchange.com 这个问答网站又叫交叉验证(Cro... 查看全部[ 1.3 遇到困难的时候怎么办 ]
1.4 开始
如果你已经安装了Python(2.7或更高版本),那么还需要安装NumPy和SciPy来处理数据,并需要安装Matplotlib对数据进行可视化。 1.4.1 NumPy、SciPy和Matplotlib简介 在讨论具体的机器学习算法之前,必须说一下如何最好地存储需要处理的数据。这很重要,因为多数高级学习算法,如果运行永远不会结束,对我们毫无用处。这可能仅仅是因为数据访问太慢了,也可能是因为这些数据的表示方式迫使操作系统一直做数据交换。再加上Python是一种解释性语言(尽管是高度优化过的),和C或者Fortran相比,这类语言对很多重数值算法来说运行缓慢。所以或许应该问一问究竟为什么有... 查看全部[ 1.4 开始 ]
1.5 我们第一个(极小的)机器学习应用
让我们亲自体验一下,看一看我们假想的互联网创业公司MLAAS。它通过HTTP向用户推销机器学习算法服务。但随着公司不断取得成功,要为所有Web访问请求都提供优质服务,就需要具备更好的基础设施。我们并不愿意分配过多的资源,因为这些资源非常昂贵。另一方面,如果没有足够的资源来为所有请求提供服务,我们也将会赔钱。现在的问题是,我们何时会到达目前基础设施的极限。这个极限我们估计是每小时100 000个请求。我们希望事先知道什么时候不得不申请更多的云端服务器来服务于所有请求,同时不必为未使用的服务器承担费用。 1.5.1 读取数据 我们已经收集了上个月的Web统计信息,并把它们汇聚到了ch01/d... 查看全部[ 1.5 我们第一个(极小的)机器学习应用 ]
1.6 小结
恭喜你!你刚刚学到了两件重要的事情。其中最重要的是,你要明白,作为一名典型的机器学习践行者,你会在理解和提炼数据上花费大部分精力——这正是我们在第一个微小的机器学习示例中所做的。我们希望这个例子可以帮你把精力从算法转移到数据上来。在这之后,我们还一起了解了一下正确设置实验的重要性,其中至关重要的是,不要把训练数据和测试数据混在一起。 诚然,使用多项式拟合并不是机器学习领域最酷的事情。这个例子只是为了让你明白,不要让一些“闪闪发光”的算法分散你的注意力。这里包含上面总结的最重要的两点。 所以,让我们开始学习第2章的内容。我们将深入探究Scikit-learn这个令人惊奇的机器学习工具箱,并概... 查看全部[ 1.6 小结 ]
书名: 机器学习系统设计
作者:
出版社: 人民邮电出版社
原作名: Building Machine Learning Systems with Python
译者: 刘峰 | Luis Pedro Coelho
出版年: 2014-7-1
页数: 210
定价: CNY 49.00
装帧: 平装
ISBN: 9787115356826