机器学习导论[试读]
前言
机器学习使用实例数据或过去的经验训练计算机,以优化性能标准。当人们不能直接编写计算机程序解决给定的问题,而是需要借助于实例数据或经验时,就需要学习。一种需要学习的情况是人们没有专门技术,或者不能解释他们的专门技术。以语音识别,即将声学语音信号转换成ASCII文本为例。看上去我们可以毫无困难地做这件事,但是我们却不能解释我们是如何做的。由于年龄、性别或口音的差异,不同的人读相同的词发音却不同。在机器学习中,这个问题的解决方法是从不同的人那里收集大量发音样本,并学习将它们映射到词。 另一种需要学习的情况是要解决的问题随时间变化或依赖于特定的环境。我们希望有一个能够自动适应环境的通用系统,而不是为每... 查看全部[ 前言 ]
目录
出版者的话 中文版序 译者序 前言 致谢 符号表 第1章 绪论1 1.1 什么是机器学习1 1.2 机器学习的应用实例2 1.2.1 学习关联性2 1.2.2 分类3 1.2.3 回归5 1.2.4 非监督学习6 1.2.5 增强学习7 1.3 注释8 1.4 相关资源9 1.5 习题10 1.6 参考文献10 第2章 监督学习11 2.1 由实例学习类11 2.2 VC维14 2.3 概率逼近正确学习15 2.4 噪声16 2.5 学习多类18 2.6 回归19 2.7 模型选择与泛化20 2.8 监督机器学习算法的维22 2.9 注释23 2.10 习题24 2.11 参考文献24 第3章... 查看全部[ 目录 ]
译者序
自从有计算机以来,人们就希望计算机能够学习。然而,机器学习真正取得实质性进展,能够成功地解决一些实际问题,并最终成为一个学科分支还是近20余年的事。 对于许多问题,我们的前人和先行者已经知道如何求解。例如,欧几里德告诉我们可以用辗转相除法求两个整数的最大公约数;Dijkstra告诉我们如何有效地求两点之间的最短路径;Hoare向我们展示了怎样将杂乱无章的对象快速排序……对于这些问题,我们清楚地知道求解步骤。因此,让计算机求解这些问题只需要设计算法和数据结构、进行编程,而不需要让计算机学习。 还有一些事情,人们可以轻而易举地做好,但是却无法解释清楚我们是如何做的。例如,尽管桌子千差万别、用途各异... 查看全部[ 译者序 ]
1.1 什么是机器学习
随着计算机技术的发展,我们现在已经拥有存储和处理海量数据以及通过计算机网络从远程站点访问数据的能力。目前大多数的数据存取设备都是数字设备,记录的数据也很可靠。以一家连锁超市为例,它拥有遍布全国各地的数百家分店,并且在为数百万顾客提供数千种商品的零售服务。销售点的终端设备记录每笔交易的详细资料,包括日期、顾客识别码、购买商品和数量、消费总额等。这是典型的每日几个G字节的数据。只有分析这些数据,并且将它转换为可以利用的信息时,这些存储的数据才能变得有用,例如做预测。 1我们不能确切地知道哪些人比较倾向于购买哪种特定的商品,也不知道应该向喜欢读海明威作品的人推荐哪位作者。如果我们知道,我们就不需要任... 查看全部[ 1.1 什么是机器学习 ]
1.2.1 学习关联性
在零售业,例如超市连锁店,机器学习的一个应用是购物篮分析(basket analysis)。它的任务是发现顾客所购商品之间的关联性:如果人们在购买商品X时也通常购买商品Y,而有一名顾客购买了商品X却没有购买商品Y,则他(或她)即是商品Y的潜在顾客。一旦我们发现这类顾客,我们就能针对他们实行打包销售策略。 为发现关联规则(association rule),我们对学习形如P(YX)的条件概率感兴趣,其中X是我们知道的顾客已经购买的商品或商品集,Y表示在条件X下可能购买的商品。 假定考察已有的数据,计算得到P(chipsbeer)=0.7,那么我们就可以定义规则: 购买啤酒(beer)的顾客中有7... 查看全部[ 1.2.1 学习关联性 ]
1.2.2 分类
信贷是金融机构(例如银行)借出的一笔钱,需要连本带息偿还,通常是分期偿还。对银行来说,重要的是能够提前预测贷款风险。这种风险是客户不履行义务和不全额还款的可能性。既要确保银行获利,又要确保不会因提供超出客户财力的贷款而给客户带来不便。 4在信用评分(credit scoring)(Hand 1998)中,银行要计算在给定信贷额度和客户信息情况下的风险。客户信息包括我们已经获取的数据以及与计算客户财力相关的数据,即收入、存款、担保、职业、年龄、以往经济记录等。银行有以往贷款的记录,包括客户数据以及贷款是否偿还。通过这类特定的申请数据,我们可以推断出一般规则,表示客户属性及其风险性的关联性。也就是... 查看全部[ 1.2.2 分类 ]
1.2.3 回归
假设我们想要一个能够预测二手车价格的系统。该系统的输入是我们认为会影响到车价的属性信息:品牌、车龄、发动机性能、里程以及其他信息。输出是车的价格。这种输出为数值的问题是回归(regression)问题。 设x表示车的属性,y表示车的价格。调查一下以往的交易情况,我们能够收集训练数据,而机器学习程序用一个函数拟合这些数据来学习x的函数y。图1-2给出了一个例子,其中对于w和w0的合适值,拟合函数具有以下形式: 回归和分类均为监督学习(supervised learning)问题,其中输入x和输出y给定,任务是学习从输入到输出的映射。机器学习的方法是,先假定某个依赖于一组参数的模型: 其中,g(·... 查看全部[ 1.2.3 回归 ]
1.2.4 非监督学习
在监督学习中,我们的目标是学习从输入到输出的映射关系,其中输出的正确值已经由指导者提供。然而,非监督学习中却没有这样的指导者,只有输入数据。我们的目标是发现输入数据中的规律。输入空间存在着某种结构,使得特定的模式比其他模式更常出现,而我们希望知道哪些经常发生,哪些不经常发生。在统计学中,这称为密度估计(density estimation)。 密度估计的一种方法是聚类(clustering),其目标是发现输入数据的簇或分组。对于拥有老客户数据的公司,客户数据包括客户的个人统计信息,及其以前与公司的交易,公司也许想知道其客户的分布,搞清楚什么类型的客户会频繁出现。这种情况下,聚类模型会将属性相似... 查看全部[ 1.2.4 非监督学习 ]
1.2.5 增强学习
在某些应用中,系统的输出是动作(action)的序列。在这种情况下,单个的动作并不重要,重要的是策略(policy),即达到目标的正确动作的序列。不存在中间状态中最好动作这种概念。如果一个动作是好的策略的组成部分,那么该动作就是好的。这种情况下,机器学习程序就应当能够评估策略的好坏程度,并从以往好的动作序列中学习,以便能够产生策略。这种学习方法称为增强学习(reinforcement learning)算法。 1011游戏(game playing)是一个很好的例子。在游戏中,单个移动本身并不重要,正确的移动序列才是重要的。如果一个移动是一个好的游戏策略的一部分,则它就是好的。游戏是人工智能和... 查看全部[ 1.2.5 增强学习 ]