图解机器学习——1.3 机器学习的方法

机器学习有多种不同的流派。本节中，以对模式x的类别y 进行预测的分类问题为例，对机器学习中的主要流派，即产生式分类和判别式分类，以及频率派和贝叶斯派的基本方法加以介绍。 1.3.1　生成的分类和识别的分类在已知模式x的时候，如果能求得使分类类别y 的条件概率p(y|x)达到最大值的类别¬y 的话，就可以进行模式识别了。在这里，“argmax”是取得最大值时的参数的意思。所以，maxy p(y|x)是指当y 取特定值时p(y|x)的最大值，而argmaxy p(y|x)是指当p(y|x)取最大值时对应的y 的值（图1.10）。在模式识别里，条件概率p(y|x)通常也称为后验概率。上面的¬y 读作y 翰特。在基于统计分析的机器学习中，预测结果一般以字母加符号¬来表示，本书也采用这样的方法。应用训练集直接对后验概率p(y|x)进行学习的过程，称为判别式分类。另外，还可以把后验概率p(y|x)表示为y的函数。通过上式，我们可以发现模式x和类别y的联合概率p(x, y)与后验概率p(y|x) 是成比例的。正因为有这样的关系，我们可以通过使联合概率p(x, y)达到最大值的方法，来得到使后验概率p(y|x)达到最大值的类别¬y 。在模式识别里，联合概率p(x, y)也称为数据生成概率，通过预测数据生成概率p(x, y)来进行模式识别的分类方法，称为生成的分类[11]。支持向量机分类器的发明者、著名的数学家弗拉基米尔•万普尼克 A在其著作[15]中提到：在实际问题中，信息往往是有限的。在解决一个感兴趣的问题时，不要把解决一个更一般的问题作为一个中间步骤。要试图得到所需要的答案，而不是更一般的答案。很可能你拥有足够的信息来很好地解决一个感兴趣的特定问题，但却没有足够的信息来解决一个一般性的问题。为什么这么说呢？这是因为，即使手头的信息量不足以解决一般性问题，但对于解决特定问题，很可能是足够的。如果数据生成概率p(x, y)是已知的，【公式无法显示】那么，从上式就可以推出后验概率p(y|x)。然而，如果后验概率p(y|x)是已知的，却不能由此推导出数据生成概率p(x, y)（图1.11）。因此，比起计算后验概率p(y|x)，可以说数据生成概率p(x, y)的计算是一般性（即求解更困难）的问题。进行模式识别时，只需计算出后验概率p(y|x)就足够了。但在生成的分类中，则要计算数据生成概率p(x, y)这个一般性的问题。如果遵循上述的弗拉基米尔•万普尼克的原理，识别的分类就是比生成的分类更好的机器学习方法。另一方面，在很多实际问题中，经常可以获得有关数据生成概率p(x, y)的一些先验知识。例如，在声音识别过程中，可以通过事先研究人类的喉咙构造或发声机理，获得很多有关数据生成概率p(x, y)的先验知识[4]。像这样，在可以事先获得数据生成概率p(x, y)的先验知识的情况下，生成的分类就是比识别的分类更好的机器学习方法，即与上段论述是正好相反的。 1.3.2 　统计概率和朴素贝叶斯本小节中，我们以包含参数θ 的模型q(x, y; )为例，对计算数据生成概率p(x, y) 的问题进行说明。在统计概率的机器学习方法中，将模式θ作为决定论的变量，使用手头的训练样本D = {(xi, yi)}ni=1 对模式θ 进行学习。例如，在最大似然估计算法中，一般对生成训练集D的最容易的方法所对应的模式θ进行学习。【公式无法显示】在统计概率方法中，如何由训练集D得到高精度的模式θ是主要的研究课题。与之相对，在朴素贝叶斯方法中，将模式θ作为概率变量，对其先验概率p(¬)加以考虑，计算与训练集D相对应的后验概率p(¬ |D )。通过运用贝叶斯定理，就可以使用先验概率p(¬) 来求解后验概率p(¬ |D )，如下所示：【公式无法显示】如果先验概率p(¬)是已知的话，后验概率p(¬ |D )就可以按照上式进行非常精确的计算。因此，在朴素贝叶斯算法中，如何精确地计算后验概率是一个主要的研究课题。本书将主要讲解基于频率派的识别式机器学习算法，并对其中各个实用的算法及未来的发展方向做相应的介绍。关于产生式机器学习算法，读者朋友可以参考文献[11] 等；关于朴素贝叶斯派的机器学习算法，可以参考文献[10]等进行更加深入的学习。

书名：图解机器学习
作者：杉山将
出版社：人民邮电出版社
原作名：イラストで学ぶ機械学習
译者：许永伟
出版年： 2015-4
页数： 240
定价： 49
装帧：平装
丛书：图解入门系列
ISBN： 9787115388025

图解机器学习——1.3 机器学习的方法

《图解机器学习》其他试读目录