机器学习有多种不同的流派。本节中,以对模式x的类别y 进行预测的分类问题为例,对机器学习中的主要流派,即产生式分类和判别式分类,以及频率派和贝叶斯派的基本方法加以介绍。 1.3.1 生成的分类和识别的分类 在已知模式x的时候,如果能求得使分类类别y 的条件概率p(y|x)达到最大值的类别¬y 的话,就可以进行模式识别了。 在这里,“argmax”是取得最大值时的参数的意思。所以,maxy p(y|x)是指当y 取特定值时p(y|x)的最大值,而argmaxy p(y|x)是指当p(y|x)取最大值时对应的y 的值(图1.10)。在模式识别里,条件概率p(y|x)通常也称为后验概率。上面的¬y 读作y 翰特。在基于统计分析的机器学习中,预测结果一般以字母加符号¬来表示,本书也采用这样的方法。应用训练集直接对后验概率p(y|x)进行学习的过程,称为判别式分类。另外,还可以把后验概率p(y|x)表示为y的函数。 通过上式,我们可以发现模式x和类别y的联合概率p(x, y)与后验概率p(y|x) 是成比例的。正因为有这样的关系,我们可以通过使联合概率p(x, y)达到最大值的方法,来得到使后验概率p(y|x)达到最大值的类别¬y 。 在模式识别里,联合概率p(x, y)也称为数据生成概率,通过预测数据生成概率p(x, y)来进行模式识别的分类方法,称为生成的分类[11]。支持向量机分类器的发明者、著名的数学家弗拉基米尔•万普尼克 A在其著作[15]中提到: 在实际问题中,信息往往是有限的。在解决一个感兴趣的问题时,不要把解决一个更一般的问题作为一个中间步骤。要试图得到所需要的答案,而不是更一般的答案。很可能你拥有足够的信息来很好地解决一个感兴趣的特定问题,但却没有足够的信息来解决一个一般性的问题。 为什么这么说呢?这是因为,即使手头的信息量不足以解决一般性问题,但对于解决特定问题,很可能是足够的。如果数据生成概率p(x, y)是已知的, 【公式无法显示】 那么,从上式就可以推出后验概率p(y|x)。然而,如果后验概率p(y|x)是已知的,却不能由此推导出数据生成概率p(x, y)(图1.11)。因此,比起计算后验概率p(y|x),可以说数据生成概率p(x, y)的计算是一般性(即求解更困难)的问题。进行模式识别时,只需计算出后验概率p(y|x)就足够了。但在生成的分类中,则要计算数据生成概率p(x, y)这个一般性的问题。如果遵循上述的弗拉基米尔•万普尼克的原理,识别的分类就是比生成的分类更好的机器学习方法。 另一方面,在很多实际问题中,经常可以获得有关数据生成概率p(x, y)的一些先验知识。例如,在声音识别过程中,可以通过事先研究人类的喉咙构造或发声机理,获得很多有关数据生成概率p(x, y)的先验知识[4]。像这样,在可以事先获得数据生成概率p(x, y)的先验知识的情况下,生成的分类就是比识别的分类更好的机器学习方法,即与上段论述是正好相反的。 1.3.2 统计概率和朴素贝叶斯 本小节中,我们以包含参数θ 的模型q(x, y; )为例,对计算数据生成概率p(x, y) 的问题进行说明。 在统计概率的机器学习方法中,将模式θ作为决定论的变量,使用手头的训练样本D = {(xi, yi)}ni=1 对模式θ 进行学习。例如,在最大似然估计算法中,一般对生成训练集D的最容易的方法所对应的模式θ进行学习。 【公式无法显示】 在统计概率方法中,如何由训练集D得到高精度的模式θ是主要的研究课题。 与之相对,在朴素贝叶斯方法中,将模式θ作为概率变量,对其先验概率p(¬)加以考虑,计算与训练集D相对应的后验概率p(¬ |D )。通过运用贝叶斯定理,就可以使用先验概率p(¬) 来求解后验概率p(¬ |D ),如下所示: 【公式无法显示】 如果先验概率p(¬)是已知的话,后验概率p(¬ |D )就可以按照上式进行非常精确的计算。因此,在朴素贝叶斯算法中,如何精确地计算后验概率是一个主要的研究课题。 本书将主要讲解基于频率派的识别式机器学习算法,并对其中各个实用的算法及未来的发展方向做相应的介绍。关于产生式机器学习算法,读者朋友可以参考文献[11] 等;关于朴素贝叶斯派的机器学习算法,可以参考文献[10]等进行更加深入的学习。