Skip to content

Latest commit

 

History

History
171 lines (86 loc) · 12.5 KB

bayes-theorem-applied-machine-learning.md

File metadata and controls

171 lines (86 loc) · 12.5 KB

《贝叶斯定理在机器学习中的应用》

原文:www.kdnuggets.com/2019/10/bayes-theorem-applied-machine-learning.html

评论

Jaime Zornoza提供,马德里理工大学

头图

在上一篇文章中,我们了解了贝叶斯定理是什么,并通过一个简单直观的例子讲解了它的工作原理。你可以在这里找到这篇文章。如果你还不知道贝叶斯定理是什么,且尚未阅读过,我建议你阅读它,这将使你更容易理解本文。

在这篇文章中,我们将探讨该定理在机器学习中的用途

准备好了吗?那我们开始吧!

机器学习中的贝叶斯定理

正如上一篇文章所提到的,贝叶斯定理告诉我们如何逐渐更新我们的知识,随着我们获得更多关于某事的证据。

一般来说,在监督机器学习中,当我们想要训练一个模型时,主要构建块是包含特征(定义数据点的属性)、标签(我们想要在新数据点上预测的数值或分类标签)和一个假设函数或模型(将这些特征与对应标签关联起来)。我们还需要一个损失函数,它是模型预测值与实际标签之间的差异,我们希望将其减少,以获得最佳结果。

图示

监督学习问题的主要元素

这些监督机器学习问题可以分为两大类:回归,其中我们希望计算一个与数据相关的数值(例如房价),和分类,其中我们希望将数据点分配到某个类别(例如判断图像中是狗还是猫)。

贝叶斯定理可以用于回归和分类。

我们来看看吧!

回归中的贝叶斯定理

假设我们有一组非常简单的数据,表示某个小镇地区每一天的气温(数据点的特征),以及该地区每一天售出的水瓶数量(数据点的标签)。

通过建立一个非常简单的模型,我们可以查看这两者是否相关,如果相关,就可以使用该模型进行预测,以便根据温度储备水瓶,避免库存短缺或过剩。

我们可以尝试一个非常简单的线性回归模型来查看这些变量之间的关系。在描述这个线性模型的以下公式中,y 是目标标签(在我们的例子中是水瓶的数量),每个θs 都是模型的参数(斜率和与 y 轴的截距),x 是我们的特征(在我们的例子中是温度)。

图示

描述线性模型的方程

这次训练的目标是减少提到的损失函数,使模型对已知数据点的预测接近这些数据点的实际标签值。

在用可用数据训练模型后,我们将得到两个θs的值。这种训练可以通过使用迭代过程(如梯度下降)或其他概率方法(如最大似然法)来完成。无论如何,我们只会为每个参数得到一个单一的值

这样,当我们获得没有标签的新数据(新的温度预测)时,由于我们知道θs 的值,我们可以仅使用这个简单的方程来获得所需的 Ys(每天所需的水瓶数量)。

图示

单变量线性回归的图示。使用最初的蓝色数据点,我们计算出最佳拟合这些点的直线,然后当我们获得新的温度时,我们可以轻松计算出当天销售的瓶数。

当我们使用贝叶斯定理进行回归时,我们不是将模型的参数(θs)视为唯一的单一值,而是将其表示为具有某种分布的参数:参数的先验分布。以下图示展示了通用贝叶斯公式,以及如何将其应用于机器学习模型。

图示

贝叶斯公式 图示

贝叶斯公式应用于机器学习模型

这个想法的基础是,在我们拥有实际数据之前,我们对模型参数有一些先验知识P(model) 就是这个先验概率。然后,当我们获得一些新数据时,我们会更新模型参数的分布,使其成为后验概率 P(model|data)

这意味着我们的参数集(模型的θs)不是恒定的,而是有其自己的分布。基于先前的知识(例如来自专家或其他研究)我们对模型参数的分布做出初步假设。然后随着我们用更多的数据训练模型,这个分布会更新并变得更加精确(实际上,方差变小)。

图示

关于先验和后验参数分布的图。θMap 是最大后验估计,我们将其用于我们的模型中。

这个图展示了模型参数的初始分布p(θ),以及随着我们添加更多数据,这个分布如何被更新,使其变得更准确地接近p(θ|x),其中 x 表示这些新数据。这里的θ相当于上述公式中的模型,而这里的x相当于该公式中的数据

贝叶斯公式,如往常一样,告诉我们如何从先验概率转换为后验概率。我们在迭代过程中进行此操作,随着数据的不断增加,后验概率成为下一次迭代的先验概率。一旦我们用足够的数据训练了模型,为了选择最终的参数集,我们会寻找最大后验(MAP)估计,以使用一组具体的模型参数值

这种分析的优势来自于初始的先验分布:如果我们没有任何先前的信息,且无法对其做出任何假设,其他概率方法如最大似然估计可能更合适。

然而,如果我们对参数的分布有一些先验信息,贝叶斯方法证明非常强大,特别是在面对不可靠的训练数据的情况下。在这种情况下,由于我们不是从头开始构建模型并计算其参数,而是使用某种先前的知识来推断这些参数的初始分布,这种先验分布使得参数更为稳健,并且不容易受到不准确数据的影响

我不想在这一部分过于技术化,但这一推理背后的数学是非常美妙的;如果你想了解更多,随时发邮件至 [email protected] 或在 LinkedIn联系我

贝叶斯定理在分类中的应用

我们已经看到贝叶斯定理如何用于回归,通过估计线性模型的参数。相同的推理也可以应用于其他类型的回归算法。

现在我们将了解如何使用贝叶斯定理进行分类。这被称为贝叶斯最优分类器。现在的推理与之前的非常相似。

想象一下我们有一个分类问题,具有** i 个不同的类别**。我们关注的是每个类别的概率 wi。如同之前的回归情况,我们也区分先验概率和后验概率,但现在我们有先验类别概率 p(wi) 以及在使用数据或观测后得到的后验类别概率 p(wi|x)

图像

贝叶斯公式用于贝叶斯最优分类器

在这里,P(x) 是与所有数据点共同的密度函数P(x|wi) 是属于类别wi的数据点的密度函数,而P(wi) 是类别wi的先验分布。P(x|wi) 是从训练数据中计算的,假设某种分布,并计算每个类别的均值向量以及属于该类别的数据点的特征协方差。先验类别分布P(wi) 是基于领域知识、专家建议或以前的工作来估计的,如回归示例中所示。

让我们看一个例子来说明这是如何工作的:假设我们测量了 34 个人的身高:25 名男性(蓝色)和9 名女性(红色),然后我们得到一个新的身高观测值172 厘米,我们想将其分类为男性或女性。下图表示了使用最大似然分类器和贝叶斯最优分类器获得的预测结果。

图像

左侧是两个类别的训练数据及其估计的正态分布。右侧是贝叶斯最优分类器,其中男性的先验类别概率 p(wA)为 25/34,女性的 p(wB)为 9/34。

在这种情况下,我们使用了训练数据中的样本数量作为类别分布的先验知识,但例如,如果我们在特定国家对身高和性别进行相同的区分,并且知道那里女性特别高,同时也知道男性的平均身高,我们可以利用这些信息来构建我们的先验类别分布

从这个例子中可以看出,使用这些先验知识会导致不同的结果,而不是不使用它们。假设这些先验知识的质量很高(否则我们不会使用它),这些预测应该比不包含这些信息的类似试验更准确

在这种情况下,随着我们获得更多数据,这些分布会被更新以反映从这些数据中获得的知识。

和之前的情况一样,我不想过于技术化,或过多延伸文章,所以我不会深入数学细节,但如果你对这些细节感到好奇,欢迎随时联系我

结论

我们已经看到贝叶斯定理在机器学习中的应用;无论是在回归还是分类中,都是将先前的知识纳入我们的模型并加以改进。

在接下来的文章中,我们将看到贝叶斯定理的简化自然语言处理中最常用的技术之一,以及它们如何应用于许多实际用例,如垃圾邮件过滤器或情感分析工具。要了解更多,请关注我的 Medium](https://medium.com/@jaimezornoza),敬请期待!

图像

贝叶斯分类的另一个示例

以上就是所有内容,希望你喜欢这篇文章。随时可以在 LinkedIn 上联系我,或者在 Twitter 上关注我 @jaimezorno。你也可以查看我在数据科学和机器学习方面的其他文章 这里。阅读愉快!

额外资源

如果你想深入了解贝叶斯和机器学习,请查看以下资源:

如往常一样,有任何问题请随时联系我。祝你有个美好的一天,继续学习。

个人简介:Jaime Zornoza 是一位工业工程师,拥有电子学学士学位和计算机科学硕士学位。

原文。经许可转载。

相关:

  • 概率学习 I:贝叶斯定理

  • 贝叶斯推断如何工作

  • 深度学习 NLP:ANNs、RNNs 和 LSTMs 解析!


我们的三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


更多相关主题