Skip to content

Latest commit

 

History

History
81 lines (41 loc) · 4.64 KB

statistical-modelling-vs-machine-learning.md

File metadata and controls

81 lines (41 loc) · 4.64 KB

统计建模与机器学习

原文:www.kdnuggets.com/2019/08/statistical-modelling-vs-machine-learning.html

c 评论figure-name

统计模型是使用统计学构建数据的表示,然后进行分析以推断变量之间的关系或发现洞察。

机器学习是使用数学和/或统计模型来获得对数据的总体理解以进行预测。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析水平

3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT 需求


至今,许多行业人士仍将这两个术语混用。虽然有些人认为没有 harm,但真正的“数据科学家”必须理解这两者之间的区别。

统计建模

figure-name

统计建模是一种数学上近似世界的方法。统计模型包含可以用来解释其他变量之间关系的变量。我们使用假设检验、置信区间等来进行推断和验证我们的假设。

经典的例子是回归分析,我们通过一个或多个变量来找出每个解释变量对自变量的影响。

统计模型将具有抽样、概率空间、假设和诊断等,以进行推断。

我们使用统计模型来从特定数据集找到洞察。我们可以在相对较小的数据集上进行建模,以尝试理解数据的潜在性质。

本质上,所有统计模型都是错误的或不完美的。它们用于近似现实。有时模型的基本假设过于严格,不代表现实。

机器学习

figure-name来源: https://existek.com/blog/deep-learning-vs-machine-learning/

机器学习是使计算机在没有明确编程的情况下进行操作的科学。 - 安德鲁·吴

机器学习是教计算机像人类一样学习的方法。这种学习能力比人类更强,因此,当我们有大量数据超出普通人的理解能力或数据模式理解能力时,计算机的计算和存储能力可以超过人类。

简而言之,我们使用机器学习进行预测,并通过其对尚未学习的新数据的泛化能力来评估其性能。

我们进行交叉验证以验证数据的完整性,确保不会使模型过拟合(记住数据)或欠拟合(数据不足以学习)。

数据被清理和组织成机器可以理解的形式。这个过程几乎不涉及统计学。

机器学习的预测会根据其类型不同而有所不同:‘分类’,‘回归’,‘聚类’或‘监督学习’和‘非监督学习’。我们可以使用如 RMSE、MSE 等误差度量来处理回归问题,使用真正例、假正例等来处理分类问题。

结论

这两者是相辅相成的。真正的“数据科学家”需要两者都具备。机器学习的基础来源于统计理论和学习。有时机器学习似乎可以在没有扎实统计背景的情况下进行,但那些人并没有真正理解不同的细微差别。为了简化的代码并不意味着可以忽视对问题的深入理解。

有很多例子表明,统计建模可以解决当前的问题,而无需引入机器学习。

相关:

  • 安德鲁·恩的“机器学习渴望”中的 6 个关键概念

  • 数据科学家解释的 P 值

  • 所有模型都是错误的——这是什么意思?

更多相关话题