统计建模与机器学习

原文：www.kdnuggets.com/2019/08/statistical-modelling-vs-machine-learning.html

统计模型是使用统计学构建数据的表示，然后进行分析以推断变量之间的关系或发现洞察。

机器学习是使用数学和/或统计模型来获得对数据的总体理解以进行预测。

我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析水平

3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT 需求

至今，许多行业人士仍将这两个术语混用。虽然有些人认为没有 harm，但真正的“数据科学家”必须理解这两者之间的区别。

统计建模

统计建模是一种数学上近似世界的方法。统计模型包含可以用来解释其他变量之间关系的变量。我们使用假设检验、置信区间等来进行推断和验证我们的假设。

经典的例子是回归分析，我们通过一个或多个变量来找出每个解释变量对自变量的影响。

统计模型将具有抽样、概率空间、假设和诊断等，以进行推断。

我们使用统计模型来从特定数据集找到洞察。我们可以在相对较小的数据集上进行建模，以尝试理解数据的潜在性质。

本质上，所有统计模型都是错误的或不完美的。它们用于近似现实。有时模型的基本假设过于严格，不代表现实。

机器学习

来源: https://existek.com/blog/deep-learning-vs-machine-learning/

机器学习是使计算机在没有明确编程的情况下进行操作的科学。 - 安德鲁·吴

机器学习是教计算机像人类一样学习的方法。这种学习能力比人类更强，因此，当我们有大量数据超出普通人的理解能力或数据模式理解能力时，计算机的计算和存储能力可以超过人类。

简而言之，我们使用机器学习进行预测，并通过其对尚未学习的新数据的泛化能力来评估其性能。

我们进行交叉验证以验证数据的完整性，确保不会使模型过拟合（记住数据）或欠拟合（数据不足以学习）。

数据被清理和组织成机器可以理解的形式。这个过程几乎不涉及统计学。

机器学习的预测会根据其类型不同而有所不同：‘分类’，‘回归’，‘聚类’或‘监督学习’和‘非监督学习’。我们可以使用如 RMSE、MSE 等误差度量来处理回归问题，使用真正例、假正例等来处理分类问题。

结论

这两者是相辅相成的。真正的“数据科学家”需要两者都具备。机器学习的基础来源于统计理论和学习。有时机器学习似乎可以在没有扎实统计背景的情况下进行，但那些人并没有真正理解不同的细微差别。为了简化的代码并不意味着可以忽视对问题的深入理解。

有很多例子表明，统计建模可以解决当前的问题，而无需引入机器学习。

相关：

安德鲁·恩的“机器学习渴望”中的 6 个关键概念
数据科学家解释的 P 值
所有模型都是错误的——这是什么意思？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

statistical-modelling-vs-machine-learning.md

statistical-modelling-vs-machine-learning.md

统计建模与机器学习

我们的前三大课程推荐

统计建模

机器学习

结论

更多相关话题

Files

statistical-modelling-vs-machine-learning.md

Latest commit

History

statistical-modelling-vs-machine-learning.md

File metadata and controls

统计建模与机器学习

我们的前三大课程推荐

统计建模

机器学习

结论

更多相关话题