原文:
www.kdnuggets.com/2019/08/statistical-modelling-vs-machine-learning.html
统计模型是使用统计学构建数据的表示,然后进行分析以推断变量之间的关系或发现洞察。
机器学习是使用数学和/或统计模型来获得对数据的总体理解以进行预测。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析水平
3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT 需求
至今,许多行业人士仍将这两个术语混用。虽然有些人认为没有 harm,但真正的“数据科学家”必须理解这两者之间的区别。
统计建模是一种数学上近似世界的方法。统计模型包含可以用来解释其他变量之间关系的变量。我们使用假设检验、置信区间等来进行推断和验证我们的假设。
经典的例子是回归分析,我们通过一个或多个变量来找出每个解释变量对自变量的影响。
统计模型将具有抽样、概率空间、假设和诊断等,以进行推断。
我们使用统计模型来从特定数据集找到洞察。我们可以在相对较小的数据集上进行建模,以尝试理解数据的潜在性质。
本质上,所有统计模型都是错误的或不完美的。它们用于近似现实。有时模型的基本假设过于严格,不代表现实。
来源: https://existek.com/blog/deep-learning-vs-machine-learning/
机器学习是使计算机在没有明确编程的情况下进行操作的科学。 - 安德鲁·吴
机器学习是教计算机像人类一样学习的方法。这种学习能力比人类更强,因此,当我们有大量数据超出普通人的理解能力或数据模式理解能力时,计算机的计算和存储能力可以超过人类。
简而言之,我们使用机器学习进行预测,并通过其对尚未学习的新数据的泛化能力来评估其性能。
我们进行交叉验证以验证数据的完整性,确保不会使模型过拟合(记住数据)或欠拟合(数据不足以学习)。
数据被清理和组织成机器可以理解的形式。这个过程几乎不涉及统计学。
机器学习的预测会根据其类型不同而有所不同:‘分类’,‘回归’,‘聚类’或‘监督学习’和‘非监督学习’。我们可以使用如 RMSE、MSE 等误差度量来处理回归问题,使用真正例、假正例等来处理分类问题。
这两者是相辅相成的。真正的“数据科学家”需要两者都具备。机器学习的基础来源于统计理论和学习。有时机器学习似乎可以在没有扎实统计背景的情况下进行,但那些人并没有真正理解不同的细微差别。为了简化的代码并不意味着可以忽视对问题的深入理解。
有很多例子表明,统计建模可以解决当前的问题,而无需引入机器学习。
相关:
-
安德鲁·恩的“机器学习渴望”中的 6 个关键概念
-
数据科学家解释的 P 值
-
所有模型都是错误的——这是什么意思?