Skip to content

Latest commit

 

History

History
75 lines (44 loc) · 5.1 KB

data-science-primer-basic-concepts-for-beginners.md

File metadata and controls

75 lines (44 loc) · 5.1 KB

数据科学入门:初学者的基本概念

原文:www.kdnuggets.com/2017/08/data-science-primer-basic-concepts-for-beginners.html

数据科学入门

数据科学究竟是什么?


我们的前 3 个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业轨道。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织的 IT


数据科学是一个多面向的学科,包括机器学习及其他分析过程、统计学及相关的数学分支,越来越多地借鉴高性能科学计算,最终目的是从数据中提取洞察,并利用这些新发现的信息讲述故事。

对这个多面向的学科感到陌生?不确定从哪里开始?这是一个针对数据科学新手的简短且不太技术化的主题概述,从有监督学习与无监督学习等基础知识到幂律分布和认知偏见的重要性。

数据科学基础:初学者的 3 个见解

对于数据科学初学者,3 个基本问题进行了概述:有监督学习与无监督学习、决策树剪枝,以及训练集与测试集。

数据科学基础:数据挖掘与统计学

当我第一次接触数据挖掘和机器学习时,我承认:我认为这是一种魔法。能做出准确的重大预测?这是巫术!然而,好奇心很快让你发现一切都是光明正大的,可靠的科学和统计方法承担着责任。

但这会导致短期内更多的问题。机器学习。数据挖掘。统计学。数据科学。 这些概念和术语有时重叠且显得重复。虽然有很多尝试去澄清这些(永远不安定的)不确定性,但这篇文章将探讨数据挖掘与统计学之间的关系。

数据科学基础:从数据中可以挖掘出什么类型的模式?

数据挖掘功能可以分为 4 个主要“问题”,即:分类和回归(合称为预测分析);聚类分析;频繁模式挖掘;以及异常值分析。我想你也可以用其他方式来拆分数据挖掘功能,比如关注算法、从监督学习与非监督学习开始等等。然而,这是一种合理且被接受的方法来识别数据挖掘可以完成的工作,因此这些问题每个都在下面进行讨论,重点是每个“问题”可以解决什么。

数据科学基础:集成学习者介绍

本文将概述 bagging、boosting 和 stacking,这些是最常用且最著名的基本集成方法。然而,它们并不是唯一的选择。随机森林是另一种集成学习器,它在一个预测模型中使用多个决策树,通常被忽视并被视为“常规”算法。还有其他选择有效算法的方法,下面也会讨论到。

数据科学基础:幂律与分布

也称为缩放律,幂律基本上意味着某些现象的少量发生是频繁或非常常见的,而相同现象的大量发生则是不频繁或非常罕见的;这些相对频率之间的确切关系在幂律分布中有所不同。幂律能够描述的自然发生和人为现象的广泛范围包括收入差距、某语言的词频、城市规模、网站规模、地震的震级、书籍销量排名和姓氏的受欢迎程度。

数据科学基础:认知偏误四个关键点

一些具体的认知偏误如何(并且确实会)在现实世界中干扰的例子包括:

  • 不理解科学却以为自己理解的选民和政治家会因为冬天依然下雪而怀疑气候变化(邓宁-克鲁格效应

  • 确认偏误 最近阻止了民调人员相信任何显示特朗普可能赢得美国总统选举的数据。

相关:

  • 机器学习算法:简明技术概述 - 第一部分

  • 掌握 Python 机器学习的 7 个步骤

  • 数据科学难题,解释

更多相关主题