Skip to content

Latest commit

 

History

History
103 lines (52 loc) · 7.06 KB

8-places-data-professionals-find-datasets.md

File metadata and controls

103 lines (52 loc) · 7.06 KB

数据专业人士寻找数据集的 8 个地方

原文:www.kdnuggets.com/2020/12/8-places-data-professionals-find-datasets.html

评论图示

由 Manuel Geissinger 拍摄,来自 Pexels


我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升您的数据分析技能

3. Google IT 支持专业证书 - 支持您的组织进行 IT 管理


熟能生巧——这是掌握任何主题或行业的最佳方式。涉及数据集时,扩展您的视野是必要的,因为这个领域非常广阔。

对于从事任何形式的数据工作的人来说,从机器学习到数据可视化,以下网站和资源对于实践都是非常宝贵的。

1. Kaggle

Kaggle 是一个可靠的实践数据资源。它将编写和分享代码纳入一些数据集中,这为您掌握该领域提供了额外的好处。您将处理自然语言处理(NLP)和图像分类等数据主题。

例如,对于文本挖掘,您可以深入 “星际迷航”剧本项目 并开始使用 Kaggle 提供的数据进行练习。这个数据仓库的独特之处在于,您可以看到其他用户在与您相同项目上的反馈。可能性是无限的。

2. 谷歌

谷歌作为一个庞大的搜索引擎,也涉足了无数其他领域。您可以 查看数据集搜索 页面,寻找您感兴趣的主题。如果您想探索动物与人类的关系,只需输入相关关键词,搜索结果将为您提供相关项目。

您还可以使用 Google Trends 和 Google Finance 查找任何您感兴趣的主题的数据。Trends 将展示术语的使用情况和搜索量,而 Finance 提供您可以处理的股票信息。

3. r/datasets

如果您希望通过社区化的方法寻找实践数据,可以转向 Reddit。Reddit 在某种程度上已经成为了一个搜索引擎。子版块 r/datasets 是一个典型的例子 体现了 Reddit 的资源丰富性。

你会发现许多志同道合的人对数据实践的来源提供了大量贡献。他们会分享他们发现有用的网站和项目,并指导你找到正确的路径。你也可以分享你自己处理过的项目,以保持积极的势头。

4. 美国政府

由于美国政府处理了大量数据集,它成为了一个理想的实践资源。特别是健康数据是你可以找到的最丰富的信息之一。超过 218,000 个数据集可供使用,你可以在任何领域找到项目。

当前的 COVID-19 大流行使无数数据集进入了公众视野。例如,你可以使用一个关于利用公共卫生数据抗击疫情的数据集。由于美国政府提供了大量的数据集,这个资源库是任何形式实践的理想选择。

5. 选举数据

虽然不是一个资源库,但选举数据随处可见。过去的总统选举引起了历史上前所未有的关注。由于大量的邮寄选票和基于技术的参与,这次选举以新的方式生成了数据集。

要练习一系列子主题——如探索性数据分析、机器学习、统计建模和可视化——你可以在任何资源库找到基于选举的数据集。Google、Kaggle 和美国政府将极为有用。

这次选举将产生持久的影响,这种相关性使其数据集在未来几年内成为良好的实践材料。

6. 人口普查数据

类似于选举数据,人口普查数据集也在不断变化。美国及全球人口在一年内会有所波动,尤其是在像 COVID-19 这样的致命疫情下。

GitHub 是一个突出的数据集资源。对于人口普查数据,你可以下载特定项目,这将帮助你进行探索性数据分析、建模、可视化和统计分析。处理人口普查信息每次都会带来新的收获,你可以尽可能地缩小或放大数据。

7. Awesome Public Datasets

正如 GitHub 提供了人口普查数据集的资源,它还托管了互联网上最好的数据实践资源之一。Awesome Public Datasets提供了各种各样的信息供你使用。

GitHub 从公共资源如博客、用户和任何形式的公共数据中收集数据。你会发现从农业到博物馆再到软件的各种主题的数据集。使用 GitHub 时,你可以将你的兴趣与最佳实践相匹配。

8. UCI

既然机器学习已成为科技世界的必需部分,了解其工作原理至关重要。专注于机器学习的数据集是掌握该领域的最佳方式。UCI 机器学习库是 最好的资源之一

该网站收集了各种数据库、数据生成器和理论,这些都是机器学习的关键。你将分析算法,并深入理解机器学习为何如此有价值。UCI 应成为这项研究的主要资源。

最佳数据实践

这些资源和库是互联网上进行数据集深入练习的最佳场所之一。最终,你会希望选择那些激发你兴趣的网站。如果你想深入研究机器学习,UCI 将是理想的资源。如果你想处理人口信息,美国政府将是不可或缺的。

由于这些资源提供免费的项目练习,你可以进一步扩展视野,并在简历上展示各种数据集分析。

简介:Devin Partida 是大数据和技术作家,以及 ReHack.com 的主编。

相关内容:

  • 数据科学中的前 10 名列表

  • Python 中数据集拆分的最佳实践

  • 数据专业人士如何为简历增加更多变化

更多相关话题