图片由cottonbro studio提供
1. Google Cybersecurity Certificate - 快速进入网络安全职业的捷径。
2. Google Data Analytics Professional Certificate - 提升你的数据分析技能
3. Google IT Support Professional Certificate - 支持你的组织的 IT 需求
我最近阅读了一篇文章,描述了数据科学作为一个过度饱和的领域。文章预测,机器学习工程师将在未来几年取代数据科学家。
根据这篇文章的作者,大多数公司用数据科学来解决非常类似的业务问题。因此,数据科学家不再需要提出解决问题的新方法。
作者接着说,解决大多数数据驱动组织中的问题只需要基本的数据科学技能。这一角色很容易被一个机器学习工程师取代——一个具备基本数据科学算法知识的人员,同时还拥有部署机器学习模型的知识。
我在过去一年里阅读了许多类似的文章。
一些人表示,数据科学家的角色将被如 AutoML 之类的工具取代,而另一些人则将数据科学称为一个“即将消亡的领域”,将很快被数据工程和机器学习操作等角色取代。
作为与数据行业不同领域紧密合作的人,我希望就这个话题提供我的意见,并回答以下问题:
-
数据科学是否是一个即将消亡的职业,未来几年是否还会有需求?
-
自动化工具是否会使数据科学家失业?
-
数据科学是否已经过度饱和,未来是否会被新的角色取代?
-
数据科学家对组织来说是否有价值?他们如何为企业创造价值?
大多数组织中的数据科学工作流程非常相似。许多公司雇佣数据科学家来解决类似的业务问题。大多数建立的模型不要求你提出新颖的解决方案。
你在这些组织中解决数据驱动问题时采用的大多数方法可能已经被使用过,你可以从网上丰富的资源中借鉴灵感。
此外,像 AutoML 和 DataRobot 这样的自动化工具的兴起使得预测建模变得更加容易。
我在一些商业用例中使用 DataRobot,它是一个很棒的工具。它会遍历许多值,并为你的模型选择最佳参数,以确保你获得最准确的模型。
如果预测建模随着时间的推移变得更简单,那么为什么公司仍然需要数据科学家呢?为什么不使用自动化工具和机器学习工程师的组合来管理整个数据科学工作流程呢?
答案很简单:
首先,数据科学从来不是关于重新发明轮子或构建高度复杂的算法。
数据科学家的角色是通过数据为组织增值。在大多数公司中,这仅涉及构建机器学习算法的极小一部分。
其次,总会有一些问题是自动化工具无法解决的。这些工具有一套固定的算法供你选择,如果你发现一个需要多种方法组合来解决的问题,你将需要手动解决。
尽管这种情况并不常见,但仍然会发生——作为一个组织,你需要雇用足够熟练的人来处理这些问题。此外,像 DataRobot 这样的工具不能进行数据预处理或模型构建前的繁重工作。
作为一个曾为初创公司和大型公司创建数据驱动解决方案的人,情况与处理 Kaggle 数据集的体验非常不同。
没有固定的问题。通常,你会有一个数据集,并且会给你一个商业问题。你需要找出如何利用客户数据来最大化公司的销售额。
这意味着数据科学家所需的不仅仅是技术或建模技能。你需要将数据与当前的问题联系起来。你需要决定哪些外部数据源可以优化你的解决方案。
数据预处理既漫长又繁琐,这不仅因为它需要强大的编程技能,还因为你需要对不同的变量及其与当前问题的相关性进行实验。
你需要将模型的准确性与诸如转化率这样的指标联系起来。
模型构建并不总是这个过程的一部分。有时,简单的计算可能足以完成像客户排名这样的任务。只有某些问题需要你实际进行预测。
最终,数据科学家为组织提供的价值在于他们将数据应用于现实世界的用例的能力。无论是构建分割模型、推荐系统,还是评估客户潜力,除非结果是可解释的,否则对组织没有实际的好处。
只要数据科学家能够借助数据解决问题,并弥合技术与商业技能之间的差距,这一角色就会继续存在。
Natassha Selvaraj 是一位自学成才的数据科学家,对写作充满热情。您可以通过 LinkedIn 与她联系。