原文:
www.kdnuggets.com/2023/05/data-engineering-landscape-aidriven-world.html
图片来自 Bing 图像创作者
其中一个最大的影响是“提示工程”的广泛采用,这本质上是引导 AI 协助编码相关任务的技能。我看到安德烈·卡帕斯基在 Twitter 上开玩笑说:“最炙手可热的新编程语言是英语。”
1. 谷歌网络安全证书 - 快速通道进入网络安全职业
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
生成式 AI 还引发了一场淘金热,数十家非常早期的初创公司竞相开发一种 AI,可以查询数据仓库并用自然语言回答数据消费者提出的临时问题。蒙特卡罗首席技术官Shane Murray评论道:“这将极大简化自助分析过程,并进一步普及数据,但考虑到数据管道的复杂性,对于更高级的分析,超越基本的‘指标提取’会非常困难。”
穆雷提到:“当我评估数据工程候选人时,我关注的是他们的影响力和迅速上手的能力。”这可以体现在他们的主要工作中,也可以通过贡献开源项目体现。在这两种情况下,关键在于你做了什么影响,而不是你是否在那里。
如果你不喜欢变化,数据工程可能不适合你。穆雷提到,“这个领域几乎没有什么没经历过重塑。”显然,构建和维护数据管道的过程将变得更加容易,数据消费者访问和处理数据的能力也将随之提升。
然而,未改变的是数据生命周期。穆雷指出,“数据被生成,经过处理用于某个用途,然后被归档。”他还说:“尽管基础设施可能会变化,自动化将把时间和精力转移到左右两边,但人类数据工程师将继续在从数据中提取价值方面发挥关键作用,无论是架构可扩展且可靠的数据系统,还是作为某一数据领域的专业工程师。”
我发现数据平台团队,现在在各种规模的数据团队中相当普遍,是数据工程师锻炼技能的绝佳场所。
默里进一步解释道:“在这里,你可以专注于业务运营中心的特定数据领域,如客户数据或产品/行为数据。在这个角色中,你应当力求理解从源头到分析用例的端到端问题,这将使你成为团队和业务的资产。”
“或者,你可以专注于数据平台的特定能力,如可靠性工程、商业智能、实验或特征工程。”默里指出。“这些角色通常对每个业务用例有更广泛但较浅的理解,但可能是从软件工程角色转向数据的一个更容易的跳跃。”
默里表示,我越来越常看到数据工程师的另一条路径是数据产品经理角色。如果一个人正在提升数据工程技能,但发现自己更倾向于与最终用户沟通,阐明需要解决的问题,并为团队提炼愿景和路线图,那么产品管理角色可能是一个未来的前景。
数据团队正在开始投资于这一技能集,随着我们转向将“数据作为产品”进行处理,从关键仪表盘和决策支持工具到对业务运营或客户体验至关重要的机器学习应用。“优秀的数据产品经理将理解如何构建一个可靠且可扩展的数据产品,同时应用产品思维来推动愿景、路线图和采纳,”默里确认道。
默里阐述了现代数据堆栈正在迅速成为数据工程领域主流的流行技术栈。这个栈以基于云的数据仓库或数据湖为核心,辅以基于云的数据摄取、转化、编排、可视化和数据可观察性的解决方案。
其优势在于具有快速的价值实现时间,从根本上比前一代工具更具用户友好性,可以扩展到各种分析和机器学习用例,并能够扩展到现代世界中管理的数据的规模和复杂性。
“具体的解决方案将根据组织规模和特定数据使用案例有所不同,但通常最常见的现代数据堆栈包括 Snowflake、Fivetran、dbt、Airflow、Looker 和 Monte Carlo。可能还会有 Atlan 和 Immuta 分别用于数据目录和访问,” Murray 解释道。“较大的组织或那些有更多机器学习使用案例的组织通常会有更多地利用 Databricks 和 Spark 的数据堆栈。”
“由 Snowflake 和 Databricks 引发的现代数据堆栈时代尚未达到整合的阶段,我们已经看到可能进一步颠覆现代数据管道现状的想法,” Murray 反思道。“在不久的将来,流数据的更广泛应用、零-ETL、数据共享以及统一的度量层将成为趋势。”零-ETL 和数据共享尤其有趣,因为它们有潜力简化现代数据管道的复杂性,这些管道具有多个集成点,因此也有失败的风险。
预计技术行业的就业市场将在 2023 年经历重大变化,这一变化由大数据分析的增长推动。根据 Dice Media 的分析,这种变化将发生,因为全球大数据分析市场预计将以 30.7% 的惊人速度增长,到 2030 年预计达到 3462.4 亿美元的价值。这种增长预计将为数据工程师、商业分析师和数据分析师等领域的熟练专业人士创造大量机会。
“我坚信,数据工程工作将不仅仅是编写代码,更将涉及与业务利益相关者的更多沟通和设计端到端系统,”经验丰富的数据工程师和开源爱好者 Deexith Reddy 评论道。“因此,为了确保就业安全,必须同时关注数据分析的广度和数据工程的深度。”
生成性 AI 可能会使数据工程领域变得更具竞争力。然而,在我们的电话会议中,Reddy 还强调,参与开源项目对于建立强大的投资组合总是有益的,考虑到技术进步和最近的 AI 突破。
Reddy 进一步阐述了数据工程师在利用开源技术提升组织能力方面的关键角色。例如,数据工程师广泛采用了如 Apache Spark、Apache Kafka 和 Elasticsearch 等开源技术,数据科学家则使用 Kubernetes 来进行数据科学实践。这些开源技术帮助满足深度学习和机器学习负载以及 MLOps 工作流的计算需求。
公司通常会从这些开源项目中识别和招募顶尖贡献者,营造一个重视并鼓励开源贡献的环境。这种方法有助于留住技术熟练的数据工程师,并使组织能够从他们的专业知识中受益。
Saqib Jan 是一位作家和技术分析师,对数据科学、自动化和云计算充满热情。