那如果……复仇者不是世界上最强大的超级英雄的集合,而是一群数据科学家呢?这听起来很有趣,对吧?
那如果……我花点时间写一些类似的东西呢?你会读它,对吧?
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 需求
对吧?
对于那些熟悉童年(或……不久前)漫画书的我们来说,复仇者是漫威漫画的首要超级英雄团队,将其他独立且能力超凡的个体聚集在一起,与地球上最危险的反派作斗争,赢得了我们的感激和崇拜,永远。对于那些不了解的人,复仇者并不是真正的固定超级英雄团队,其成员相当流动,多年来发生了剧烈变化。
但是如果为了乐趣(显然),我们将英雄的属性和性格与数据科学工具的超级功能进行匹配会怎么样?正如我们的英雄有他们的优点、缺点和偏好一样,数据科学家也是如此。复仇者成员的个性特征如何转化为分析领域?
考虑到这一点,我对自己编排了一些复仇者的新版本,并将他们的性格特征赋予他们设想中的超级数据科学家等同体。
顺便提一下,What If... 实际上是漫威宇宙中一个长期连载的漫画系列,虽然不定期,但其故事线非正统且通常“有趣”,挑战了漫威的现状。这种新颖和非传统的叙事方法实际上似乎非常适合数据科学。而且,随着故事创意的枯竭,未来的某一期或许会想象我们的英雄作为数据导向的专业人士。
所以,来吧,这些是地球上最强的分析师。数据复仇者……集结!
队长 执行美国
强大。正直。真正的领袖。美国队长显然是一个高管。我设想史蒂夫·罗杰斯——他的真实名字——会是复仇者公司的一位有能力的首席数据官。他可能不再亲自操作,但他在数据处理的艰难世界中成长,因此他理解那些在他手下工作的数据科学家所面临的日常挣扎。
或者,至少这是他告诉他们的。
绿巨人击碎……数据!
我对此的确定程度比对漫威明显优于 DC 的确定程度还要高,绿巨人绝对是那种会尝试使用 Map Reduce 算法解决每一个问题的数据科学家。想想看:Map Reduce 将问题拆解成更小的部分,然后利用蛮力进一步处理。绿巨人将他面前的一切映射出来,并减少瓦砾。
这是一种完美的匹配。当绿巨人平静并远离数据,假设他的布鲁斯·班纳形态时,他非常有洞察力,并看到一切事物的价值,但在面对手头的任务时,他会回到他最擅长的领域。
当然,Map Reduce 不能解决所有问题。但是,谁会告诉绿巨人这个呢?
被淹没的钢铁侠
鉴于托尼·斯塔克(钢铁侠的化名)令人印象深刻的科学、学术和企业背景,我认为钢铁侠更倾向于利用灵活的数据科学工具。因此,钢铁侠是个 Python 派的人。
处理数据?进行分析?使用库创建分类器?从头实现一些神经网络?建立和扩展一个生产就绪的系统?Python 确实可以做到这一切。托尼也喜欢原型,还能找出一种数据科学家喜欢的编程语言来做这一切吗?不,那另一种语言做不到。
当然,如果钢铁侠只开发生产系统,他可能会拿一本 C++的书,但他以自己是一个多面手的托尼为荣,因此他理解 Python 的价值。
雷神,Spark 之子
绿巨人可能强壮如野兽,但托尔则如神一般强大。此外,他知道没有一种算法方法可以解决他所有的问题。但他理解在他的问题解决方法中,运行在宇宙中最强大的数据处理引擎之上的单一框架的强大力量。此外,他在工作时非常专注,绝不允许任何人碰他的键盘。
托尔可能天生是阿斯加德人,但他选择了 Apache,每天依赖 Spark。
蜘蛛统计侠
网络喷射者曾在不同的时间成为复仇者和团队的亲密朋友。彼得·帕克,他的化名,是一个聪明好学的年轻人,具备高智商。他的科学头脑希望解决重要的问题,对实现这一雄心的琐碎实际问题不感兴趣。
你友好的邻里蜘蛛侠是一位分析师中的分析师。他并不真正关心构建生产系统或实现自己的算法,因此对他来说,软件仅仅是用来获取洞察力和解决问题的工具。R 是他首选的工具,因为它正好满足他的需求,仅此而已。他不介意学习 R 是多么困惑,因为他并非计算机科学背景出身,也不受其他编程语言实现方式的影响。
另外,他有些自满,并且有点聪明,因此人们不喜欢他。他更像是一个在后台、远离客户的数据科学家。
奇异博士的方法
在漫画中,斯蒂芬·斯特兰奇博士,医学博士,成为了至尊法师,整个宇宙的守护者。他利用魔法使敌人迷惑,同时解决问题。从这个意义上讲,奇异博士似乎会支持黑箱算法。更好的是,作为至尊法师,以及漫威宇宙中最强大的实体,几乎没有人真正理解他,也许他仅使用黑箱算法。
黑箱是他的一切首选。Iris 数据集?神经网络!天气数据集?随机森林!当他使用集成方法时,他更喜欢堆叠法。他会考虑支持向量机,但仅在维度非常高的情况下。
当其他数据复仇者遇到瓶颈,不知道如何解决问题时,他们会转向他那神秘难解的算法寻求解决方案。
(计算机?)视界
视界是一个由……嗯,这不重要的安卓机器人。他作为数据复仇者的角色是执行自动化机器学习以帮助其他人。视界采用混合贝叶斯和遗传算法的方法进行特征选择和模型构建,在并行训练和测试大量模型中,以获得最准确的结果,并帮助指引其他团队成员走正确的方向。
这里真正重要的一点是,视界并没有取代其他团队成员。他与更多肉体数据科学家是互补的,并没有试图接管他们的职业,让他们全部失业。眨眼,眨眼。
视界中没有“I”。
J.A.R.V.I.S.
J.A.R.V.I.S.(Just A Rather Very Intelligent System)是数据复仇者对 IBM 的 Watson 的专有模仿。他们决定尝试认知计算的水域,并从零开始实现了这样一个系统。
除了在公司内部满足自己客户的需求外,他们还实现了一个公开访问的 API,通过订阅可用,这也是数据复仇者现在的主要收入来源。API 经济在多年前就被托尼·斯塔克预见到了,他也确实从中获益。
额外奖励:数据科学项目准备的四大天王
为了稍微调侃理查德·里德及其团队,数据复仇者们保留这份实用检查清单,以确保新成员知道如何处理每项任务:
-
理解问题领域和提出的问题
-
调查数据
-
根据需要清理、准备和转换数据
-
从一个明确的框架内来解决问题
鉴于上述情况,我不禁认为,在现实中组建互补且有效的数据科学团队确实有其独特之处。我将把这个判断留给你自己。
文中提到的所有漫画人物以及使用的图像,均为漫威漫画公司的唯一和独占财产。
相关:
-
在建立数据创业公司时如何构建团队
-
大数据漫画解读当前隐私状态
-
8 个(简单的)步骤学习数据科学