原文:
www.kdnuggets.com/2021/06/data-science-not-becoming-extinct-10-years.html
评论
Ahmar Shah 博士,科学家,学术(医疗保健中的数据科学)
图片由michael podger提供,来源于Unsplash
1. 谷歌网络安全证书 - 快速进入网络安全职业
2. 谷歌数据分析专业证书 - 提升你的数据分析水平
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 需求
作为一名从事数据科学工作超过十年的专业人士,看到有人预言这个领域将在 10 年内消失,我感到非常沮丧。通常给出的理由是新兴的AutoML工具将消除从业者开发自己算法的需求。
我发现这样的观点特别令人沮丧,因为它使初学者不认真对待数据科学,无法在其中取得成功。坦率地说,看到关于这个领域的预言是一种对数据科学社区的不公,因为需求只会进一步增加!
为什么任何理智的人会投资他们有限的时间和精力去学习一些很快就会消失的东西呢?
让我告诉你一件事。如果有一个领域让你有最好的机会真正退休,那就是数据科学。就这么简单。我将给你四个关键理由,说明为什么数据科学不会很快消失。我还会给你建议,以确保你在 10 年内仍然保持在数据科学的前沿。
数据科学不会消失,但如果你不与时俱进,你的技能可能会。让我们深入探讨。
让我们从科学开始。我不需要说服你,科学已经存在了几个世纪。科学的本质是从数据中学习。我们观察世界上的事物(收集数据),然后创建一个模型(传统上称为理论)来总结和解释这些观察结果。我们创建这些模型来帮助我们解决问题。
数据科学的本质是完全相同的。收集数据,通过创建模型从中学习,然后使用这些模型来解决问题。多年来,各个学科开发并完善了许多执行这一过程的工具。根据领域的重点不同,描述这一组工具和程序的名称也有所不同。目前获得广泛关注的术语是数据科学。
然而,与以前相比,现在的不同之处在于数据的量和我们可用的计算能力。当我们只有几个数据点和少量维度时,手动将其记录在纸上并拟合一条直线(回归)或识别模式是可行的。现在,我们可以廉价地从多个来源(多特征)收集大量数据。拥有大量数据点和维度时,人力无法或不切实际地拟合一条直线(或聚类)。
如果收集数据和开发模型以解释数据的实践已经存在了几个世纪,你认为为什么它会在未来 10 年内消失?
如果有什么不同的话,我们将收集更多种类的数据,并且需要新的方式来创造性地结合这些数据以解决问题。
“自动化机器学习”下的一些工具正在获得关注,其中一些可能会导致数据科学的民主化。然而,大多数此类工具将有助于加速在清理过的数据输入上的不同算法的测试和实施。
但将干净的数据输入模型的能力绝非易事。
实际上,许多与数据科学相关的调查指出了数据科学家在数据收集和清理上花费的时间的不成比例。以 Anaconda(数据科学家使用的领先分发工具之一)的年度调查为例,该调查显示数据科学家花费 66%的时间在数据加载、清理和可视化上,仅有 23%的时间用于模型训练、选择和评分。我的个人经验也是如此。
了解算法如何在后台工作并理解其细微差别并非易事,许多在线课程正是花时间解释这些。然而,这种对算法的专注只会创造一种虚假的错觉,好像数据科学全是关于模型的。许多经验丰富的从业者开始看到过度强调模型,而忽视数据清理的问题。领域内的领先专家安德鲁·吴(Andrew Ng)鼓励数据科学界转向以数据为中心的方法,而不是我们目前在数据科学项目中普遍采用的以模型为中心的方法。在他的深度学习新闻简报中,他指出:
有一个常见的笑话,说 80%的机器学习实际上是数据清理,好像这是个较低级的任务。我的观点是,如果 80%的工作是数据准备,那么确保数据质量是机器学习团队的重要工作。
这种情况因网站如Kaggle的存在而进一步恶化,那里参与者提供的是干净的数据,任务仅限于开发不同的模型,以最大化预先确定的性能指标。(Kaggle 对于它的功能来说确实很棒!)
真实世界的项目涉及许多问题,这些问题并不都是从仔细清理的数据或定义明确的问题开始。在大多数项目中,我们事先不一定知道哪些特征会相关、数据需要多频繁地收集以及需要回答的正确问题是什么。欢迎来到真实世界!
新的自动化工具的出现将继续使不同模型的实施变得简单且易于访问。然而,它无法解决现实世界项目中更具挑战性的问题。许多此类问题是依赖于背景的,并不适合自动化。
也许是受到数据科学热潮的驱动,我曾经遇到有人来找我,说他们有数据,希望我应用“数据科学”来解决他们的问题(这些问题可能也不一定明确)。我敢打赌,许多非数据科学家会把它视为某种魔法(一个你可以输入数据然后得到输出的工具)。
远非如此,真实项目有需要平衡的权衡。这需要一个迭代的方法,首先部署初始模型,然后随着更多数据的收集,监控性能以进行进一步的优化。
任何部署的模型只有在按预期使用时才有用。这并不能保证。需要有熟练的人工元素来持续监控和诊断部署模型的使用,并提出适当的解决方案来优化它。然而,监控部分不一定会被自动化,甚至可能不是定量的。可能会发生非常意外和奇怪的事情,你可能无法预测。
不久前,伦敦大都会警察测试了一个实时的面部识别系统。该系统配有摄像头,可以扫描购物中心和公共广场上的人,提取各种面部特征,然后与观察名单上的嫌疑人进行比对。系统随后会显示任何匹配结果,以供警官审查,并决定是否需要拦截(在某些情况下,还可能进行逮捕)。关于该系统操作的独立报告引发了重大关注,并指出了几个局限性。在 6 次试验中识别出的 42 名嫌疑人中,只有 8 名(仅 19%)是正确的匹配。
有大量文献记录了data science 算法存在偏见,这使得它们不够完善,需要进一步发展。按照目前的情况,我们甚至还没有到模型被广泛部署和使用的阶段。因此,我们甚至没有足够的模型漂移或出现问题的案例来进一步自动化这些工具。到目前为止,我们能做的最好的事情是识别模型部署后的问题(例如,银行业,医疗保健,警务)。
*这是最先进的技术。 我们开发和部署模型,但它们却证明是不够的,不适合目的。我们现在正处于只看到使用不适当模型的早期后果的阶段。是否有任何自动化的解决方案来应对这一问题?没有!
即使是手动操作,我们也面临挑战!
这是我最喜欢的观点。平凡、重复、无认知需求的任务已经面临自动化的风险。然而,这种破坏只导致了更多需要人类创造力和解决问题能力的工作。我们的记忆很糟糕,但我们人类在识别模式以解决问题方面是非常卓越的。
“你的头脑是用来产生想法的,不是用来保存它们的。”——大卫·艾伦
数据科学是因为有科学而存在的。这是关于解决问题。我们面临的问题需要创造性和独创性的解决方案。我们正是擅长这方面,这是一项极具吸引力的技能。数据科学的应用场景只会增加。这只是因为我们正在收集更多数据,并且我们拥有更多计算能力来在小芯片上实施复杂的数学运算。
让我展示一下实现当今最著名的机器学习算法有多么简单。
想象一下,你已经有了经过仔细清理的输入变量 (X) 和输出变量 (Y),准备输入到模型中。使用 Scikit-learn(一个知名的开源 Python 机器学习库),我们可以用以下两行代码实现决策树:
**from** **sklearn** **import** tree
tree.DecisionTreeClassifier.fit(X,Y)
我们可以用以下两行代码实现支持向量机:
**from** **sklearn** **import** svm
svm.SVC.fit(X,y)
你看到模式了吗?我们只需更改函数名称,就可以得到模型。真正的数据科学家不会坐着从头实现这些算法。他们会使用行业中成熟的库,比如 Scikit-learn。
但你真的认为大多数数据科学家在做这些工作,并因这一技能而被聘用吗?改变模型中的一个词,然后运行并报告结果?不!
然而,如果你作为数据科学家只关注这些,那么很快这个技能的需求将会消失。
实现一个模型是大多数人如果知道工具的话都能做到的,而且培训人们也很容易。困难的部分是:
-
知道何时使用某种工具
-
为什么某种工具表现不佳
-
哪些步骤可能有助于提高性能
-
在给定问题中哪些权衡是重要的
-
洞察力和将上述所有与总体目标联系起来的能力
-
具备与领域专家沟通的能力
上述技能是通过处理现实世界中具有挑战性的项目获得的。它们需要时间,学习过程也在认知上是有挑战的。然而,随着我们收集更多数据,面对行业特定的独特挑战和竞争,这些技能将变得越来越重要(而不是 更少!)。
我列出的技能属于解决问题和创造力的永恒领域。这些技能将继续受到高度追捧,因为它们无法被自动化。
你应当有一个首选工具,学习它、掌握它,并随着经验的积累了解其细节。然而,确保你能够利用机会参与挑战性的项目,在这些项目中你可以发挥你的创造力和解决问题的技能。
不必担心数据科学会很快灭绝。这种担忧只会让你无法享受你的旅程,并且会使你对这个领域半心半意。如果你相信这种末日预言,你将错失有前景的机会,使你的技能停滞不前。确实,你的需求也会随之消失!
“无论你认为自己能还是不能,你都是对的。” 亨利·福特
然而,如果你继续从事具有挑战的数据科学项目(从数据收集到模型部署),你将在 10 年内站在这个领域的前沿,你的需求只会增加!
选择权在你手中。 ????
简介: Ahmar Shah, PhD 是一名科学家和学术人员。Ahmar 领导一个学术团队,基于爱丁堡大学医学学院的 Usher Institute,专注于医学领域的数据驱动创新。
原文。经许可转载。
相关:
-
数据科学家,你需要学会编程
-
数据科学家在 10 年内会灭绝吗?
-
未来 5 年会出现数据科学工作短缺吗?