原文:
www.kdnuggets.com/2019/06/infinity-stones-data-science.html
目前正有一个全球范围内的流行文化现象席卷整个世界,你当然知道我在说什么:数据科学!
实际上,这是《复仇者联盟:终局之战》,是漫威电影宇宙(MCU)十多年讲述的高潮。但你可能已经知道了。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯
2. 谷歌数据分析专业证书 - 提升你的数据分析水平
3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT 需求
虽然《终局之战》的故事或多或少围绕无限宝石展开——整个 MCU 也有一段时间围绕它们展开——以及它们在拯救整个宇宙(或者说一半宇宙)中的作用,但数据科学的实践实际上也可以从它们的力量中学习一些东西。我知道你可能不相信我,但让我们来看一看。
别忘了,灭霸自己其实也有一点数据科学家的性质。他识别了一个问题及其解决方案,尽管你可能会对他的结论有异议,更不用提他的思维方式完全缺乏科学过程。但那不是重点。
这里是无限宝石如何映射到数据科学实践中,以及它们可以教给我们关于自己实践的教训。
现实宝石
现实宝石赋予使用者操控物质的力量。
首先从比喻角度看。可以推测,为了操控现实,我们必须理解它。这似乎是对领域知识重要性的一个很好(足够)类比。
在没有理解项目领域的情况下开始数据科学项目不仅仅是个坏主意,最终结果很可能也不会立足于现实。我们不会允许那些从未学习过棒球规则的运动员参加职业棒球比赛;同样,我们也不应该期望在一个我们不理解的领域内能够进行称职的数据科学,无论我们的统计、分析、技术以及相关技能如何。
到底什么构成了足够的领域知识?这是相对的。你是在做一些普通约会应用的浅层描述性分析吗?还是在为一家专注于某种晦涩证券投资策略的金融机构进行深入预测分析项目?进行第一次分析所需的“约会”领域知识可能微不足道,但对于第二个分析的有用见解肯定需要扎实的金融理解。
空间宝石
空间宝石赋予用户对空间的掌控能力。
对空间的掌控,嗯?那么对数据空间的掌控呢?如何才能掌握自己的数据空间?通过探索性数据探索获得深入知识。
但是我们说的数据探索到底需要多少,具体是什么样的探索?这可能会让你感到惊讶,但……这是相对的。如果我们对描述性分析感兴趣——即没有预测的简单数据分析——我们对数据的熟悉程度越深入越好。在这种情况下,目标就是手段,因此描述、可视化和共享数据的质量,如同数据分析师一样,与探索的亲密度高度相关。
在预测分析和机器学习工作中,对于探索性数据探索的帮助程度存在不同的意见。对于那些未用于训练的数据集(即验证集和测试集)的探索性分析水平也存在不同的意见。除此之外,为了确保最大程度地掌控你的数据空间,请确保防范探索性数据分析或可视化质量差的潜在陷阱,例如相关性谬误、辛普森悖论和生态谬误。
当正确执行时,探索性数据分析将提供对数据的理解,使得成功的数据科学工作随之而来。
时间宝石
时间宝石赋予其拥有者倒退或快进时间的能力。
如果你研究过算法复杂性,你会知道算法的选择会严重影响完成特定计算任务的时间,即使数据相同,这也是算法和方法选择相当于能够快进时间的原因。
这适用于算法的直接选择,也适用于对超参数的设置,这些设置也会影响运行时间。神经网络架构可能非常复杂,但一对相同简单的神经网络在使用不同的学习率时可能有截然不同的收敛时间。
你知道关于偏差-方差权衡,但也有时空权衡,以及复杂性-速度权衡可以做出。一个逻辑回归模型可能不如一千棵树的随机森林表现得那么好,但为了速度,这种性能上的牺牲可能对你来说是值得的,更不用说逻辑回归模型可能比随机森林提供的解释性提升(如果这是你所关注的)。
这并不是说你必须选择一个更快(或更简单,或计算密集度更低,或更具解释性)的算法,但你需要记住这是你在做出的一种权衡,同时也是我们控制时间流动的最佳方式之一。
至少,这是我们控制时间流动的最佳方式之一,即使没有真正的时间宝石。
力量宝石
力量宝石赋予持有者大量的能量——这种能量足以摧毁整个星球。
听起来需要很多能量。我们在数据科学领域如何找到这种能量呢?计算能力!
计算能力(或“计算”)是我们投入到特定问题上的集体计算资源。曾经认为无限计算是计算的终极目标,这有其充分的理由。考虑一下与今天相比,一两三十年前的计算能力有多么有限。想象一下科学家们坐在一起,思考如果拥有更多的计算能力,能解决哪些问题。那时的天花板似乎无限高!
当然,事情并不完全如预期发展。确实,我们现在拥有比以往任何时候更多的计算资源,如超级计算机、云计算、由大量计算支持的公开 API,甚至是我们的笔记本电脑和智能手机。我们曾经无法想象的各种问题,现在都能得到解决,这是一项巨大的进步。然而,我们需要记住,“聪明”是对计算能力的极佳补充,数据科学及其支持技术的许多进展都得益于智慧而非单纯的计算能力。
理想情况下,可以用智慧和力量的完美平衡来解决每一个问题,用聪明的方法来设定完美的算法,并且有足够的计算能力来支持它。也许这是数据科学将来会证明自身的一个领域。
在此之前,请放心,即使对于不完美的问题解决方法,也有足够的计算资源可用。
灵魂宝石
在电影宇宙中,灵魂宝石的力量尚不清楚。在漫画中,这颗宝石允许持有者捕捉和控制他人的灵魂。
“捕捉和控制他人的灵魂”听起来很阴森,并且有些狡黠。但如果我们从更积极的角度看待灵魂宝石的概念,我们可以将其与预测的力量等同起来。我们正在训练模型以控制未标记数据的最内在本质——其灵魂——通过做出信息充分的预测,揭示其真实内容。
这根本不牵强,对吧?
灵魂宝石可以看作是预测的力量,也就是说,它位于数据科学的绝对核心。数据科学家试图达成什么?他们试图利用现有数据回答有趣的问题,以便做出尽可能与现实一致的预测。预测这一部分显得尤为重要。
鉴于其如此关键,数据科学的成果应当以最高的谨慎对待。不夸大其词,但我们工作的灵魂在于它所能创造的价值(无论是对商业、慈善机构、政府还是社会整体),轻视这一点或将预测结果视为数据科学过程中的另一步骤是不明智的。
数据科学是一场对灵魂的争夺战,加上即将到来的对思想的战斗。
心灵宝石
心灵宝石允许用户控制他人的思想。
哪一块无限宝石允许控制他人的思想?当然是心灵宝石,在数据科学的世界里,没有什么比精心制作的数据展示更能帮助控制他人的思想了,其中包括引人入胜的故事和有效的可视化。
模型已经完成,预测也已经做出,洞察力... 很有见地。现在是时候将结果告知项目相关方了。但在我们当中,非数据科学家对数据及数据科学过程的兴趣和理解不同,因此我们需要以他们能够欣赏的方式有效地展示我们的发现。
这不是某种形式的自以为是或“他们就是不懂”;这是对现实的承认,每个人都有不同的技能、兴趣和角色,而那些最能从我们工作中受益的个人不一定具备数据科学家的特点。因此,要根据受众的需要调整你的展示方式。
记住,如果你的洞察力无法转化为有用的结果,那么你的工作就不算完成。你需要说服别人你工作的价值。一旦他们被说服,他们就可以采取行动,而
通过行动实现的变化是任何数据科学项目的真正回报。
无限宝石的描述来自这篇文章。
文中提到的所有漫画人物及使用的图像均为漫威漫画公司的唯一和专有财产。
相关:
-
数据复仇者… 集合!
-
数据科学过程,再发现
-
数据科学过程