Skip to content

Latest commit

 

History

History
185 lines (95 loc) · 11.8 KB

data-science-history-overview.md

File metadata and controls

185 lines (95 loc) · 11.8 KB

数据科学历史与概述

原文:www.kdnuggets.com/2020/11/data-science-history-overview.html

评论

朱利亚诺·利戈里,全球首席信息官及数字化转型经理

什么是数据科学?用简单的话说?


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织在 IT 方面


“数据科学”这一术语最近才出现,专门指定一种新职业,旨在解读海量的大数据。但解读数据有着悠久的历史,科学家、统计学家、图书馆员、计算机科学家等已讨论了多年。

如今,作为一个业务领域的数据科学确实非常复杂,由于其显著的受欢迎程度,有许多对数据科学的描述,例如:

数据科学涉及分析数据并从中提取有用的知识。建立预测模型通常是数据科学家的最重要活动(格雷戈里·皮亚特斯基,KDnuggets,www.kdnuggets.com/tag/data-science)。

数据科学涉及分析大数据,以提取与可能性和误差估计的相关性(布罗迪,2015 年)。

数据科学是一门新兴学科,它借鉴了统计方法和计算机科学的知识,以为各种传统学术领域提供有影响力的预测和见解(哈佛数据科学计划 datascience.harvard.edu)。

然而,用简单的话说,**数据科学家只是尝试从大量数据中获取洞察,以帮助公司做出更聪明的业务决策。**我们还将数据科学定义为一种通过数据推断可操作见解的方法论。

数据科学使用各种数据导向技术,包括SQLPythonRHadoop等。然而,它还广泛使用统计分析、数据可视化、分布式架构等,以从数据集提取意义。通过数据科学应用提取的信息用于指导业务流程和实现组织目标。

为了完成这一部分,我们还将提供数据挖掘、人工智能、机器学习和深度学习的简单定义,因为这些概念与数据科学及彼此相关。

  • 数据挖掘旨在理解和发现数据中新的、以前未见的知识。

  • 人工智能(AI)关注于让机器变得智能,旨在创建一个像人类一样行为的系统。

  • 机器学习是人工智能的一个子集。机器学习旨在开发能够从历史数据中学习并通过经验改进系统的算法。

  • 深度学习是机器学习(ML)的一个子集,在这个过程中,数据通过多个非线性变换来计算输出。

图 1 人工智能、机器学习、深度学习和数据科学之间的关系。

数据科学利用数据挖掘、机器学习、人工智能技术。

例如,深度学习需要在更强大的环境中运行 Jupyter。幸运的是,像 Saturn Cloud 这样的平台允许用户管理 Jupyter 开发环境。实际上,通过管理环境的资源,用户可以在必要时启用更多的 CPU、GPU 和内存。因此,专为云计算设计的平台允许保持环境成本低廉,使数据科学家只需为所使用的资源付费。

数据科学简史

数据科学彻底改变了我们世界的多个不同方面。让我们来看看数据科学的起源及其发展历程。

  • 在 1962 年,约翰·W·图基在《数据分析的未来》中写道——数据科学历史上的第一个里程碑被全球公认为聪明的美国数学家约翰·图基。约翰·图基在统计学上的影响巨大,但最著名的词汇归功于他的是与计算机科学相关的术语。实际上,他是第一个引入“bit”一词作为“binary digit”缩写的人。

  • 在 1974 年,彼得·瑙尔出版了《计算机方法简明调查》,这本书调查了各种应用领域的数据处理方法。术语“数据科学”变得更加明确,他给出了自己的定义:“处理数据的科学,一旦数据被建立,数据与其代表的内容的关系就委托给其他领域和科学。”

  • 在 1977 年,国际统计计算协会(IASC)成立。

  • 在 1989 年,格雷戈里·皮亚特基-夏皮罗组织并主持了第一次知识发现数据库(KDD)研讨会。

  • 在 1994 年,《商业周刊》发布了一篇关于“数据库营销”的封面故事。

  • 在 1996 年,国际分类学会(IFCS)会议上,第一次将“数据科学”一词纳入会议标题(“数据科学、分类和相关方法”)。同年,乌萨马·法亚德、格雷戈里·皮亚特基-夏皮罗和帕德雷克·史密斯发表了《从数据挖掘到知识发现数据库》。

  • 1997 年,在他担任密歇根大学 H.C.卡佛统计学讲席教授的开幕讲座上,Jeff Wu 呼吁将统计学重新命名为“数据科学”,并将统计学家重新命名为“数据科学家”。

图 2 数据科学的历史。

自 21 世纪初以来,数据储备呈指数级增长,这在很大程度上要归功于高效且经济的处理和存储技术的出现。实时收集、处理、分析和展示数据和信息的能力为我们提供了前所未有的机会进行新的知识发现。为了处理这些海量数据,数据科学家需要高性能和大量的技术组合,以便在几秒钟内加快任务和数据处理速度。

由于有强大的平台可用,数据科学家如今可以利用人工智能、机器学习和深度学习等颠覆性技术。

数据科学实践中的挑战

尽管分析的采用增加了,但也带来了自己的一系列挑战。Kaggle 于 2017 年对 16000 名数据专业人士的样本进行的研究显示了他们职业中面临的 10 大最困难挑战:

  1. 脏数据(36% 报告)

  2. 数据科学人才短缺(30%)

  3. 公司政治(27%)

  4. 缺乏明确的问题(22%)

  5. 数据无法访问(22%)

  6. 结果未被决策者使用(18%)

  7. 向他人解释数据科学(16%)

  8. 隐私问题(14%)

  9. 缺乏领域专业知识(14%)

  10. 组织规模小,无法负担数据科学团队(13%)

这些挑战显得尤为突出。然而,我们需要意识到,每当一个新领域取得进展时,新的挑战也需要得到解决。我们必须拥抱变革,并确信这些变化有助于我们确保持续改进,获取新技能,拓展知识,探索新方法。

谁是数据科学家?

如上所述,随着操作数据的不断增长和新技术的出现,我们越来越需要具有分析敏锐性的专业人才,从海量数据中提取有价值的信息和见解,并做出精准决策。我们将这种类型的专家称为“数据科学团队”或简单称为“数据科学家”。

数据科学家是一个分析数据的专家,应该精通解决现代世界复杂问题所需的技术技能。今天新兴的技术,如人工智能、物联网、5G、机器人技术、区块链等,都严重依赖数据,只有那些能够操作数据并将其转化为有利产品的人,才能引领未来的数字业务。

因此,数据科学家在每个公司和组织的业务发展战略中扮演着至关重要的角色。正如托马斯·H·德文波特和 D.J.帕蒂尔所说,数据科学家是 21 世纪最性感的职业

数据科学工具面向数据科学家

提供了丰富的软件工具支持数据科学家深入探索数据科学领域。如今,现有的平台使数据科学家能够使用他们最熟悉的工具(Python、Jupyter 和 Dask)进行大规模工作。通常,这些服务通过安全且可扩展的基础设施提供,以便在云环境中运行数据科学和机器学习工作负载。数据团队可以在自动化 DevOps 和 ML 基础设施工程下,以大规模在 Python 中开发和部署数据科学模型。

这些平台支持许多有用的 Python 库。

“Python 库是函数和方法的集合,使数据科学家可以执行许多操作而无需编写代码。”

  • NumPy 是一个为 Python 编程语言提供大规模、多维数组和矩阵支持的库。

  • Seaborn 是一个基于 matplotlib 的 Python 数据可视化库。

  • TensorFlow 是一个免费的开源软件库,用于跨多个任务的数据流和可微分编程。

  • PyTorch 是一个基于 Torch 库的开源机器学习库。

  • Numba 是一个开源 JIT 编译器,使用 LLVM 将 Python 和 NumPy 的子集翻译为快速的机器代码。

  • SciPy 是一个免费且开源的 Python 库,用于科学计算和技术计算。

  • Pandas 是一个为 Python 编程语言编写的数据处理和分析的软件库。

  • Scikit-learn 是一个免费的 Python 编程语言机器学习库。

  • Matplotlib 是一个用于 Python 编程语言及其数值数学扩展 NumPy 的绘图库。

  • Bokeh 是一个 Python 数据可视化库,提供高性能的交互式图表和绘图。

图 3 Python 库。

例如,广受认可的数据科学平台 Saturn Cloud 提供了一个全 Python 的端到端分析平台,在 AWS 上运行。包括:

  • Dask 允许组织扩展 Python 并显著减少运行时间。

  • 协作工具、模型部署能力和机器学习生命周期的工具套件。

  • Prefect 提供了一个工作流编排框架,消除了开发者和数据科学家的手动工作。

  • DockerKubernetes 等服务的集成,使数据科学家能够构建自定义镜像,以满足他们最佳的开发期望。

  • Jupyter Notebooks 用于部署、管理和扩展 PyData 堆栈。

我们要去哪里?前景。

正如约翰·图基所预测的:“数据分析的未来可以涉及巨大的进步、克服真正的困难以及为所有科学和技术领域提供巨大服务。” 在过去的几年里,我们见证了许多数据驱动的技术创新,5G 超快的互联网速度、机器学习、云计算和区块链概念,这个显著的清单远非穷尽。数据的爆炸以及技术能力的增长只是一个开始,我们的生活正在随着技术创新变得“更智能”,这些创新很快可能会融入人类生活的各个方面。

原文。已获许可转载。

相关内容:

更多此类话题