原文:
www.kdnuggets.com/2015/11/hardest-parts-data-science.html
作者:Yanir Seroussi。
与普遍看法相反,数据科学中最困难的部分不是建立一个准确的模型或获取良好、干净的数据。更困难的是定义可行的问题并提出合理的解决方案度量方式。本文讨论了这些问题的一些示例以及如何解决它们。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
在讨论数据科学中最困难的部分之前,值得简要讨论两个主要的竞争者:模型拟合和数据收集/清理。
模型拟合被一些人视为特别困难,或者是真正的数据科学。这种看法部分源于Kaggle的成功,它自称为数据科学的家园。大多数 Kaggle 竞赛都集中在模型拟合上:参与者被提供一个定义明确的问题、一个数据集和一个优化度量,他们竞争以生产最准确的模型。Kaggle 出色的营销与其竞赛设置结合,导致许多人认为数据科学全是关于拟合模型。实际上,建立合理准确的模型并不那么困难,因为许多模型构建阶段可以很容易地自动化。实际上,有很多公司提供模型拟合服务(例如,微软、亚马逊、谷歌和其他公司)。甚至 Kaggle 的首席技术官 Ben Hamner 也表示,他对出现的“云端黑箱机器学习”服务的数量感到“惊讶:模型拟合很简单。问题定义和数据收集则不是。”
数据收集/清理 是每个人都爱恨交织的核心部分。DJ Patil(美国首席数据科学家)被引用为说:“数据科学中最困难的部分是获取好的、干净的数据。清理数据通常占工作量的 80%。”虽然我同意收集数据和清理数据可能需要大量工作,但我不认为这部分特别困难。这绝对重要,可能需要仔细规划,但在许多情况下,这并不是非常具挑战性的。此外,数据通常已经给定,或是使用以前开发的方法进行收集。
问题定义可能困难的原因有很多。 有时是因为利益相关者不知道他们想要什么,并期望数据科学家解决所有数据问题(无论是真实还是想象的)。这种情况可通过以下的 Dilbert 漫画总结。最好的处理方法是巧妙地管理利益相关者的期望,同时引导他们走向更明确定义的问题。