Skip to content

Latest commit

 

History

History
87 lines (44 loc) · 7.66 KB

1748.md

File metadata and controls

87 lines (44 loc) · 7.66 KB

如何构建数据科学管道

原文

由 Balázs Kégl 撰写,数据科学家,RAMP 的共同创建者。

当一个良好运作的预测工作流最终投入生产时,如何运作没有争议。数据源被转化为一组特征或指标 X,描述每个实例(客户、设备、资产)在预测中将会受到的影响。预测器然后将 X 转化为一个可操作的信息 y_pred(客户会流失吗?设备会故障吗?资产价格会上涨吗?)。在某些流动性市场(例如广告定向)中,预测通过完全自动化的过程变现,而在其他情况下,则作为决策支持,涉及人为干预。


我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织的 IT


数据科学管道中的数据流在生产环境中。

这听起来简单,但成功和盈利的预测工作流的例子却很少。公司在构建过程中面临困难。他们需要问的问题是:

  • 谁负责构建这个工作流?我需要覆盖哪些角色和专业知识?

  • 建造过程是什么?每一步需要什么样的专业知识?

  • 在这些步骤中有哪些费用和风险,我该如何控制它们?

对数据挑战的炒作给人一种错误的印象,即数据科学家和预测评分是过程的主要驱动因素。即使是自九十年代以来就存在的工业流程(例如,CRISP-DMDataiku)通常将数据科学家置于中心,将部署放在过程的最后。虽然它们并非完全错误,但大多无关紧要。构建和优化预测器很容易。困难的是找到业务问题和它将改善的 KPI,搜寻并将数据转化为可消化的实例,定义工作流的步骤,将其投入生产,并组织模型维护和定期更新。

公司通常从看似简单的任务开始:要求 IT 部门建立大数据基础设施并构建数据湖。随后,他们会雇佣首批数据科学家。这些专家刚从学校毕业,经过一些 Kaggle 挑战,装备了数据科学工具包,渴望动手处理数据。他们可以预测任何东西,而且他们确实这样做了!他们与业务部门沟通,找到已有标签的合理预测目标,尝试多种模型,进行超参数优化,并选择最佳模型。他们构建 POC 并将报告发送给业务部门,然后重新开始。

构建数据科学工作流的常见方式。

这些 POC 中大多数从未投入生产。 业务部门不知道如何处理它们。他们无法解读分数。预测目标似乎合理,但他们不知道如何利用他们的 y_pred 赚钱。如果他们知道,将 POC 投入生产似乎不可逾越。代码必须重写。实时数据必须纳入工作流。需要满足操作约束。决策支持系统需要与用户现有工作工具集成。需要进行模型维护、用户反馈和回滚。这些操作通常比数据科学家工作中的安全 POC 成本更高、风险更大,而 POC 仅仅无法推动过程。

我在下面描述的过程不会解决这些问题,但它为你提供了一个顺序,使你至少可以处理和控制成本和风险。首先,无论如何找到一位首席数据官(或者说是数据价值架构师),他/她已经将预测工作流投入生产。你的 CDO 不需要了解最新的深度学习架构,但她应该对公司的业务和数据科学过程有广泛的理解。她应该发挥核心作用,推动过程。

早期将 IT 纳入是重要的。你需要数据湖,但更重要的是,你需要数据工程师从第一天起就以生产的角度思考。但这并不是第一步。第一步是弄清楚你是否真的需要预测

所以,从 y 开始,即预测目标。

你的 CDO 应与业务部门密切且长期合作,弄清楚他们想了解什么。是什么* y* 驱动他们的决策?* y* 的更好预测如何改善底线(降低成本、提高利润、提高生产力)?一旦确定了 y,尽量最大化预测误差的货币化。没有什么比一个良好的货币化指标更能让(未来的)数据科学家感到高兴了。他们会知道提高 2% 的分数能为你带来一百万美元;更重要的是, 会知道你可以在数据科学团队上花多少钱

一旦你巩固了 y 和指标,

进行数据探索,

找到你数据湖及其他地方的指标,这些指标可能与预测目标相关。原则上,你仍然不需要数据科学家来完成这项工作,这个过程应该由首席数据官和业务单位推动(毕竟,他们 知道他们在决策中使用了哪些信息,这通常是一个很好的基准)。但是,有一个了解开放和可购买数据的人可能会有所帮助。在这里,你绝对需要与 IT 沟通,以了解在实时收集这些指标时运营成本会是多少。数据科学家需要这些信息。如果在每个客户上存储一个新特征的成本是每天 4TB,那么这个单一事实决定了预测器的样子。

现在 雇佣一个数据科学家,最好是一个能够开发生产质量软件的人。让他

建立实验设置和基线工作流

进行简单的预测,并检查其是否可以投入生产。此时你已经准备好进行全规模的实验数据科学循环,这个循环数据科学家知道如何处理。你可能需要一个深度学习专家,但很可能你可以外包并众包你的第一个模型,例如,通过与我们一起进行一个RAMP

如果你喜欢你所读的内容,可以在 MediumLinkedInTwitter 上关注我。

简介:Balázs Kégl 是 CNRS 的高级研究科学家,并且是巴黎-萨克雷大学数据科学中心的负责人。他是 RAMP 的共同创始人 (www.ramp.studio)。

原文。经许可转载。

相关:

  • 教授数据科学流程

  • 数据科学会消除数据科学吗?

  • 接受随机:随机化边界论文接受的案例

更多相关主题