Skip to content

Latest commit

 

History

History
129 lines (65 loc) · 9.94 KB

5-must-read-data-science-papers.md

File metadata and controls

129 lines (65 loc) · 9.94 KB

5 篇必读的数据科学论文(以及如何使用它们)

原文:www.kdnuggets.com/2020/10/5-must-read-data-science-papers.html

评论

照片由 Rabie MadaciUnsplash 提供。


我们的前三名课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析水平

3. Google IT 支持专业证书 - 支持你所在组织的 IT


数据科学可能是一个年轻的领域,但这并不意味着你不会面临对某些话题的认知期望。本文涵盖了几项最重要的最新发展和有影响力的思想文章。

这些论文涵盖的主题从 数据科学工作流的协调更快的神经网络突破 再到 重新思考我们用统计学解决问题的基本方法。对于每篇论文,我提供了如何将这些想法应用到你自己工作的建议。

Google Research 团队提供了 关于设置数据科学工作流时要避免的反模式的明确说明。这篇论文借用了软件工程中的技术债务隐喻,并将其应用于数据科学。

通过 DataBricks

正如下一篇论文更详细探讨的那样,构建机器学习产品是软件工程的一个高度专业化的子集,因此从这一学科中汲取的许多经验也适用于数据科学。

如何使用:遵循专家的 实用技巧 来简化开发和生产过程。

#2 — 软件 2.0

Andrej Karpathy 的这篇经典文章阐述了机器学习模型是 基于数据的代码的软件应用程序 这一范式。

如果数据科学是软件,那么我们到底在建设什么?Ben Bengafort 在一篇有影响力的博客文章中探讨了这个问题,标题为 《数据产品的时代》

数据产品代表了机器学习项目的操作化阶段。照片由 Noémi Macavei-Katócz 拍摄,来源于 Unsplash

如何使用:进一步阅读关于数据产品如何融入 模型选择过程的内容。

在这篇论文中,Google Research 团队提出了一种自然语言处理(NLP)模型,这代表了我们在文本分析能力上的一次跃迁。

尽管关于 BERT 为何如此有效有 一些争议,但这提醒我们,机器学习领域可能已经发现了一些成功的方法,而并未完全理解其工作原理。正如自然界中的情况,人工神经网络充满了神秘感。

在这段有趣的片段中,Nordstrom 的数据科学总监解释了人工神经网络如何从自然界中汲取灵感。

如何使用

  • BERT 论文非常易读,并包含了一些建议的默认超参数设置作为宝贵的起点(见附录 A.3)。

  • 无论你是否对 NLP 新手,都可以查看 Jay Alammar 的 《首次使用 BERT 的视觉指南》 来获得对 BERT 能力的生动插图。

  • 另外,查看 ktrain,这是一个基于 Keras(进而基于 TensorFlow)的包,它允许你轻松地在工作中实现 BERT。Arun Maiya 开发了这个强大的库,以加快 NLP、图像识别和基于图的方法的洞察速度。

尽管 NLP 模型越来越大(例如 GPT-3 有 1750 亿参数),但也有一种正交的努力在寻找更小、更快、更高效的神经网络。这些网络承诺更快的运行时间、更低的训练成本和更少的计算资源需求。

在这篇开创性的论文中,机器学习天才 Jonathan Frankle 和 Michael Carbin 概述了一种剪枝方法,以发现能够达到与原始的显著更大神经网络相当性能的稀疏子网络。

通过Nolan Day的“解析彩票票据假设

彩票票据指的是具有初始权重的连接,使得它们特别有效。这个发现提供了许多在存储、运行时间和计算性能上的优势——并且在 ICLR 2019 上获得了最佳论文奖。进一步的研究基于这一技术,证明了其适用性将其应用于原本稀疏的网络

如何使用

  • 在将神经网络投入生产之前,请考虑剪枝。剪枝网络权重可以将参数数量减少 90%以上,同时仍能实现与原始网络相同的性能水平。

  • 此外,查看这个Data Exchange 播客的剧集,Ben Lorica 与Neural Magic的创始人讨论了该初创公司如何利用剪枝和量化等技术,并提供了一个使得实现稀疏性的 UI 更加简单的解决方案。

阅读更多

经典假设检验方法导致过度确定性,并产生通过统计方法已识别原因的错误观念。 (阅读更多)

假设检验早于计算机的使用。鉴于这种方法所面临的挑战(例如,即使是统计学家也发现解释 p 值几乎是不可能的),也许是时候考虑一些替代方案,例如稍微精确的结果测试(SPOT)。

“显著”通过xkcd

如何使用

  • 查看这篇博文,“统计假设检验的终结”,一位沮丧的统计学家阐述了传统方法的一些挑战,并解释了使用置信区间的替代方案。

注册以获取“2020 年最后几个月提升数据科学的资源”发布通知

原文。经许可转载。

简介: 妮可·詹维·比尔斯 是一位拥有商业和联邦咨询经验的机器学习工程师。妮可精通 Python、SQL 和 Tableau,具有自然语言处理(NLP)、云计算、统计测试、定价分析和 ETL 流程的业务经验,旨在利用这些背景将数据与业务成果连接起来,并继续发展技术技能。

相关:

了解更多相关话题