原文:
www.kdnuggets.com/2020/10/5-must-read-data-science-papers.html
评论
照片由 Rabie Madaci 在 Unsplash 提供。
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析水平
3. Google IT 支持专业证书 - 支持你所在组织的 IT
数据科学可能是一个年轻的领域,但这并不意味着你不会面临对某些话题的认知期望。本文涵盖了几项最重要的最新发展和有影响力的思想文章。
这些论文涵盖的主题从 数据科学工作流的协调 到 更快的神经网络突破 再到 重新思考我们用统计学解决问题的基本方法。对于每篇论文,我提供了如何将这些想法应用到你自己工作的建议。
#1 — 机器学习系统中的隐性技术债务
Google Research 团队提供了 关于设置数据科学工作流时要避免的反模式的明确说明。这篇论文借用了软件工程中的技术债务隐喻,并将其应用于数据科学。
通过 DataBricks。
正如下一篇论文更详细探讨的那样,构建机器学习产品是软件工程的一个高度专业化的子集,因此从这一学科中汲取的许多经验也适用于数据科学。
如何使用:遵循专家的 实用技巧 来简化开发和生产过程。
#2 — 软件 2.0
Andrej Karpathy 的这篇经典文章阐述了机器学习模型是 基于数据的代码的软件应用程序 这一范式。
如果数据科学是软件,那么我们到底在建设什么?Ben Bengafort 在一篇有影响力的博客文章中探讨了这个问题,标题为 《数据产品的时代》。
数据产品代表了机器学习项目的操作化阶段。照片由 Noémi Macavei-Katócz 拍摄,来源于 Unsplash。
如何使用:进一步阅读关于数据产品如何融入 模型选择过程的内容。
在这篇论文中,Google Research 团队提出了一种自然语言处理(NLP)模型,这代表了我们在文本分析能力上的一次跃迁。
尽管关于 BERT 为何如此有效有 一些争议,但这提醒我们,机器学习领域可能已经发现了一些成功的方法,而并未完全理解其工作原理。正如自然界中的情况,人工神经网络充满了神秘感。
在这段有趣的片段中,Nordstrom 的数据科学总监解释了人工神经网络如何从自然界中汲取灵感。
如何使用:
-
BERT 论文非常易读,并包含了一些建议的默认超参数设置作为宝贵的起点(见附录 A.3)。
-
无论你是否对 NLP 新手,都可以查看 Jay Alammar 的 《首次使用 BERT 的视觉指南》 来获得对 BERT 能力的生动插图。
-
另外,查看 ktrain,这是一个基于 Keras(进而基于 TensorFlow)的包,它允许你轻松地在工作中实现 BERT。Arun Maiya 开发了这个强大的库,以加快 NLP、图像识别和基于图的方法的洞察速度。
尽管 NLP 模型越来越大(例如 GPT-3 有 1750 亿参数),但也有一种正交的努力在寻找更小、更快、更高效的神经网络。这些网络承诺更快的运行时间、更低的训练成本和更少的计算资源需求。
在这篇开创性的论文中,机器学习天才 Jonathan Frankle 和 Michael Carbin 概述了一种剪枝方法,以发现能够达到与原始的显著更大神经网络相当性能的稀疏子网络。
彩票票据指的是具有初始权重的连接,使得它们特别有效。这个发现提供了许多在存储、运行时间和计算性能上的优势——并且在 ICLR 2019 上获得了最佳论文奖。进一步的研究基于这一技术,证明了其适用性和将其应用于原本稀疏的网络。
如何使用:
-
在将神经网络投入生产之前,请考虑剪枝。剪枝网络权重可以将参数数量减少 90%以上,同时仍能实现与原始网络相同的性能水平。
-
此外,查看这个Data Exchange 播客的剧集,Ben Lorica 与Neural Magic的创始人讨论了该初创公司如何利用剪枝和量化等技术,并提供了一个使得实现稀疏性的 UI 更加简单的解决方案。
阅读更多:
- 看看这篇有趣的侧边栏来自“彩票票据”作者之一,讨论了机器学习社区在评估好主意时存在的缺陷。
经典假设检验方法导致过度确定性,并产生通过统计方法已识别原因的错误观念。 (阅读更多)
假设检验早于计算机的使用。鉴于这种方法所面临的挑战(例如,即使是统计学家也发现解释 p 值几乎是不可能的),也许是时候考虑一些替代方案,例如稍微精确的结果测试(SPOT)。
“显著”通过xkcd。
如何使用:
- 查看这篇博文,“统计假设检验的终结”,一位沮丧的统计学家阐述了传统方法的一些挑战,并解释了使用置信区间的替代方案。
原文。经许可转载。
简介: 妮可·詹维·比尔斯 是一位拥有商业和联邦咨询经验的机器学习工程师。妮可精通 Python、SQL 和 Tableau,具有自然语言处理(NLP)、云计算、统计测试、定价分析和 ETL 流程的业务经验,旨在利用这些背景将数据与业务成果连接起来,并继续发展技术技能。
相关: