原文:
www.kdnuggets.com/2021/10/avoid-five-behaviors-data-novice.html
评论
由 Tessa Xie,Cruise 高级数据科学家,Medium 撰稿人。
1. Google 网络安全证书 - 快速进入网络安全职业的快车道。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你所在组织的 IT
照片由 Isaiah Rustad 提供,来自 Unsplash。
随着每天收集的数据越来越多,几乎每家公司都以做出数据驱动的决策为荣,数据已经触手可及。数据科学正变得越来越热门。你之所以阅读这篇文章,可能是因为你对数据充满热情,想在这个领域获得专业知识。如今有许多训练营和在线课程,每个人在几个月甚至几周内都可以感到 像 一个数据专家;但要成为真正有用、受欢迎且可信的“数据伙伴”,不仅仅是对 SQL 和 Python 以及基本统计知识的熟悉。
新手和真正懂得如何处理数据并成为有用数据伙伴的人之间存在明显差异。我观察到一些人表现出的行为无异于在空中挥舞双手并大喊:“我对这完全陌生,我不知道自己在做什么……”我自己在刚开始做数据科学家时也做过大部分这些事情。这些行为会迅速降低你作为数据伙伴的信誉,让人怀疑你对主题的理解。所以,希望我能提供一些避免做这些事的建议,以及应该做些什么,以免你成为那种数据新手。
“我们已经推断出 X 和 Y 之间有正相关……基于 30 个数据点,我们相信这是因为……”每当我听到类似上述的陈述时,我都会略感不安。在趋势分析和生成洞察时,样本量始终是首要考虑的因素。除非是一个具有代表性的客户群体的焦点小组(我甚至对焦点小组的调查结果存有疑虑,但那是另一个话题),否则 30 个数据点通常不会给你任何可靠的洞察。
有没有比从极小的数据集中推测“趋势”更尴尬的事情?有的,就是为这些“趋势”出现的原因提出理论。我见过人们提出各种荒谬的理论来解释为什么来自微小数据集的结果是“违反直觉”的;当真正的解释很简单……那就是噪声时,他们会失去可信度以及大部分听众。
试试这个: 与其在样本量小的时候急于进行趋势分析,不如专注于建立结构,以便未来能收集到更多高质量的数据,从而进行这些分析。如果你真的希望从小样本中获得一些洞察,请注明样本量的不足,并在报告的指标中添加置信区间。
没有完美的数据集;任何告诉你其他情况的人要么在撒谎,要么是无知。因此,作为数据专家,你应该比仅凭数据质量表面现象更了解。你查询和分析的每一份数据都需要经过质量检查——确保表格实际去重,检查时间戳是否在你认为的时区等等。在使用数据之前不进行质量检查可能会导致意外结果和误导性的洞察,并使人们对你处理复杂数据的能力产生怀疑。
试试这个: 制定一个质量检查框架(即你执行的测试列表),每次处理新数据集时都要遵循。例如,检查(意外的)重复项;如果你预计数据集中每个订单只有一行,写一个快速查询按订单 ID 分组并统计行数——你会惊讶于有多少“订单级”表在某些订单 ID 下有 1,000 条记录。始终,始终,始终检查你的工作,并与利益相关者和主题专家双重检查。
我仍然记得当我学到像随机森林或 XGBoost 这样的复杂模型后的兴奋;当你有了锤子,尤其是一个闪亮的酷锤子时,所有东西都像钉子。但实际上,除非你是机器学习工程师,否则你在日常数据工作中很少需要 10 层神经网络。使用复杂的机器学习模型,而简单的线性回归足矣,不仅效率低下,还适得其反。正如我在关于data science lessons I learned from working at McKinsey的文章中提到的,作为行业中的数据科学家,产生商业影响是首要目标,而不是炫耀你掌握了多少机器学习知识。
过度工程化模型和分析是一种让自己成为人们不愿意合作的、效果不佳的数据合作伙伴的可靠方法。
**试试这个方法:**从简单开始,只有在确实必要时才使用更复杂的方法。对你在分析中使用的方法要做出非常明确的决策,并应用 80/20 原则,以避免那些带来边际效益的、不必要的努力。
这种情况在刚进入数据领域的人中很常见。类似于因为对新建模技能的兴奋而倾向于过度工程化,很多新的数据从业者喜欢在可能的情况下使用他们学到的所有新概念和新词汇。在沟通时,我们往往用复杂性来弥补对事物的理解不足——一个人谈论机器学习和分析时使用的流行词汇越多,通常他/她的分析知识就越少。一个经验丰富的数据从业者应该能够用简单的英语解释方法论和分析细节;如果某人的数据工作解释难以理解,就像阅读维基百科页面一样,很可能是因为他们也是刚从维基百科上读到的。
**试试这个方法:**当学习一个新的分析概念时,真正努力理解到你能够用简单的英语轻松地向不懂数据科学的朋友解释它。这样的理解水平也将帮助你决定何时应用复杂的高级方法,何时使用传统的线性回归。
我偶尔遇到一些新的数据从业者,他们不仅仅遭受上述症状 3 和 4 的困扰,还过度热衷于在工作中创建没人欣赏的“数据宠物项目”。别误会,我认为所有的数据热情都应该受到鼓励,宠物项目对技能发展有帮助……只是在你的日常工作中,商业对你使用数据产品来推动影响有很高的期望。
数据产品(例如,仪表盘)就像任何其他产品一样,其设计的首要规则应该是以用户为中心。它们应该基于需求而生……而不是仅仅基于激情。
**试试这个方法:**在构建任何数据产品之前,与利益相关者沟通。了解当前阶段业务的需求:如果是初创公司,我敢打赌你的利益相关者不会过于关心你构建的数据可视化的格式和颜色,而是更关注可视化背后的数据准确性及其洞察。同样,真正了解受众和使用场景;例如,如果数据产品是打算由非技术受众定期使用的,你可能会花更多时间在打磨和简化用户界面上。
发展你自己的副项目,也许有一天会派上用场;只要不让它们妨碍你成为一个高效且受欢迎的数据合作伙伴。
-
不要把事情搞得过于复杂或过度工程化;这不会让你显得聪明,反而会让你看起来不知道做事的最有效方式。
-
确保对数据进行质量检查并审查你的见解,并在数据质量或样本大小存在疑虑时总是要说明发现结果的局限性。
-
在创建数据产品时要考虑利益相关者的需求。
原文。经授权转载。
简介:Tessa Xie 是一名从事 AV 行业的数据科学家,曾在麦肯锡工作,且是三次顶级中等作家。Tessa 白天是数据领域的先锋,晚上是作家,周末则是画家、潜水员,还有更多身份。
相关: