原文:
www.kdnuggets.com/2021/11/anecdotes-11-role-models-machine-learning.html
评论
作者:Robert Munro,《人机互动机器学习》作者
我最近写了这本我希望在接触机器学习时能存在的书:《人机互动机器学习:主动学习与人本 AI 的标注》。大多数机器学习模型都依赖于人类标注的数据,但大多数机器学习书籍和课程却集中在算法上。你通常可以通过好的数据和简单的算法获得最先进的结果,但用糟糕的数据再好的算法也难以取得最先进的结果。所以,如果你需要首先深入某一领域,可以说数据方面更为重要。
1. 谷歌网络安全证书 - 快速进入网络安全职业的快车道。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
除了书籍的技术重点外,它还包括了 11 位机器学习专家的轶事。每位专家分享了他们在构建和评估机器学习模型时遇到的数据相关问题的轶事。他们的故事告诉我们机器学习领导力的更广泛重要性,每个轶事都与成功的数据科学项目的运行有关。
《人机互动机器学习》中介绍了 11 位机器学习专家。(所有图片均经过每位专家的许可使用,且下文重复展示他们的个人轶事)
这些专家的选择标准有两个:他们都创办了成功的机器学习公司,并且他们都直接从事机器学习的数据方面工作。他们都是那些考虑从事机器学习职业的人的优秀榜样:Ayanna Howard、Daniela Braga、Elena Grewal、Ines Montani、Jennifer Prendki、Jia Li、Kieran Snyder、Lisa Braden-Harder、Matthew Honnibal、Peter Skomoroch、和Radha Basu。如果你刚开始你的职业生涯,并且在为你的模型创建良好的数据方面遇到困难,我希望你能与书中许多的轶事产生共鸣,这些轶事在这里分享:
“父母是完美的主题专家”
关于人的模型通常对未在数据中表示的群体不够准确。有许多人口统计学偏见可能导致某些人群被低估,比如能力、年龄、种族和性别。而且常常还存在交叉偏见:如果人们在多个人口统计学方面被低估,那么这些人口统计学的交集有时会超出各部分之和。即使你确实拥有数据,找到具有正确经验的标注者来准确标注数据可能也很困难。
在为有特殊需求的儿童构建机器人时,我发现检测儿童情感、检测来自低估种族的人群的情感以及检测自闭症谱系上人群的情感的数据都不够充分。缺乏沉浸式经验的人往往很难识别这些儿童的情感,这限制了谁可以提供训练数据来判断孩子是否真正感到快乐或不安。即便是一些受过训练的儿童医生在处理能力、年龄和/或种族的交叉性时,也难以准确标注数据。幸运的是,我们发现孩子的父母是判断他们情感的最佳人选,因此我们为父母创建了界面,以便他们快速接受/拒绝模型对孩子情绪的预测。这使我们能够尽可能多地获取训练数据,同时最小化父母提供反馈所需的时间和技术专长。这些孩子的父母最终成为了调整我们系统以满足他们孩子需求的完美主题专家。
简介: Ayanna Howard 是俄亥俄州立大学工程学院的院长。她曾是乔治亚理工学院互动计算学院的主任;共同创立了 Zyrobotics,该公司为有特殊需求的儿童制造治疗和教育产品;曾在 NASA 工作;并获得南加州大学的博士学位。
“关于语言来源的自白”
在我们公司,我们以付出额外努力确保获取最佳数据而自豪,这有时会导致一些滑稽的情况。对于文本和语音数据来说,最难的问题往往是找到流利的说话者。找到具备正确资格并且说对语言的人,是机器学习中最困难且被忽视的问题之一。
最近,我们为一位有特定语言要求的客户进行了一项重大项目收集。在几次错失找到合适稀有语言的人的尝试后,我们的一位员工去了一个教堂,他知道那里会有符合要求的人。虽然他找到了客户所需的人,但不巧的是他正好赶上忏悔时间。神父以为他是来忏悔的,因此,按照惯例,他做了完整的忏悔,包括关于语言来源的内容。
简介: Daniela Braga 是 DefinedCrowd 的创始人兼首席执行官,该公司为机器学习创建训练数据,包括 60 多种语言的文本和语音数据。
“合成控制:在没有评估数据的情况下评估你的模型”
如果你在部署一个无法进行 A/B 测试的应用程序时,如何衡量模型的成功?合成控制方法是一种可以使用的技术:你找到现有数据中最接近你部署模型的特征的数据,并将这些数据作为对照组。
我第一次了解合成对照是在学习教育政策分析时。当一所学校尝试一些新的方法来改善学生的学习环境时,他们不能仅仅期望改善一半学生的生活,以便另一半可以作为统计对照组。相反,教育研究人员可能会创建一个“合成对照组”,这些学校在学生人口统计和表现方面最为相似。我采用了这种策略,并在我领导数据科学团队的 Airbnb 应用。比如,当 Airbnb 在新城市/市场推出产品或政策变化时,无法进行实验时,我们会创建一个最相似城市/市场的合成对照组。然后,我们可以测量我们的模型与合成对照组在参与度、收入、用户评分和搜索相关性等指标上的影响。合成对照使我们能够在没有评估数据的情况下采取数据驱动的方法来衡量模型的影响。
个人简介: Elena Grewal 是 Data 2 the People 的创始人兼首席执行官,这是一家利用数据科学支持旨在对世界产生积极影响的政治候选人的咨询公司。Elena 曾领导 Airbnb 的 200 多人数据科学团队,并拥有斯坦福大学的教育学博士学位。
“优秀的界面带来的是质量,而不仅仅是数量”
当我与人们讨论关于注释的可用接口时,反应常常是“为什么要费心?注释收集并不昂贵,即使你的工具快两倍,这也不太有价值。”这种观点是有问题的。首先,许多项目需要来自如律师、医生或工程师等主题专家的支持,他们将负责大量的注释工作。更根本的是,即使你没有付给他们很多钱,你仍然关心他们的工作,如果你让他们陷入困境,他们也无法提供优质的工作。糟糕的注释过程往往迫使工人在示例、注释方案和界面之间切换,这需要积极的集中注意力,并且很快让人感到疲惫。
在我开始从事人工智能工作之前,我曾从事过网页编程,因此注释和可视化工具是我开始考虑的第一个人工智能软件。我尤其受到了游戏中“隐形”界面的启发,它们让你思考该做什么,而不是如何做。但这不是为了将任务“游戏化”以使其“有趣”,而是为了使界面尽可能无缝和沉浸,以便给他们最好的机会来做好任务。这将创造更好的数据,并对创建数据的人更尊重。
个人简介: Ines Montani 是 Explosion 的联合创始人。她是 spaCy 的核心开发者,也是 Prodigy 的首席开发者。
“不是所有数据都是平等的”
如果你关心你的营养,你不会去超市随意挑选货架上的物品。你可能会通过随机挑选超市货架上的物品最终获得所需的营养,但在这个过程中你会吃很多垃圾食品。我认为在机器学习中,人们仍然认为“随机从超市取样”比弄清楚需要什么并集中精力去做要更好,这很奇怪。
我建立的第一个主动学习系统是出于必要。我在构建机器学习系统,以帮助一家大型零售商确保当有人在网站上搜索时,能够出现正确的产品组合。几乎一夜之间,公司重组意味着我的人工标注预算削减了一半,我们必须标注的库存增加了 10 倍。因此,我的标注团队每个项目的预算只有之前的 5%。
我创建了第一个主动学习框架,以发现最重要的 5%。结果比有更大预算的随机抽样更好。从那时起,我在大多数项目中使用了主动学习,因为并非所有数据都是平等的!
*简介:*Jennifer Prendki 是 Alectio 的首席执行官,负责为机器学习寻找合适的数据。她之前在 Atlassian、Figure Eight 和 Walmart 等公司领导数据科学团队。
“学术界与现实世界数据标注之间的区别”
在现实世界中部署机器学习比进行学术研究要困难得多,主要的区别在于数据。现实世界的数据是混乱的,通常由于机构障碍而难以访问。对干净且不变的数据集进行研究是可以的,但当你将这些模型带入现实世界时,很难预测它们的表现。
当我在帮助构建 ImageNet 时,我们不必担心可能在现实世界中遇到的每一种图像类别。我们可以将数据限制为 WordNet 层级概念的一个子集。在现实世界中,我们没有这种奢侈。例如,我们无法收集大量与罕见疾病相关的医学图像。对这些图像的标注还需要领域专长,这带来了更多挑战。现实世界的系统需要 AI 技术人员和领域专家密切合作,以激发研究,提供数据和分析,并开发算法来解决问题。
*简介:*Jia Li 曾是 Dawnlight 的首席执行官和联合创始人,该公司使用机器学习进行医疗保健。她曾在 Google、Snap 和 Yahoo! 领导研究部门,并获得斯坦福大学博士学位。
“你的早期数据决策仍然很重要”
你在机器学习项目早期所做的决策可能会影响你所构建的产品多年。这对于数据决策尤其如此:你的特征编码策略、标注本体论和源数据将产生长期影响。
在我从研究生院毕业后的第一份工作中,我负责构建使微软软件能够在全球几十种不同语言中工作的基础设施。这包括做出基本决策,比如决定一种语言字符的字母顺序,当时许多语言没有这种顺序。当 2004 年海啸摧毁印度洋周边的国家时,对于斯里兰卡的僧伽罗语使用者来说,这是一个直接的问题:因为僧伽罗语还没有标准化编码,所以没有简单的方法来支持寻找失踪人员。我们对僧伽罗语支持的时间线从几个月缩短到几天,以便我们可以帮助失踪人员服务,与母语者合作尽快建立解决方案。我们当时决定的编码被 Unicode 采纳为僧伽罗语的官方编码,现在将永远编码这种语言。你不会总是处理如此关键的时间线,但你应该从一开始就考虑你的产品决策的长期影响。
*个人简介:*基兰是 Textio 的首席执行官兼联合创始人,Textio 是一个广泛使用的增强写作平台。基兰曾在微软和亚马逊担任产品领导职务,并拥有宾夕法尼亚大学的语言学博士学位。
“注释偏差不是开玩笑的”
数据科学家通常低估了收集高质量、高度主观数据所需的努力。当你尝试对数据进行标注而没有可靠的真实数据时,人类对相关任务的同意并不容易,而吸引人工标注者的成功则依赖于明确的目标、指南和质量控制措施。这在跨语言和文化工作时尤为重要。
我曾经接到一个美国个人助理公司扩展到韩国的请求,要求提供韩语的“敲门笑话”。向产品经理解释为什么这行不通以及为他们的应用程序找到文化适当的内容不是一段快速的对话:这揭示了很多假设知识。即使是在韩国语使用者中,制作和评估笑话的标注者也需要来自与目标客户相同的人群。这是为什么减轻偏差的策略将触及数据管道的每个部分的一个例子,从指南到目标最合适标注队伍的补偿策略:注释偏差不是开玩笑的!
简介:丽莎·布雷登-哈德是圣克拉拉大学全球社会福利研究所的导师。她曾是巴特勒希尔集团的创始人兼首席执行官,该公司是最大的和最成功的注释公司之一;在此之前,她曾在 IBM 担任程序员,并在普渡大学和纽约大学完成了计算机科学学位。
“考虑注释项目的总成本”
直接与注释数据的人沟通很有帮助,就像你组织中的其他人一样。不可避免地,你的一些指示在实践中不起作用,你需要与注释员紧密合作以完善这些指示。你也可能会在生产后继续完善指示和添加注释。如果你不花时间考虑完善指示和丢弃错误标记的项目,那么很容易陷入一个看似便宜但实际却很昂贵的外包解决方案。
2009 年,我参与了悉尼大学和一家主要澳大利亚新闻出版商之间的联合项目,该项目需要命名实体识别、命名实体链接和事件链接。虽然当时学术界越来越多地使用众包工人,但我们却组建了一个小型注释团队,并直接与他们签订合同。最终,这在长期内成本更低,特别是对于更复杂的“实体链接”和“事件链接”任务,众包工人在这些任务上挣扎,而我们的注释员通过直接与我们合作和沟通得到了帮助。
简介:马修·霍尼巴尔是 spaCy NLP 库的创始人之一和 Explosion 的联合创始人。他自 2005 年以来一直从事 NLP 研究。
“阳光是最好的消毒剂”
你需要深入查看真实数据以准确知道构建什么模型。除了高级图表和汇总统计外,我建议数据科学家定期查看大量随机选择的细粒度数据,让这些示例“洗净你的眼睛”。就像高管每周查看公司级图表,网络工程师查看系统日志中的统计信息一样,数据科学家也应该对他们的数据及其变化有直观的了解。
当我在构建 LinkedIn 的技能推荐功能时,我创建了一个简单的网页界面,其中有一个“随机”按钮,可以显示单个推荐示例以及相应的模型输入,以便我能够快速查看数据,并对哪些算法和注释策略可能最成功有一个直观的了解。这是确保你发现潜在问题并获得高质量输入数据的最佳方式:你在照亮你的数据,而阳光是最好的消毒剂。
简介:Peter Skomoroch 是 SkipFlag(被 WorkDay 收购)的前首席执行官,并在 LinkedIn 担任首席数据科学家,参与了发明“数据科学家”这一职称的团队。
“人类洞察与可扩展的机器学习等于生产人工智能”
人工智能的结果在很大程度上依赖于输入训练数据的质量。像魔法棒一样的小型用户界面改进可以在与明确的质量控制流程相结合时,在数百万个数据点上产生巨大的效率提升。高级劳动力是关键因素:培训和专业化提高了质量,专家劳动力的洞察可以与领域专家共同指导模型设计。最好的模型是机器智能与人类智能之间建设性和持续的合作关系的产物。
我们最近承担了一个项目,需要对机器人冠状动脉旁路移植术(CABG)视频中的各种解剖结构进行像素级注释。我们的注释团队不是解剖学或生理学专家,因此我们实施了临床知识教学课程,以增强现有的 3D 空间推理和精确注释核心技能,由一位受过训练的外科医生主导。对我们的客户来说,结果是成功的训练和评估数据。对我们来说,结果是看到来自资源不足背景的人们就人工智能的一些最先进应用进行热烈讨论,他们迅速成为医学图像分析中最重要步骤之一的专家。
*简介:*Radha Basu 是 iMerit 的创始人兼首席执行官。iMerit 利用技术和由 50% 女性及来自欠发达社区的年轻人组成的人工智能团队,为全球客户培养高级技术人员。Radha 曾在惠普工作,担任首席执行官时将 SupportSoft 推向公众市场,并在圣克拉拉大学创办了“节俭创新实验室”。
创造优质数据需要比创造优质算法更广泛的技能组合。创建优质训练数据所需的许多技能也是良好的领导力技能,这些技能由我书中介绍的专家们所体现:
Radha 是硅谷任何行业中最成功的领导者之一,已经将一家公司上市,并现在是一个雇佣成千上万人的盈利性人工智能公司的创始人兼首席执行官。我特别喜欢她的轶事,展示了外包注释员可以成为领域专家,因其工作而在职业潜力上有所成长。
Peter 鼓励数据科学家始终关注数据,这表明即使是公司的领导者也需要了解你所处理的数据。
马修的轶事突出了仅仅注释数据并不是创建优质数据的唯一成本,这一点常常被那些仅使用匿名众包工人的人忽视,这在学术界很常见但在工业界则很少见。
莉莎强调了查看数据的重要性,但在没有正确的文化背景来理解数据的情况下,完全理解数据是不可能的。这突显了优秀领导力意味着引入比自己更有知识的人来完成任务。
基伦的轶事是另一个很好的例子,展示了理解数据创建者的文化背景的重要性,在这种情况下,了解某种特定语言是支持时间紧迫的灾难响应工作所必需的。
贾的轶事关于学术数据和现实世界数据的差异,强调了大多数人在学术机器学习项目中学习的狭窄技能集通常不适用于现实世界情况。
珍妮弗还突出了许多现实世界情境的实际问题:你有有限的时间和预算,那么当你仍需推出一个人们会使用的产品时,如何选择合适的数据?
伊内斯在职业生涯初期关注网络界面的良好用户体验,强调了良好的界面设计对良好数据注释工具的重要性,无论是谁在注释数据。
埃琳娜突出了现实世界模型的另一个实际问题:当你甚至无法进行 A/B 测试,更不用说使用留出评估数据时,如何评估模型变化的成功?
达尼埃拉的故事讲述了与一个社区在他们自己的条件下提供语言数据,并带来了一些轻松的氛围,提醒我们不要太过于严肃。
艾安娜给出了我最喜欢的例子,说明了决定谁能标注数据的重要性:特殊需求儿童的父母/监护人可能是唯一准确且伦理的注释者,能够理解并编码该儿童的情感。
即使在学术界,尽管重点是算法,研究人员也理解数据的重要性。克里斯托弗·D·曼宁,斯坦福人工智能实验室的主任,在书的前言中分享了这一点:
“在工业界,机器学习从业者的一个公开秘密是,获得具有正确注释的数据比采用更先进的机器学习算法要有价值得多。”
我认识的许多其他人也符合专家的标准——那些在职业生涯中专注于机器学习数据方面的公司创始人——但由于书籍的时间安排和章节限制,只能包含有限数量的专家。如果有更多时间,额外的榜样可能包括Alyona Medelyan、Aman Naimat、Fang Cheng、Hilary Mason、Ivan Lee、John Akred、Mark Sears、和Monica Rogati。还有其他十几位也很值得一提,包括一些虽然未符合我在书中使用的标准,但仍然是榜样的人。感谢Emmanuel Ameisen为我提供了邀请并在我的书中展示专家的灵感。我在他为他的书Building Machine Learning Powered Applications这样做后得到了这个想法。
对于新接触机器学习的人来说,确定可用的职业路径可能很困难。就像大多数课程专注于算法一样,大多数机器学习领袖的名单也专注于算法研究人员。本文中专家背景的多样性表明,机器学习领导力有许多可能的职业路径,包括教育、语言学、用户界面开发、物理学以及计算机科学以外的许多其他领域。因此,如果你在机器学习的数据方面工作且没有计算机科学背景,你不必感到自己是局外人。解决机器学习中的数据相关问题是成功职业生涯的必要条件,也是通往领导地位的常见路径。
我在这里分享所有这些故事,以便你不必购买书籍就能从这些专家的轶事中获益。如果你购买了书籍,我会将所有作者所得捐赠给改善数据集的倡议,特别是低资源语言和健康灾难响应方面,因此你将为善举做出贡献。虽然这不是选择标准的一部分,但所有专家都在应用中产生了明显的积极影响,因此在我的书中给予这 11 位优秀领导力榜样更多的认可是令人高兴的!
简介:罗伯特·门罗 (@WWRob)在斯坦福大学攻读博士学位之前曾在西非的难民营为联合国工作,他的研究集中于健康和灾害响应中的机器学习。他曾帮助应对近期在西非爆发的埃博拉疫情,10 年前的中东呼吸综合症冠状病毒疫情,并担任过全球流行病追踪组织的首席技术官。罗伯特还管理过 AWS 的第一个自然语言处理服务——Amazon Comprehend,并曾在许多硅谷科技公司担任领导职务。
原始内容。经许可转载。
相关内容:
-
5 个使数据科学家与其他职业区别开来的因素
-
数据科学家如何帮助应对 COVID-19 的 5 种方式及避免的 5 项行动
-
不要浪费时间建立数据科学网络