Skip to content

Latest commit

 

History

History
193 lines (97 loc) · 18.1 KB

are-physicians-worried-about-computers-machine-learning-their-jobs.md

File metadata and controls

193 lines (97 loc) · 18.1 KB

医生们是否担心计算机机器学习会抢走他们的工作?

原文:www.kdnuggets.com/2017/08/are-physicians-worried-about-computers-machine-learning-their-jobs.html

c评论

Pradeep Raamana,Cross Invalidated.

《美国医学会杂志》(JAMA) 发布了一篇题为“机器学习在医学中的意外后果”的观点文章 [Cabitza2017JAMA]。标题引人注目,内容也很有趣,涉及了许多在机器学习(ML)与决策支持系统(DSS)交叉领域工作的人的重要关注点。这个观点时机恰当,正值其他人也在对机器学习的夸大期望及其根本局限性 [Chen2017NEJM]表达担忧之时。然而,文章中提出的几个令人担忧的观点在我看来并没有得到支持。在这次快速评述中,我希望能说服你们,关于机器学习导致的意外后果的报道被极大地夸大了。

TL;DR:

问:过去是否有由于机器学习决策支持系统造成的意外后果?答: 是的。*

问:这些问题都与机器学习及其模型的局限性有关吗?答: 不相关。*

问:问题的根源在哪里?答: 是设计和验证决策支持系统中的失败。*

问:那这个引人注目的标题是关于什么的?答: 一种不必要的警报。

问:但它是否提出了相关的问题?答: 是的,但没有解决这些问题。

问:我需要阅读原文吗?答: 是的。这次讨论很重要。

评论

这个观点及时地提出了几个关注点,包括医疗数据的不确定性、整合上下文信息的困难和可能的负面后果。尽管我同意这些都是需要解决的重要问题,但我不认同他们暗示(无论是否有意)机器学习在医学中的应用导致这些问题的说法。像过度依赖技能退化黑箱模型这些关键词过于泛化了机器学习模型的局限性,无论他们是否有意这么做。根据我对观点的理解,提出的担忧大多源于临床工作流管理及其失败,而不是机器学习本身。需要强调的是,机器学习只是临床决策支持系统的一部分 [Pusic2004BCMJ,见下文]。

图片来源:Martin Pusic,医学博士,J. Mark Ansermino,FFA,医学硕士,硕士,FRCPC。临床决策支持系统。BCMJ,第 46 卷,第 5 期,2004 年 6 月,第 236-239 页。

此外,该观点完全跳过了讨论机器学习决策支持系统的有效性和优势,以便将其局限性置于适当的背景下。你知道医疗保健中人为和医疗错误的年成本是*超过 170 亿美元,以及超过250,000 名美国死亡*[Donaldson2000NAP,Andel2012JHCF]吗?

我建议你阅读原始观点[Cabitza2017JAMA],并阅读我下面的回应,以获得更好的视角。我不同意观点中的一些观点,主要是因为它们要么被夸大了,要么没有充分的支持,或者不必要地将责任归咎于机器学习。我在下面引用了一些观点中的陈述(按其文章的章节组织;强调是我的)并提供了逐点的反驳

技能下降

  • 观点定义了技能下降为以下内容*:“当任务的某些或全部组成部分部分自动化时,完成任务所需技能水平的降低,这可能会在技术失败或崩溃时导致性能严重中断或低效”*。

    • 提出的技能下降点类似于我们在头脑中或手工乘法能力的一般下降,因为计算器和电脑已经变得司空见惯。暗示我们会因为“过度依赖”计算器和电脑而失去乘法能力是不必要的令人担忧的。相比于计算器出现之前的时代,我们现在可能乘法速度较慢,或者忘记了一些加速技巧,但我怀疑我们会完全忘记如何乘法。以汽车或机动车为例,尽管自动化交通已经变得普遍,但我们从未失去行走或奔跑的能力。

    • 支持这一观点的研究引用了[Hoff2011HCMR],该研究基于对 78 名美国初级保健医生的访谈。一项调查! 基于初级保健医生的观点和经验,而非大规模正式研究中的效果客观测量。最近的*调查和民意调查让我们现在面临核战争的边缘*!

    • 他们在[Hoff2011HCMR]中研究的两个方面是电子病历和电子临床指南。它们甚至不是基于机器学习的。

    • 支持研究的结论是“初级保健医生感知并体验到技能下降是使用特定医疗创新的具体结果。然而,这种技能下降在某种程度上是医生自身行为以及周围工作环境的压力的结果。”也许我错过了什么,但这并不意味着机器学习或决策支持系统是技能下降的原因。

    • 有夸大的风险,这种去技能化的论点在我看来就像是一些医生担心“机器人”会抢走他们的工作!

  • 支持去技能化观点的另一个例子是:“例如,在对 50 名乳腺 X 光读片员的研究中,当更具区分性的读片员面对计算机辅助检测标记的挑战性图像时,诊断敏感性下降了 14%”

    • 这是对引用的研究[Hoff2011HCMR]结果的选择性展示。该研究还指出“我们发现计算机提示与较低区分度读者在比较容易的病例中(主要是筛查检测到的癌症)的敏感性改善之间存在正相关。这是正确的计算机提示的预期效果。”。这必须被注意,无论增加幅度多小。有关更多细节,请查看帖子底部。

医疗数据中的不确定性

  • 在试图展示 ML-DSS 受到观察者变异性以及医疗数据中固有不确定性的负面影响时,观点说:

    “观察到在鉴定和计数荧光染色的循环肿瘤细胞时的观察者间变异性会削弱支持此分类任务的 ML-DSS 的性能”

    • 引用的研究[Svensson2015JIR]明确指出“随机森林分类器对训练数据的不确定性表现出较强的韧性,而支持向量机的性能则高度依赖于训练数据中的不确定性”。这并不支持上述陈述,也并不意味着*所有机器学习模型(因此包括 ML-DSS)*都受到输入数据中不确定性的严重影响。

    • 我同意作者关于医疗数据中存在偏差、不确定性和变异性的观点,这些都是需要考虑的重要因素。随着可穿戴技术和患者监测的出现,导致了大量高质量患者数据的无干扰收集,我认为医疗保健的未来看起来很光明[Hiremath2014Mobihealth]。

上下文的重要性

在试图展示 ML-DSS 因未使用一些明确规则而出现的一些错误时,观点作出如下陈述:

  • “然而,机器学习模型并不对其提供的数据应用明确规则,而是识别数据中的微妙模式。”

    • 虽然大多数机器学习模型最初是为了学习数据中的现有模式而设计的,但它们当然可以自动学习规则 [Kavsek2006AAI]。*此外,在机器学习中,学习数据模式和应用明确规则并不是互斥的任务。并且,可以将基于知识的明确规则编码到诸如决策树的机器学习模型中。

    • 如果 ML 模型训练不完全(没有提供足够的样本来涵盖已知条件,也没有提供足够的条件变异来反映现实世界的场景),或验证不足(纳入了已知且验证过的事实,例如哮喘不是肺炎的保护因素,这在另一个例子中也有所说明),算法不能因为推荐它们所训练的内容而受到责备(在特定的数据集中观察到,哮喘患者的肺炎风险较低)。

  • “这些上下文信息无法包含在 ML-DSS 中”

    • 这完全是错误的。冒着泛化的风险,我可以说几乎所有类型的信息都可以包含在 ML 模型中。如果你能写下来或大声说出来,那些信息就可以以数字形式表示并纳入 ML 模型中。 是否将特定的上下文信息包含在 ML-DSS 中以及为什么是另一个讨论,而不将上下文信息纳入 ML-DSS 中并不是 ML 模型的错。

结论

  • 观点总结道:“使用 ML-DSS 可能在当代医学中造成问题并导致误用。”

  • 这真是太搞笑了,完全是懒惰的论点。这听起来像“汽车的使用可能在现代交通中造成问题并导致误用”。人们确实滥用汽车做坏事了吗?当然。那是否阻止了机动车辆彻底改变人类的流动性?没有。多亏了 ML 和 AI,我们几乎已经站在了自动驾驶汽车的门槛上,努力减少人类的压力和事故!

那么 ML-DSS 中的弱点在哪里?

对于设计临床 DSS 挑战的一般概述,请参阅 [Sittig2008JBI,Bright2012AIM]。观点引用了一篇题为“医疗保健信息技术的一些意外后果”的论文 [Ash2004JAMIA],该论文指出:“这些错误的许多原因是患者护理信息系统(PCIS)设计和/或实施中的高度特定失败。” 这正是应当归咎于的地方。支持论文进一步指出:“这些错误分为两大类:一类是信息录入和检索过程中的错误,另一类是 PCIS 应该支持的通信和协调过程中的错误。作者认为,通过对这些问题的高度关注,信息学专家可以在教育、设计系统、实施和进行研究时,避免这些微妙的无声错误的意外后果。” 这些识别出的问题与 ML 部分本身无关,而实际上与数据录入、访问和通信有关!因此,将所有责任归咎于机器学习是不公平的,正如当前标题所暗示的那样。

你会怎么做?

根据观点所要表达的主要观点(我理解是垃圾进垃圾出),这篇文章的更好标题可能是以下之一:

  • “上下文和临床信息必须成为机器学习决策支持系统设计、训练和验证的一部分”。

  • “临床决策支持系统验证不足可能会带来意想不到的后果”

  • 或者如果作者确实希望突出意想不到的部分,他们可以选择*“由于决策支持系统验证不足导致的意外后果”*

鉴于讨论的问题广泛以及 JAMA 出版物的广泛影响(几天内超过 5 万次浏览,Altmetric 评分超过 570),我们需要注意不要夸大当前证据无法支持的担忧。影响力大,责任更大。

再次强调,观点提出的问题很重要,我们必须讨论、评估和解决这些问题。我们确实需要更多对 ML-DSS 的验证,但夸大的担忧以及将过去的失败特别归咎于 ML 是不充分的。我理解作者在撰写 JAMA 观点文章时的限制(篇幅很短:1200 字,参考文献较少等)。因此,我建议他们发表更长的文章(互联网上有多种选择),并建立更有力的案例。我期待阅读这篇文章并学习更多。

关于机器人是否会在不久的将来取代医生?似乎不太可能,几率小于 0.5%。

利益冲突:无。

财务披露: 无。

医生经验:

机器学习经验:很多。

免责声明

这里表达的意见是我个人的意见。它们不反映我当前、前任或未来雇主或朋友的意见或政策!此外,这些评论旨在继续讨论重要问题,而不是以任何方式针对个人或攻击任何个人或组织的可信度。

更多细节

  • 乳腺 X 光检查研究[Svensson2015JIR]在其摘要中指出:“对于 44 名最不具备鉴别力的放射科医生,在 45 例相对简单且大多数为 CAD 检测出的癌症中,使用计算机辅助检测(CAD)与灵敏度提高了 0.016(95%置信区间[CI],0.003–0.028)相关。然而,对于 6 名最具鉴别力的放射科医生,使用 CAD 时,15 例相对困难的癌症的灵敏度降低了 0.145(95% CI,0.034–0.257)。

    • 尽管确实重要的是要了解在 CAD 的帮助下,最具辨别力的读者灵敏度下降的原因(因为它比最不具辨别力的读者的增加要大),但要记住,读者灵敏度只是评估 ML-DSS 有效性时需要考虑的众多因素之一。作者自己在结尾时推荐:“任何 ML-DSS 的质量及其采用的后续监管决策不应仅基于性能指标,而应基于与常规护理相比在相关结果中的临床重要改进的证明,以及患者和医生的满意度。” 因此,关于 ML-DSS 导致技能下降的警报至多是微弱的,除非我们看到许多大规模研究在各种 DSS 工作流中证明这一点。

参考文献

  • Andel2012JHCF: Andel, C., Davidow, S. L., Hollander, M., & Moreno, D. A. (2012). 医疗质量和医疗错误的经济学。健康护理金融期刊, 39(1), 39。

  • Ash2004JAMIA: Ash, J. S., Berg, M., & Coiera, E. (2004). 信息技术在医疗中的一些意外后果:与患者护理信息系统相关的错误性质。美国医学信息学协会期刊, 11(2), 104-112。

  • Bright2012AIM: Bright, T. J., Wong, A., Dhurjati, R., Bristow, E., Bastian, L., Coeytaux, R. R., … & Wing, L. (2012). 临床决策支持系统的效果——系统评价。内科年鉴, 157(1), 29-43。

  • Cabitza2017JAMA: Cabitza F, Rasoini R, Gensini GF. 医学中机器学习的意外后果。JAMA. 2017;318(6):517–518. doi:10.1001/jama.2017.7797

  • Chen2017NEJM: Chen, J. H., & Asch, S. M. (2017). 医学中的机器学习与预测——超越膨胀期望的高峰。新英格兰医学杂志, 376(26), 2507。

  • Donaldson2000NAP: Donaldson, M. S., Corrigan, J. M., & Kohn, L. T. (Eds.). (2000). 犯错是人类的:构建一个更安全的健康系统 (第 6 卷)。国家科学院出版社。

  • Hiremath2014Mobihealth: Hiremath, S., Yang, G., & Mankodiya, K. (2014 年 11 月). 可穿戴物联网:概念、架构组件及其对以人为本医疗的承诺。无线移动通信与医疗(Mobihealth),2014 年 EAI 第四届国际会议 (pp. 304-307)。IEEE。

  • Hoff2011HCMR: Hoff T. 初级保健医生使用两种工作创新的技能降低和适应。健康护理管理评论。2011;36(4):338-348。

  • Kavsek2006AAI: Kavšek, B., & Lavrač, N. (2006). APRIORI-SD: 将关联规则学习适应于子组发现。应用人工智能, 20(7), 543-583。

  • Povyakalo2013MDM: Povyakalo AA, Alberdi E, Strigini L, Ayton P. 如何区分计算机辅助决策和计算机阻碍决策。医学决策制定。2013;33(1):98-107。

  • Pusic20014BCMJ: 马丁·普西克(Martin Pusic),医学博士,J. 马克·安瑟米诺(Dr J. Mark Ansermino),FFA,医学硕士,硕士学位,FRCPC。临床决策支持系统。BCMJ,第 46 卷,第 5 期,2004 年 6 月,第 236-239 页。

  • Sittig2008JBI:  Sittig, D. F., Wright, A., Osheroff, J. A., Middleton, B., Teich, J. M., Ash, J. S., … & Bates, D. W. (2008). 临床决策支持中的重大挑战。生物医学信息学杂志41(2), 387-392。

  • Svensson2015JIR: Svensson CM, Hübler R, Figge MT. 循环肿瘤细胞的自动分类及观察者变异性对分类器训练和性能的影响。免疫学研究杂志。2015;2015:573165。

更新:此帖子已更新,将引用格式从数字格式更改为作者-年份-期刊格式,以提高准确性和维护性。

原文。经许可转载。

个人简介:Pradeep Raamana 是一位神经影像学家。机器学习者。数据处理专家。:) 摄影师。自驾游爱好者。羽毛球爱好者。徒步旅行者。自然爱好者。他的推特账号是 @raamana_

相关文献:


我们的前三大课程推荐

1. 谷歌网络安全证书 - 加入网络安全职业的快速通道

2. 谷歌数据分析专业证书 - 提升您的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持您的组织进行 IT 管理


更多相关主题