Skip to content

Latest commit

 

History

History
120 lines (61 loc) · 7.97 KB

21-data-science-interview-questions-answers.md

File metadata and controls

120 lines (61 loc) · 7.97 KB

21 个必须知道的数据科学面试问题及答案

原文:www.kdnuggets.com/2016/02/21-data-science-interview-questions-answers.html/3

8. 什么是统计功效?

由 Gregory Piatetsky 回答:

维基百科定义了统计功效或敏感性,即当备择假设(H1)为真时,二元假设检验正确拒绝零假设(H0)的概率。

换句话说,统计功效是研究在效应存在时检测到效应的可能性。统计功效越高,犯第二类错误(即当实际上存在效应时却得出没有效应的结论)的可能性就越小。

这里有一些工具可以计算统计功效

9. 解释什么是重采样方法及其作用。还要解释它们的局限性。

由 Gregory Piatetsky 回答:

经典的统计参数检验将观察到的统计量与理论采样分布进行比较。重采样是一种数据驱动的方法,而非理论驱动的方法,基于在相同样本内重复采样。

重采样是指用于执行以下方法的一种方法

  • 通过使用可用数据的子集(切割法)或从数据点集合中随机抽取(自助法)来估计样本统计量(中位数、方差、百分位数)的精确性。

  • 在进行显著性测试时(置换测试,也称为精确测试、随机化测试或重新随机化测试),对数据点标签进行交换。

  • 通过使用随机子集(自助法、交叉验证)来验证模型。

更多信息请参见维基百科上的自助法切割法

另请参见如何使用自助法和 Apache Spark 检查假设

自助法与 Spark](/2016/01/hypothesis-testing-bootstrap-apache-spark.html)

这里有一个关于重采样统计的良好概述。

10. 是出现较多假阳性好,还是较多假阴性好?请解释。

Devendra Desale回答。

这取决于问题以及我们试图解决的问题的领域。

在医学测试中,假阴性可能会给患者和医生提供一种虚假的安慰信息,认为疾病不存在,实际上却是存在的。这有时会导致对患者及其疾病的不适当或不充分的治疗。因此,出现较多假阳性是更为理想的。

在垃圾邮件过滤中,假阳性发生在垃圾邮件过滤或阻挡技术错误地将合法邮件归类为垃圾邮件,从而干扰其投递。虽然大多数反垃圾邮件策略可以阻止或过滤高比例的垃圾邮件,但在不产生显著的假阳性结果的情况下进行这种操作要困难得多。因此,我们宁愿接受过多的假阴性,也不愿接受过多的假阳性。

11. 什么是选择偏差?它为什么重要?你如何避免它?

答案由马修·梅奥提供。

选择偏差通常是指由于样本非随机而引入的误差。例如,如果一个由 100 个测试用例组成的样本在实际人群中相对均等的四个类别中以 60/20/15/5 的比例分布,那么一个模型可能会错误地假设概率是决定性预测因素。避免非随机样本是应对偏差的最佳方法;然而,当这不切实际时,诸如重采样提升和加权等技术是应对这种情况的策略。

这是答案的第二部分

更多相关话题

5 Whys

图 5 Whys 分析示例,来自 根本原因分析艺术

Q7. 你对价格优化、价格弹性、库存管理、竞争情报有了解吗?举例说明。

由 Gregory Piatetsky 的回答:

这些是经济学术语,数据科学家不常被问到,但了解它们是有用的。

价格优化是利用数学工具来确定客户如何通过不同渠道对不同价格的产品和服务作出反应。

大数据和数据挖掘使个性化价格优化成为可能。现在像亚马逊这样的公司甚至可以进一步优化,根据不同访问者的历史显示不同的价格,尽管是否公平仍存在强烈的争议。

常用的价格弹性通常指

  • 需求价格弹性,即价格敏感度的测量。它的计算方法是:

    价格需求弹性 = 需求量变化百分比 / 价格变化百分比。

类似地,供给价格弹性是一个经济学指标,显示了商品或服务的供给量如何响应价格变化。

库存管理是对公司用于生产销售商品的组件的订购、储存和使用进行监督和控制,以及对销售的成品数量进行监督和控制。

维基百科定义

竞争情报:定义、收集、分析和分发关于产品、客户、竞争对手及环境的情报,以支持高管和管理人员为组织做出战略决策。

工具如 Google Trends、Alexa、Compete 可以用来确定一般趋势并分析你在网络上的竞争对手。

这里是有用的资源:

更多相关主题