数据科学家需要知道的 3 个数学定律

原文：www.kdnuggets.com/2021/03/3-mathematical-laws.html

作者 Cornellius Yudha Wijaya，数据科学家 | 讲师 | 生物学家 | 作家 | 播客主持人。

我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业的快车道。

2. Google 数据分析专业证书 - 提升你的数据分析能力

3. Google IT 支持专业证书 - 支持组织的 IT 工作

照片由 Jeswin Thomas 提供，来源于 Unsplash。

虽然数据科学家以数据为主要工作内容，但这并不意味着数学知识不重要。数据科学家需要学习和理解机器学习背后的数学理论，以便高效地解决业务问题。

机器学习背后的数学不仅仅是随意扔在各处的符号，它包含了许多理论和思想。这些思想创造了大量的数学定律，这些定律促进了我们现在可以使用的机器学习。尽管你可以用任何方式利用数学来解决问题，但毕竟数学定律并不仅限于机器学习。

在这篇文章中，我想概述一些可能对数据科学家有帮助的有趣数学定律。让我们开始吧。

本福特定律

本福特定律，也称为 纽科姆–本福特定律、异常数字定律 或 首位数字定律，是一个关于现实世界数据集中的首位数字的数学定律。

当我们考虑数字的首位时，如果随机抽取一个数字，它应该是均匀分布的。从直观上看，首位数字为 1 的随机数字应该与首位数字为 9 的随机数字有相同的概率，即 ~11.1%。令人惊讶的是，实际情况并非如此。

本福特定律指出，在许多自然发生的数字集合中，首位数字通常较小。首位数字为 1 的情况发生得比 2 更频繁，首位数字为 2 的情况发生得比 3 更频繁，以此类推。

让我们尝试使用一个真实世界的数据集来看看这个定律如何适用。对于这篇文章，我使用了 Kaggle 上关于 1921-2020 年 Spotify 歌曲的数据显示。我取出了歌曲时长的首位数字。

图像由作者创建。

从上图中，我们可以看到，首位数字 1 出现的次数最多，然后是逐渐减少的较高数字。这就是本福特定律所描述的。

如果我们谈论准确的定义，本福特定律指出，如果首位数字d（???? ∈ 1, …, 9）出现的概率符合以下公式，

图像由作者创建。

从这个公式中，我们可以得到首位数字的分布，

图像由作者创建。

根据这种分布，我们可以预测首位数字为 1 的出现概率比其他首位数字高 30%。

这一法则有许多应用，例如在税务申报表、选举结果、经济数据和会计数字中的欺诈检测。

大数法则 (LLN)

大数法则指出，随着随机过程试验次数的增加，结果的平均值会越来越接近预期值或理论值。

例如，掷骰子时，6 面骰子的可能性是 1、2、3、4、5 和 6。6 面骰子的平均值是 3.5。当我们掷骰子时，得到的数字是 1 到 6 之间的随机数，但随着我们不断掷骰子，结果的平均值会越来越接近预期值，即 3.5。这就是大数法则所描述的。

尽管它很有用，但关键在于你需要许多实验或出现次数。然而，所需的大量数据意味着它对预测长期稳定性是有益的。

大数法则与平均法则不同，后者用于表达一种信念，即随机事件的结果在小样本中会“趋于平衡”。这就是我们所称的“赌徒谬误”，即我们期望在小样本中出现预期值。

Zipf 定律

Zipf 定律是为定量语言学创建的，指出在给定某些自然语言数据集语料库的情况下，任何单词的频率与其频率表排名成反比。因此，最常见的词出现的频率大约是第二常见词的两倍，是第三常见词的三倍。

例如，在之前的 Spotify 数据集中，我拆分了所有的单词和标点符号进行计数。下面是最常见的 12 个单词及其频率。

图像由作者创建。

当我对 Spotify 语料库中存在的所有单词进行统计时，总数为 759,389。我们可以通过计算它们出现的概率来检验 Zipf 定律是否适用于该数据集。出现频率最高的词或标点符号是‘-’，出现 32,258 次，概率约为 4%，其次是‘the’，其概率约为 2%。

忠于规律，在某些词汇中的概率持续下降。当然，也有小幅偏差，但概率在大多数情况下随频率排名的增加而下降。

原文。经授权转载。

相关内容：

数据科学中需要多少数学？
机器学习的数学：免费电子书
数据科学的基本数学：信息论

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

3-mathematical-laws.md

3-mathematical-laws.md

数据科学家需要知道的 3 个数学定律

我们的前三大课程推荐

本福特定律

大数法则 (LLN)

Zipf 定律

更多相关主题

Files

3-mathematical-laws.md

Latest commit

History

3-mathematical-laws.md

File metadata and controls

数据科学家需要知道的 3 个数学定律

我们的前三大课程推荐

本福特定律

大数法则 (LLN)

Zipf 定律

更多相关主题