原文:
www.kdnuggets.com/2023/05/practical-statistics-data-scientists.html
图片由unsplash提供
统计概念广泛用于从数据中提取有用信息。本文将回顾数据科学和机器学习中适用的基本统计概念。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT
概率分布展示了特征值如何围绕均值分布。使用鸢尾花数据集,可以使用以下代码生成萼片长度、萼片宽度、花瓣长度和花瓣宽度的概率分布。
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
import seaborn as sns
iris = sns.load_dataset("iris")
sns.kdeplot(data=iris)
plt.show()
萼片长度、萼片宽度、花瓣长度和花瓣宽度的概率分布 | 图片由作者提供
现在让我们关注萼片长度变量。下图展示了萼片长度变量的概率分布。
萼片长度变量的概率分布 | 图片由作者提供
我们观察到,萼片长度变量的概率分布具有单一的最大值,因此它是单峰的。出现最大值的萼片长度值是众数,约为 5.8。
下图展示了花瓣宽度变量的概率分布。
花瓣宽度变量的概率分布 | 图片由作者提供
从这张图中,我们观察到花瓣长度变量的概率分布有 2 个最大值,因此它是双峰的。出现最大值的花瓣长度值是众数,即 1.7 和 5.0。
平均值是中心趋势的度量。萼片长度变量的均值计算如下:
data = datasets.load_iris().data
sepal_length = data[:,0]
mean = np.mean(sepal_length)
>>> 5.843333333333334
中位数也是中心趋势的度量。中位数对异常值的存在不那么敏感,因此比均值更可靠。萼片长度变量的中位数计算如下:
data = datasets.load_iris().data
sepal_length = data[:,0]
np.median(sepal_length)
>>> 5.8
标准差是衡量数据值围绕均值波动的度量。它用于量化数据集中的不确定性。花萼长度特征的标准差使用下面的代码计算。
data = datasets.load_iris().data
sepal_length = data[:,0]
std = np.std(sepal_length)
>>> 0.8253012917851409
置信区间是围绕均值的值范围。65%的置信区间是从均值偏离一个标准差的值范围。95%的置信区间是从均值偏离两个标准差的值范围。下面的箱线图显示了花萼长度特征的均值和 65%的置信区间。
sns.boxplot(data = iris, y='sepal_length')
plt.show()
花萼长度特征的箱线图。蓝色区域表示 65%的置信区间 | 作者提供的图片
概率分布可以用于预测建模。花萼长度特征只有 150 个数据点。假设我们希望生成更多的数据点。如果假设花萼长度特征呈正态分布,我们可以生成更多的数据点。在下面的示例中,我们为花萼长度特征生成了 N = 1000 个数据点。
np.random.seed(10**7)
mu = mean
sigma = std
x = np.random.normal(mean, std, N)
num_bins = 50
n, bins, patches = plt.hist(x, num_bins,
density = 1,
color ='green',
alpha = 0.7)
y = ((1 / (np.sqrt(2 * np.pi) * sigma)) *
np.exp(-0.5 * (1 / sigma * (bins - mu))**2))
plt.plot(bins, y, '--', color ='black')
plt.xlabel('sepal length')
plt.ylabel('probability distribution')
plt.title('matplotlib.pyplot.hist() function Example\n\n',
fontweight ="bold")
plt.show()
花萼长度宽度的概率分布 | 作者提供的图片
贝叶斯定理是统计学和数据科学中的一个重要定理。它用于评估二元分类算法的预测能力。关于贝叶斯定理如何在二元分类算法中使用的简单教程在这里找到:用通俗英语讲解的贝叶斯定理。
总结来说,我们回顾了数据科学中有用的基本统计概念,如众数、中位数、均值、标准差、概率分布、正态分布和贝叶斯定理。任何对数据科学感兴趣的人都必须学习统计学基础。
本杰明·O·塔约 是一名物理学家、数据科学教育者和作家,也是 DataScienceHub 的所有者。此前,本杰明曾在中奥克拉荷马大学、大峡谷大学和匹兹堡州立大学教授工程学和物理学。