Skip to content

Latest commit

 

History

History
169 lines (85 loc) · 7.17 KB

statistical-data-analysis-python.md

File metadata and controls

169 lines (85 loc) · 7.17 KB

Python 中的统计数据分析

原文:www.kdnuggets.com/2016/07/statistical-data-analysis-python.html

由克里斯托弗·丰内斯贝克,范德比尔特大学医学院

编辑说明:本教程最初作为课程教学材料发布,可能包含对其他课程的脱离上下文的引用;这并不影响材料的有效性或有用性。

描述

本教程将介绍使用 Python 进行统计数据分析,使用存储为 Pandas DataFrame 对象的数据。数据分析中的大部分工作涉及到数据的导入、清理和转换,以便进行分析。因此,本课程的前半部分包括对基本和中级 Pandas 使用的两部分概述,展示如何有效地操作内存中的数据集。这包括任务如索引、对齐、连接/合并方法、日期/时间类型以及处理缺失数据。接下来,我们将介绍使用 Pandas 和 Matplotlib 进行绘图和可视化,重点是创建有效的数据可视化,同时避免常见的陷阱。最后,参与者将学习使用 Numpy、Scipy 和 Pandas 中的一些高级函数进行统计数据建模的方法。这将包括将数据拟合到概率分布中,使用线性和非线性模型估计变量之间的关系,以及对自助法的简要介绍。每个教程部分将涉及样本数据集的实际操作和分析,数据集将在课程前提供给参与者。

Pandas IPython

本教程的目标受众包括所有新的 Python 用户,尽管我们建议用户还参加入门阶段的 NumPy 和 IPython 课程。

学生指南

对于熟悉 Git 的学生,你可以简单地克隆此仓库以获取所有教程材料(iPython 笔记本和数据)。另外,你也可以 下载包含材料的压缩文件。第三种选择是通过点击下列各节标题来查看静态笔记本。

大纲

Pandas 入门

  • 导入数据

  • Series 和 DataFrame 对象

  • 索引、数据选择和子集

  • 层次索引

  • 读取和写入文件

  • 排序和排名

  • 缺失数据

  • 数据总结

使用 Pandas 进行数据处理

  • 日期/时间类型

  • 合并和连接 DataFrame 对象

  • 拼接

  • 重塑 DataFrame 对象

  • 数据透视

  • 数据转换

  • 排列和抽样

  • 数据聚合和 GroupBy 操作

绘图与可视化

  • Pandas 与 Matplotlib 的绘图比较

  • 条形图

  • 直方图

  • 箱形图

  • 分组图

  • 散点图

  • 格子图

统计数据建模

  • 统计建模

  • 将数据拟合到概率分布

  • 拟合回归模型

  • 模型选择

  • 自助法

所需软件包

  • Python 2.7 或更高版本(包括 Python 3)

  • pandas >= 0.11.1 及其依赖项

  • NumPy >= 1.6.1

  • matplotlib >= 1.0.0

  • pytz

  • IPython >= 0.12

  • pyzmq

  • tornado

可选:statsmodels,xlrd 和 openpyxl

对于运行最新版本 Mac OS X(10.8)的学生,获取所有软件包的最简单方法是安装 Scipy Superpack,该软件包与 OS X 随附的 Python 2.7.2 兼容。

否则,另一种简单的安装所有必要软件包的方法是使用 Continuum Analytics 的 Anaconda

统计阅读清单

生态侦探:用数据对抗模型,Ray Hilborn 和 Marc Mangel

虽然针对生态学家,但 Mangel 和 Hilborn 确定了科学家可以用来为他们的数据构建有用且可信模型的关键方法。他们不回避数学,但这本书非常易读且充满示例。

使用回归和多层次/层级模型的数据分析,Andrew Gelman 和 Jennifer Hill

应用层次建模的首选参考。

统计学习的元素,Hastie, Tibshirani 和 Friedman

为统计学家提供的全面机器学习指南。

贝叶斯统计方法第一课程,Peter Hoff

一本很好的入门书籍,适合开始学习贝叶斯方法。

回归建模策略,Frank Harrell

Frank Harrell 的回归建模技巧。我每周都会拿出来用。

简介: 克里斯托弗·丰内斯贝克 是范德比尔特大学医学院生物统计学系的助理教授。他专注于计算统计学、贝叶斯方法、元分析和应用决策分析。他来自温哥华,BC,并获得乔治亚大学的博士学位。

原文。经许可转载。

相关:

  • 掌握 Python 机器学习的 7 个步骤

  • 数据科学实战:Kaggle 第三部分 – 数据清洗

  • Python 数据科学:Pandas 与 Spark DataFrame 的关键区别


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求


更多相关内容