Skip to content

Latest commit

 

History

History
137 lines (69 loc) · 8.83 KB

seven-steps-machine-learning-python.md

File metadata and controls

137 lines (69 loc) · 8.83 KB

掌握 Python 机器学习的 7 个步骤

原文:www.kdnuggets.com/2015/11/seven-steps-machine-learning-python.html/2

第 4 步:开始使用 Python 进行机器学习

  • Python。完成

  • 机器学习基础知识。完成

  • Numpy。完成

  • Pandas。完成

  • Matplotlib。完成

时候到了。让我们开始使用 Python 的事实上的标准机器学习库 scikit-learn 来实现机器学习算法。

scikit-learn 流程图

scikit-learn 流程图。

许多后续教程和练习将由 iPython(Jupyter)Notebook 驱动,这是一种执行 Python 的互动环境。这些 iPython notebooks 可以选择在线查看或下载到自己的计算机上进行本地互动。

另外,请注意下面的教程来自多个在线来源。所有 Notebook 都已注明作者;如果出于某种原因,你发现某些人的工作没有得到适当的署名,请告诉我,我们会尽快纠正情况。特别地,我想对 Jake VanderPlasRandal OlsonDonne MartinKevin MarkhamColin Raffel 表示感谢,感谢他们提供的精彩免费资源。

我们首先介绍用于初步了解 scikit-learn 的教程。我建议在进入下一步之前按顺序完成这些教程。

scikit-learn 的一般介绍,涵盖了 k 最近邻算法,这是 Python 最常用的通用机器学习库:

更深入和扩展的介绍,包括一个从头到尾使用著名数据集的入门项目:

重点关注在 scikit-learn 中评估不同模型的策略,涵盖训练/测试数据集的拆分:

第 5 步:使用 Python 的机器学习主题

在 scikit-learn 打下基础后,我们可以继续深入探讨各种常见且有用的算法。我们从 k-means 聚类开始,它是最著名的机器学习算法之一。它是一种简单且常常有效的无监督学习问题解决方法:

接下来,我们回到分类问题,看看一种历史上最受欢迎的分类方法:

从分类问题,我们来看连续的数值预测:

然后,我们可以通过逻辑回归利用回归来解决分类问题:

第 6 步:使用 Python 进行高级机器学习主题

我们已经初步了解了 scikit-learn,现在我们将注意力转向一些更高级的主题。首先是支持向量机,这是一种依赖于数据高维空间复杂变换的非线性分类器。

接下来,通过 Kaggle Titanic 竞赛 实践,我们将研究一种集成分类器——随机森林:

降维是一种减少问题中考虑变量数量的方法。主成分分析是一种特定形式的无监督降维方法:

  • 降维,作者:Jake VanderPlas

在进入最后一步之前,我们可以花点时间考虑一下,我们在相对较短的时间内已经走了很长一段路。

使用 Python 及其机器学习库,我们已经涵盖了一些最常见且知名的机器学习算法(k-近邻、k-means 聚类、支持向量机),研究了一种强大的集成技术(随机森林),并检查了一些额外的机器学习支持任务(降维、模型验证技术)。随着基础机器学习技能的掌握,我们已经开始为自己建立一个有用的工具包。

在总结之前,我们将再添加一个受欢迎的工具。

第 7 步:Python 中的深度学习

深度学习无处不在!

学习是深刻的。

深度学习无处不在!深度学习建立在几几十年的神经网络研究基础上,但最近几年的进展显著提升了深度神经网络的感知能力和普遍兴趣。如果你对深度学习不熟悉,KDnuggets 有很多文章 详细介绍了这项技术的众多近期创新、成就和荣誉。

这最后一步并不声称是任何形式的深度学习诊所;我们将查看两个领先的现代 Python 深度学习库中的几个简单网络实现。对于那些有兴趣深入了解深度学习的人,我推荐从以下免费的在线书籍开始:

Theano

Theano 是我们将要查看的第一个 Python 深度学习库。来自作者的介绍:

Theano 是一个 Python 库,可以高效地定义、优化和评估涉及多维数组的数学表达式。

以下关于 Theano 的深度学习入门教程虽然较长,但非常好,描述详尽且评论丰富:

Caffe

我们将要测试的另一个库是 Caffe。再一次,来自作者的介绍:

Caffe 是一个深度学习框架,旨在注重表达、速度和模块化。它由伯克利视觉与学习中心(BVLC)和社区贡献者开发。

本教程是本文的点睛之笔。虽然我们上面已经介绍了一些有趣的示例,但没有一个能与以下示例相比,那就是使用 Caffe 实现Google 的 #DeepDream。好好享受吧!理解本教程后,可以尝试一下,让你的处理器自主“做梦”。

我没有承诺这会很快或容易,但如果你花时间并遵循上述 7 个步骤,你完全可以在多种机器学习算法及其在 Python 中的实现方面取得合理的熟练程度和理解,包括一些处于当前深度学习研究前沿的库。

个人简介:Matthew Mayo 是一名计算机科学研究生,目前正在撰写关于并行化机器学习算法的论文。他还是数据挖掘的学生、数据爱好者,并且是一位有抱负的机器学习科学家。

相关内容:

  • 前 20 名数据科学 MOOC

  • 60+ 本关于大数据、数据科学、数据挖掘、机器学习、Python、R 等的免费书籍

  • 15 门数据科学数学 MOOC

更多相关内容