www.kdnuggets.com/2015/07/good-data-science-machine-learning-cheat-sheets.html
Python、R、Numpy、Scipy、Pandas 备忘单
数据科学领域中有成千上万的包和数百个函数!一个有志的数据爱好者无需了解所有内容。这里列出了一些最重要的内容,并在几页中进行了概括。
精通数据科学需要了解统计学、数学、编程知识,尤其是 R、Python 和 SQL,然后将这些知识组合起来,通过业务理解和直觉——来推动决策。
这里按类别列出了备忘单:
Python 的备忘单:
Python 是初学者的热门选择,同时也足够强大,支持一些世界上最受欢迎的产品和应用。它的设计使编程体验几乎像用英语写作一样自然。Python 基础或 Python 调试器备忘单适合初学者,涵盖了入门所需的重要语法。社区提供的库如 numpy、scipy、scikit 和 pandas 被广泛依赖,NumPy/SciPy/Pandas 备忘单提供了快速复习。
R 的备忘单:
R 的生态系统扩展得如此迅速,以至于需要大量参考。R 参考卡在几页中覆盖了大部分 R 领域。Rstudio 也发布了一系列备忘单,以便 R 社区使用。数据可视化与 ggplot2 似乎是一个受欢迎的工具,因为它在创建结果图表时非常有帮助。
MySQL & SQL 备忘单:
对于数据科学家来说,SQL 的基础知识与其他任何语言一样重要。PIG 和 Hive 查询语言都与 SQL——原始的结构化查询语言密切相关。SQL 备忘单提供了一个 5 分钟的快速指南,帮助你学习 SQL,然后你可以进一步探索 Hive 和 MySQL!
Spark 备忘单:
Apache Spark 是一个大规模数据处理的引擎。对于某些应用程序,例如迭代机器学习,Spark 的速度可以比 Hadoop(使用 MapReduce)快 100 倍。Apache Spark 备忘单解释了它在大数据生态系统中的位置,讲解了基本 Spark 应用程序的设置和创建,并解释了常用的操作和动作。
Hadoop 和 Hive 的备忘单:
Hadoop 作为一种非传统工具出现,通过提供一个开源软件框架来解决被认为无法解决的大量数据的并行处理问题。探索 Hadoop 备忘单,以了解在命令行中使用 Hadoop 时的有用命令。SQL 和 Hive 函数的结合也是值得查看的内容。
机器学习的备忘单:
我们经常会花时间思考哪个算法是最好的?然后回到大部头的书籍中查找参考!这些备忘单提供了关于数据的性质和你要解决的问题的想法,然后建议你尝试某种算法。
-
预测分析模式
Django 的备忘单:
Django 是一个免费的开源 web 应用框架,用 Python 编写。如果你是 Django 的新手,可以查看这些备忘单,快速理解基本概念,并深入学习每一个。
分享更多,学习更多!我们是否遗漏了什么?在下面的评论中添加你最喜欢的备忘单吧!
相关:
-
数据科学备忘单指南
-
最受欢迎的前 20 个 R 包
-
大数据与 Hadoop 中最具影响力的 150 人