原文:
www.kdnuggets.com/2021/06/5-data-science-open-source-projects-contribute.html
评论
照片由 Markus Winkler 提供,来源于 Unsplash。
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你在组织中的 IT 工作
获得理想的数据科学职位的一个关键方面是建立一个强大、引人注目的作品集,以证明你的技能,并展示你能够处理大规模项目,并能很好地与团队合作。你的作品集需要证明你花费了时间、精力和资源来磨练你的数据科学技能。
向不认识你的人证明你的技能,尤其是在短时间内——招聘人员在简历或作品集上的平均停留时间为 7~10 秒——并不容易。然而,这也不是不可能的。
一个好的作品集应包括各种类型的项目,涵盖数据收集、分析和可视化的项目。它还应包含不同规模的项目。处理小项目与处理大规模项目是非常不同的。如果你的作品集包含这两种规模的项目,那么这意味着你能够阅读、处理和调试各种规模的软件,这是一项任何数据科学家都需要的技能。
这可能会让你想知道如何找到那些容易上手且在作品集中看起来很棒的开源数据科学项目。这是个很好的问题,但随着数据科学项目数量的爆炸性增长,找到能让你获得工作的优秀项目并不是一件容易的事。
当你尝试查找可以贡献的数据科学项目时,你通常会遇到一些大型项目,如 Pandas、Numpy 和 Matplotlib。这些巨头项目很棒,但还有一些鲜为人知的项目也被许多数据科学家使用,并且在你的简历上也会显得很有分量。
让我们从科技巨头 Google 的一个项目开始这个列表。在构建和开发数据科学项目时,你可能会发现构建一个能在实际情况下展示你项目的测试环境很困难。你无法预测所有场景,也不能确保涵盖所有边缘情况。
Google 提供了 Caliban 作为解决这个问题的潜在方案。Caliban 是一个测试工具,可以在执行过程中跟踪你的环境属性,并允许你重现特定的运行环境。这个工具是由 Google 的研究人员和数据工程师开发的,旨在每天执行这个任务。
我们列表中的下一个是 PalmerPenguins,这是一个最近才开源的数据集。这个数据集的建立和开发是为了取代非常著名和广泛使用的 Iris 数据集。Iris 之所以出名,是因为它对初学者的使用非常简单,同时它的应用范围也非常广泛。
PalmerPenguins 提供了一个出色的数据集,你可以像使用 Iris 一样轻松地用于数据可视化和分类应用,但选项更多。这个数据集的另一个伟大之处是它提供了艺术作品来教授数据科学概念。
3: Caffe
接下来,我们有一个非常有前景的深度学习框架,Caffe。Caffe 是一个深度学习框架,设计和构建时以速度、模块化和表达为优先。Caffe 最初是由 UC Berkeley AI 实验室和视觉与学习社区的研究团队开发的。
在 Caffe 作为开源项目发布仅一年后,它被全球 1000 多名研究人员和开发人员进行了分叉。这有助于转变研究主题,建立新的初创公司和工业力量。Caffe 社区是一个非常友好和支持的开源社区。
4: NeoML
机器学习可能是数据科学应用的核心,所以我必须至少有一个完全针对机器学习的开源项目。NeoML 是一个机器学习框架,允许用户设计、构建、测试和部署机器学习模型,且提供了超过 20 种传统机器学习算法,操作简便。
它包含了支持自然语言处理、计算机视觉、神经网络以及图像分类和处理的材料。这个框架用 C++、Java 和 Objective-C 编写,可以在任何平台上运行,包括基于 Unix 的系统、macOS 和 Windows。
5: Kornia
我们将用 Kornia 来结束这个列表。Kornia 是一个支持PyTorch的计算机视觉库。它包含了各种例程和可微分的操作,可以用于解决一些通用的计算机视觉问题。Kornia 建立在 PyTorch 之上,严重依赖于其效率和 CPU 的计算能力来完成复杂的函数。
Kornia 不仅仅是一个包,它是一套可以一起使用的库,用于训练模型和神经网络,进行图像变换、图像滤波和边缘检测。
既然你已经成功穿越了数据科学求职的迷宫,解读了职位名称并找到了最适合你技能的角色,接下来就是考虑如何让你的作品集迅速帮你找到工作的时候了。
在你的数据科学学习旅程中,你可能经历了许多项目,从几行代码的小项目到有数百行代码的大项目。但要真正证明你的技能和知识水平,你需要一些让你在申请者池中脱颖而出的贡献。
吸引招聘人员注意的一种方法是参与被全球许多数据科学家使用的大型项目。
原文。经许可转载。
相关: