原文:
www.kdnuggets.com/7-steps-to-landing-your-first-data-science-job
作者提供的图像
你是否希望转行到数据科学领域?如果是的话,你可能已经报名参加了在线课程、训练营等。也许你还收藏了一份自学数据科学的路线图,计划逐步学习。那么,这份指南将如何帮助你呢?
1. Google 网络安全证书 - 快速进入网络安全职业轨道。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你的组织 IT 部门
如果你决定追求数据科学职业,你必须为之努力。别无他法。此外,获得数据科学职位远不止于学习数据科学概念。即使在学习过程中,你需要掌握的概念、工具、技术和库也可能让人不堪重负。
本文并非点击诱饵,因此不会夸大其词地承诺在 X 天内帮助你获得数据科学工作。相反,我们提供了一个全面的数据科学求职流程,包括:
-
学习数据科学概念
-
通过项目展示你的技术专长
-
自我营销作为专业人士
-
战略性准备面试
我们希望这份指南对你有所帮助!
要进入数据科学领域,你首先应该打下坚实的编程和问题解决基础。我建议你将 Python 作为第一门编程语言来学习。
通过简洁易懂的语法和许多优秀的学习资源,你可以在几个小时内掌握 Python。之后,你可以花几周时间专注于以下编程基础知识:
-
内置数据结构
-
循环
-
函数
-
类和对象
-
函数式编程基础
-
Pythonic 特性:推导式和生成器
如果你想快速入门 Python,请参加 这门 Python 讲座,这是哈佛 CS50 课程的一部分。更多深入学习,请查看 哈佛的 Python 入门课程。
为了练习,你可以通过上面的 Python 课程中的项目,并且在Hackerrank上解决一些问题。
此外,在这个阶段,你应该能够在命令行工作。了解如何创建和使用Python 虚拟环境也是很有帮助的。
无论你申请的是哪个数据角色,学习和掌握 SQL 都是非常重要的。你可以从以下主题开始:
-
基本 SQL 查询
-
条件过滤
-
连接操作
-
子查询
-
SQL 字符串函数
与 Python 一样,SQL 也需要专门的练习,有几个有用的 SQL 练习平台。如果你喜欢通过教程学习,可以查看Mode Analytics 的 SQL 教程。
现在你已经掌握了 Python 的基础,可以在此基础上学习使用 Python 进行网页抓取。作为一名数据专业人士,你应该能够熟练进行数据收集。具体来说,就是以编程方式抓取网页数据并解析来自 API 的 JSON 响应。
在熟悉了基本的 HTTP 方法之后,你可以通过学习以下内容来提升你的 Python 技能:
-
使用Requests 库进行 HTTP 请求
-
使用 BeautifulSoup Python 库进行网页抓取;学习 Scrapy 也会很有帮助
-
使用内置的json 模块解析 API 的 JSON 响应
此时,你可以尝试编写一个简单的网页抓取项目。保持简单且相关,以便你有兴趣。例如,你可以抓取你在 Amazon 上的购物数据,以便之后进行分析。这只是一个示例;你可以做一个你感兴趣的项目。
在你的数据科学学习旅程中,此时你应该对 Python 和 SQL 都感到自如。掌握了这些基础技能后,你可以继续分析和可视化数据,以便更好地理解数据:
-
对于使用 Python 进行数据分析,你可以学习使用 pandas 库。如果你寻找 pandas 的逐步学习指南,可以查看掌握数据清洗的 7 个步骤。
-
对于数据可视化,你可以学习如何使用 matplotlib 和 seaborn 库。
这个免费的Python 数据分析认证课程来自 freeCodeCamp,涵盖了你需要了解的所有基本 Python 数据科学库。你还将编写一些简单的项目代码。
在这里,你再次有机会构建一个项目:尝试使用网络抓取收集数据;使用 pandas 进行分析;学习像Streamlit这样的库来创建一个交互式仪表板以展示你分析的结果。
通过编程和数据分析,你可以构建有趣的项目。但学习机器学习基础知识也是很有帮助的。
即使你没有时间更详细地了解算法的工作原理,也要关注:
-
了解算法的高级概述以及
-
使用 scikit-learn 构建模型
这个scikit-learn 速成课程将帮助你迅速掌握使用 scikit-learn 构建机器学习模型的方法。一旦你学会了如何使用 scikit-learn 构建基线模型,你还应该关注以下内容,以帮助你构建更好的模型:
-
数据预处理
-
特征工程
-
超参数调优
现在再次是构建项目的时候了。你可以从简单的贷款违约预测项目开始,逐渐过渡到员工离职预测、市场篮子分析等。
在之前的步骤中,我们确实谈到了构建项目以巩固学习。然而,大多数有抱负的数据专业人士往往更关注学习,而忽视了建立有趣项目作品集的这一步——应用部分。
无论你学到了多少(和知道多少),如果没有展示你能力的项目,是无法说服招聘人员你的专业技能的。
由于创建一个简单的页面来展示项目需要大量的前端编码,大多数学习者不会建立作品集。你可能使用 GitHub 存储库—带有详细的 README 文件—来跟踪项目代码的变化。然而,为了构建一个展示你项目的数据科学作品集,你可以查看其他免费的平台,例如 Kaggle 和 DataSciencePortfol.io。
根据你希望进入的数据科学领域选择你的项目:医疗保健、金融科技、供应链等等。这样你可以展示你的兴趣和能力。或者,你可以尝试构建几个项目来找出你感兴趣的领域。
在线被发现并展示你的经验对求职过程有帮助,尤其是在你职业生涯的早期阶段。这就是为什么建立强大的在线存在是我们的下一步。
为此,最佳路径是建立你自己的个人网站,包括:
-
一个信息丰富的“关于”页面和联系信息
-
一个展示你撰写的文章和教程的博客
-
一个包含你参与项目详细信息的项目页面
拥有个人网站总是更受欢迎。但至少你应该在求职过程中拥有 LinkedIn 个人资料和 Twitter(现在称为 X)账户。
在 Twitter 上,添加相关的标题,并积极参与技术和职业建议的讨论。在 LinkedIn 上,确保你的个人资料尽可能完整和准确:
-
更新你的标题以反映你的专业技能
-
填写经验和教育部分
-
在“项目”部分,添加你的项目并附上简短描述。同时链接到这些项目
-
将你发表的文章添加到你的个人资料中
在这些平台上主动进行网络交流。同时定期分享你的学习进展。如果你不想现在就开始写自己的博客,可以尝试在社交媒体上写作,以提高你的写作技巧。
你可以在 LinkedIn 上发布关于你刚学到的数据科学概念或你正在进行的项目的帖子或文章。或者在推特上分享你正在学习的内容、你在过程中犯的错误以及你从中学到的东西。
注意,这一步骤并不是完全独立于构建你的项目组合的。在提升技术技能和构建项目(是的,你的项目组合)之外,你还需要建立你的在线存在感。这样,招聘人员才能找到你,并在寻找候选人时向你提供相关机会。
要破解数据科学面试,你需要在测试你解决问题技能的编码环节以及核心技术面试中都表现出色,在技术面试中你应该能够展示你对数据科学的理解。
我建议你至少参加一个关于数据结构和算法的入门课程,然后在Hackerrank和Leetcode上解决问题。如果时间紧迫,你可以解决Blind 75问题集。这个问题集包含了数组、动态规划、字符串、图等所有主要概念的问题。
在所有数据科学面试中,你至少会有一个 SQL 环节。你也可以在 Hackerrank 和 Leetcode 上练习 SQL。此外,你还可以在StrataScratch和DataLemur等平台上解决以前问过的面试问题。
一旦你破解了这些编码面试并进入下一轮,你应该能够展示你在数据科学方面的熟练程度。你应该对你的项目有详细了解。在解释你所做的项目时,你还应该能够解释:
-
你试图解决的业务问题
-
你为什么以这种方式处理问题
-
这种方法的好处和原因
不仅从算法和概念的角度准备,还要从理解业务目标和解决业务问题的角度准备。
这就是全部内容了。在本指南中,我们讨论了获得第一个数据科学职位的不同步骤。
我们还讨论了将自己作为专业人士和潜在候选人的重要性,以及学习数据科学概念。在涉及学习数据科学概念的步骤中,我们还查看了有用的资源。
祝你在数据科学的旅程中好运!
Bala Priya C是来自印度的开发者和技术作家。她喜欢在数学、编程、数据科学和内容创作的交汇处工作。她的兴趣和专长领域包括 DevOps、数据科学和自然语言处理。她喜欢阅读、写作、编码和喝咖啡!目前,她正在通过编写教程、使用指南、意见文章等,学习并分享她的知识给开发者社区。Bala 还创建了引人入胜的资源概述和编码教程。