Kaggle 是最著名的预测建模和分析比赛平台。该公司成立于 2010 年,总部位于澳大利亚墨尔本,一年后在获得来自硅谷的资金后迁至旧金山。2017 年,它被谷歌收购。阅读更多关于其历史和未来的信息,请查看 与 Kaggle CEO Anthony Goldbloom 的采访。
在过去的十年里,“数据科学”这个词逐渐浮现在英语词汇中。因此,“数据科学”和“Kaggle”这两个词变得密不可分,数据科学社区的许多人对这个平台的实用性进行思考和讨论:
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你所在的组织在 IT 方面
Kaggle… 有用吗?
像许多人一样,我对 Kaggle 比赛有一些先入为主的看法。我听说过它们很多年了,这些是我从领域中的其他人那里得到的看法或意见:
-
我听说过一个传说,退休的博士生和拥有几十年经验的人是赢得 Kaggle 比赛的赢家。(我常常想,这些天才是坐在清澈湛蓝的海水和无瑕疵的 WiFi 连接的海滩上,还是在一个黑暗、尘土飞扬、杂乱无章的办公室里……)
-
我几乎没有获胜的机会
-
我真的会学到有价值的东西吗?
-
投资时间提高 0.01 分的准确率有什么意义?
-
这真的最有效地利用了我的时间吗?我是否不应该投资时间去学习另一个更有价值的数据科学技能?
-
胜利者必须使用复杂的集成方法
-
数据是人为清理的,这不现实
-
参加一次 Kaggle 比赛不会让我成为合格的数据科学家,那我为何要费心?
-
我不知道从哪里开始…
在多年的抗拒之后,我最近参加了第一次 Kaggle 比赛,这是船还是冰山。我写了一篇关于我的经历的文章 我的第一次 Kaggle 比赛。
我发现 Kaggle 竞赛很像纽约马拉松。大多数人参加是为了过程,而不是为了赢得第一名。
我会说“是的”,参与 Kaggle 竞赛是有价值的,无论是对初学者还是有经验的数据科学家。以下是很多原因。
基准测试
虽然获取自己的数据集或抓取网络有学习上的好处,但缺点是没有基准,无法比较你的发现。可能会出现重大错误,而且没有人知道,因为没有进行验证。Kaggle 竞赛提供了一个“检查工作”的平台。
适合所有级别的学习
对于初学者,有很多内容需要学习:
-
熟悉 Kaggle 平台
-
结构化的生态系统允许统计技能较少的人专注于此
-
理解评估指标
-
使用 devops 技能:Git,云计算
-
练习
-
Kaggle 提供一些免费的互动 教程
对于有经验的从业者,总是有更多的学习内容:
-
结构化的生态系统允许统计技能更高级的人专注于此
-
更深入地探索超参数
-
专注于前沿和新兴的方法
-
竞赛后分析获胜条目
-
管理非常大的数据集(100 万条记录或更多)
-
为深度学习设置支持 GPU 的机器
-
使用深度学习并与传统算法比较结果
数据
在整个数据科学社区中,你会听到关于数据集的引用。你将会熟悉其他学习平台和会议发言者提到的流行数据集。
尽管数据集是提供的,但仍然需要理解数据和评估指标。与普遍看法相反,仍然存在“脏数据”需要进一步调查。深入挖掘被误分类的项目会导致算法的调整。
作品集部分
的确,做一次 Kaggle 竞赛并不能使你成为数据科学家。参加一节课程、一次会议教程、分析一个数据集或阅读一本数据科学书籍也不能。参与竞赛增加了你的经验并增强了你的作品集。这是你其他项目的补充,而不是衡量数据科学技能的唯一标准。
乐趣
人们常常不确定是否应该追求数据科学的职业。参加比赛是一种有效的方式来评估你的能力和兴趣。如果你真的喜欢 Kaggle 的过程,它会更清楚地指引你正确的方向。如果你更愿意花时间做其他事情,那也没关系;这是找到答案的一种方式。
初学者指南
这篇文章提供了关于 Kaggle 的详细信息以及开始使用的技巧:Kaggle 初学者指南
内核
这里有内核,即其他人共享的 Jupyter Notebook 代码。你可以自由地复制和使用这些代码来开始比赛。代码有 R 和 Python 两种版本。
讨论板
每个比赛都有一个讨论板,用于提问和对内核以及话题进行投票。
Slack
Kaggle 有一个 Slack 团队:KaggleNoobs slack channel。这里有将近 4000 名成员,还有一个 AMA(问我任何事)频道,他们定期采访 Kaggle 参与者和获胜者。
选择
-
你可以参加已经结束的比赛。请记住,这主要是关于学习,而不是最终结果。
-
有各种主题(随机森林、多分类、神经网络、自然语言处理)和数据集类型(图像、结构化数据、文本、大数据)
与他人合作
-
无论你是数据科学初学者还是有经验的从业者,都要与他人合作。
-
请注意,最好在 Kaggle 上拥有独立的团队,这样你们每个人可以最大化地每日提交结果,但在比赛快结束时可以合并团队。
我认为至少参加一次比赛是值得的。尝试过的事情和未尝试过的事情之间是有区别的。Kaggle 正在不断发展,尤其是在被 Google 收购后。请定期查看,了解最新动态。
虽然 Kaggle 是最知名的平台,但还有许多其他机会可以参加比赛:
-
许多大学分析部门都有年度比赛。
-
会议通常有比赛或所谓的“任务”。
-
私营公司赞助他们自己的比赛。
这是其他数据科学竞赛的示例列表。花点时间使用 Google 搜索会找到更多最新和活跃的机会。
Jeremy Howard 关于深度学习、Kaggle、数据科学等的采访,2017 年
我的 Kaggle 经验与争夺名额的退休,Marios Michailidis,2016 年
机器学习不是 Kaggle 比赛,Julia Evans, 2014
数据科学简史, 2013
简介: Reshama Shaikh 是一名自由数据科学家/统计学家,拥有 Python、R 和 SAS 技能,并取得了 MBA 学位。她在制药行业担任生物统计学家超过 10 年。她还是纽约机器学习与数据科学女性聚会小组以及 PyLadies 的组织者。她在拉格斯大学获得统计学硕士学位,并在纽约大学斯特恩商学院获得 MBA 学位。
原创。经许可转载。
相关: