Skip to content

Latest commit

 

History

History
195 lines (104 loc) · 9.76 KB

to-kaggle-or-not.md

File metadata and controls

195 lines (104 loc) · 9.76 KB

参加 Kaggle 还是不参加

原文:www.kdnuggets.com/2018/05/to-kaggle-or-not.html

c 评论

关于 Kaggle

Kaggle 是最著名的预测建模和分析比赛平台。该公司成立于 2010 年,总部位于澳大利亚墨尔本,一年后在获得来自硅谷的资金后迁至旧金山。2017 年,它被谷歌收购。阅读更多关于其历史和未来的信息,请查看 与 Kaggle CEO Anthony Goldbloom 的采访

在过去的十年里,“数据科学”这个词逐渐浮现在英语词汇中。因此,“数据科学”和“Kaggle”这两个词变得密不可分,数据科学社区的许多人对这个平台的实用性进行思考和讨论:


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你所在的组织在 IT 方面


Kaggle… 有用吗?

我对 Kaggle 的初步想法

像许多人一样,我对 Kaggle 比赛有一些先入为主的看法。我听说过它们很多年了,这些是我从领域中的其他人那里得到的看法或意见:

  • 我听说过一个传说,退休的博士生和拥有几十年经验的人是赢得 Kaggle 比赛的赢家。(我常常想,这些天才是坐在清澈湛蓝的海水和无瑕疵的 WiFi 连接的海滩上,还是在一个黑暗、尘土飞扬、杂乱无章的办公室里……)

  • 我几乎没有获胜的机会

  • 我真的会学到有价值的东西吗?

  • 投资时间提高 0.01 分的准确率有什么意义?

  • 这真的最有效地利用了我的时间吗?我是否不应该投资时间去学习另一个更有价值的数据科学技能?

  • 胜利者必须使用复杂的集成方法

  • 数据是人为清理的,这不现实

  • 参加一次 Kaggle 比赛不会让我成为合格的数据科学家,那我为何要费心?

  • 我不知道从哪里开始…

我的第一次 Kaggle 比赛

在多年的抗拒之后,我最近参加了第一次 Kaggle 比赛,这是船还是冰山。我写了一篇关于我的经历的文章 我的第一次 Kaggle 比赛

Kaggle 竞赛和纽约马拉松

我发现 Kaggle 竞赛很像纽约马拉松。大多数人参加是为了过程,而不是为了赢得第一名。

结论:对 Kaggle 说“是”

我会说“是的”,参与 Kaggle 竞赛是有价值的,无论是对初学者还是有经验的数据科学家。以下是很多原因。

基准测试

虽然获取自己的数据集或抓取网络有学习上的好处,但缺点是没有基准,无法比较你的发现。可能会出现重大错误,而且没有人知道,因为没有进行验证。Kaggle 竞赛提供了一个“检查工作”的平台。

适合所有级别的学习

对于初学者,有很多内容需要学习:

  • 熟悉 Kaggle 平台

  • 使用 Kaggle CLIAPI 下载数据

  • 结构化的生态系统允许统计技能较少的人专注于此

  • 理解评估指标

  • 使用 devops 技能:Git,云计算

  • 练习

  • Kaggle 提供一些免费的互动 教程

对于有经验的从业者,总是有更多的学习内容:

  • 结构化的生态系统允许统计技能更高级的人专注于此

  • 更深入地探索超参数

  • 专注于前沿和新兴的方法

  • 竞赛后分析获胜条目

  • 管理非常大的数据集(100 万条记录或更多)

  • 为深度学习设置支持 GPU 的机器

  • 使用深度学习并与传统算法比较结果

数据

在整个数据科学社区中,你会听到关于数据集的引用。你将会熟悉其他学习平台和会议发言者提到的流行数据集。

尽管数据集是提供的,但仍然需要理解数据和评估指标。与普遍看法相反,仍然存在“脏数据”需要进一步调查。深入挖掘被误分类的项目会导致算法的调整。

作品集部分

的确,做一次 Kaggle 竞赛并不能使你成为数据科学家。参加一节课程、一次会议教程、分析一个数据集或阅读一本数据科学书籍也不能。参与竞赛增加了你的经验并增强了你的作品集。这是你其他项目的补充,而不是衡量数据科学技能的唯一标准。

乐趣

人们常常不确定是否应该追求数据科学的职业。参加比赛是一种有效的方式来评估你的能力和兴趣。如果你真的喜欢 Kaggle 的过程,它会更清楚地指引你正确的方向。如果你更愿意花时间做其他事情,那也没关系;这是找到答案的一种方式。

开始使用 Kaggle

初学者指南

这篇文章提供了关于 Kaggle 的详细信息以及开始使用的技巧:Kaggle 初学者指南

内核

这里有内核,即其他人共享的 Jupyter Notebook 代码。你可以自由地复制和使用这些代码来开始比赛。代码有 R 和 Python 两种版本。

讨论板

每个比赛都有一个讨论板,用于提问和对内核以及话题进行投票。

Slack

Kaggle 有一个 Slack 团队:KaggleNoobs slack channel。这里有将近 4000 名成员,还有一个 AMA(问我任何事)频道,他们定期采访 Kaggle 参与者和获胜者。

选择

  • 你可以参加已经结束的比赛。请记住,这主要是关于学习,而不是最终结果。

  • 有各种主题(随机森林、多分类、神经网络、自然语言处理)和数据集类型(图像、结构化数据、文本、大数据)

与他人合作

  • 无论你是数据科学初学者还是有经验的从业者,都要与他人合作。

  • 请注意,最好在 Kaggle 上拥有独立的团队,这样你们每个人可以最大化地每日提交结果,但在比赛快结束时可以合并团队。

结论

我认为至少参加一次比赛是值得的。尝试过的事情和未尝试过的事情之间是有区别的。Kaggle 正在不断发展,尤其是在被 Google 收购后。请定期查看,了解最新动态。

不一定非得是 Kaggle

虽然 Kaggle 是最知名的平台,但还有许多其他机会可以参加比赛:

  • 许多大学分析部门都有年度比赛。

  • 会议通常有比赛或所谓的“任务”。

  • 私营公司赞助他们自己的比赛。

这是其他数据科学竞赛的示例列表。花点时间使用 Google 搜索会找到更多最新和活跃的机会。

参考文献

Jeremy Howard 关于深度学习、Kaggle、数据科学等的采访,2017 年

我的 Kaggle 经验与争夺名额的退休,Marios Michailidis,2016 年

机器学习不是 Kaggle 比赛,Julia Evans, 2014

数据科学简史, 2013

简介: Reshama Shaikh 是一名自由数据科学家/统计学家,拥有 Python、R 和 SAS 技能,并取得了 MBA 学位。她在制药行业担任生物统计学家超过 10 年。她还是纽约机器学习与数据科学女性聚会小组以及 PyLadies 的组织者。她在拉格斯大学获得统计学硕士学位,并在纽约大学斯特恩商学院获得 MBA 学位。

原创。经许可转载。

相关:

更多相关内容