Skip to content

Latest commit

 

History

History
129 lines (65 loc) · 7.36 KB

etl-machine-learning.md

File metadata and controls

129 lines (65 loc) · 7.36 KB

ETL 与机器学习有什么关系?

原文:www.kdnuggets.com/2022/08/etl-machine-learning.html

ETL 与机器学习有什么关系?

托比亚斯·费舍尔 通过 Unsplash

你可能在阅读博客或观看 YouTube 视频时听到过 ETL。那么 ETL 与机器学习有什么关系呢?


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


对于那些还不知道的人,机器学习是一种利用数据分析来预测准确结果的人工智能类型。正是机器学习算法通过学习历史数据及其特征来产生这些预测结果。

ETL 代表提取-转换-加载。它是将数据从多个来源移动到一个集中式单一数据库的过程。

提取:

你的第一步是从其原始来源提取数据。这可以位于另一个数据库或应用程序中。

转换:

就像处理数据和机器学习算法时的大多数时间一样——有一个清理数据的阶段。在转换阶段,你将清理数据,查找和纠正任何重复项,并准备将其加载到另一个数据库中。

加载:

一旦你的数据格式正确,它就可以被加载到目标数据库中。

为什么 ETL 很重要?

ETL 阶段的每一部分都很重要,以准确地交付最终产品。它带给机器学习的好处是帮助提取数据、清理数据并将其从点 A 传送到点 B。

然而,它不仅仅是这样。

大多数公司拥有大量数据,但这些数据往往是孤立的。这意味着它们格式不同、不一致,并且与业务的其他方面沟通不畅。基本上是没用的。

我们都知道在这个时代数据可以做什么——它创造了什么、解决了什么问题,以及它如何能造福我们的未来。那么为什么还要让它无所作为呢?

当你将不同的数据集汇集到一个集中式的存储库中时,它提供了:

  • 上下文 - 组织拥有更多的历史数据以提供背景

  • 可解释的 - 有了更多的数据,我们可以通过分析和报告获得更综合的视图,从而做出更好的解释。

  • 生产力 - 它消除了繁重的编码过程,节省了时间和金钱,提高了生产力。

  • 准确性 - 上述所有点都提高了数据及其输出的整体准确性,这对于遵守法规和标准可能至关重要。

这些阶段使机器学习算法的工作流程顺畅,并产生我们可以信赖的准确输出。

但为什么不使用云计算?

是的,我们生成和收集了大量数据,增长速度如此之快,以至于我们无法在传统的数据仓库基础设施中物理存储所有数据。这就是云计算使我们受益的地方。

云计算不仅使我们能够存储大量数据,还帮助我们进行高速分析。自从云计算进入市场以来,企业能够扩展规模并继续创新。

但无论数据是通过传统的数据仓库还是云存储,数据仍然需要存储在中央存储库中。ETL 的目的是准备数据,使其以最合适的格式用于机器学习。如果不通过 ETL 准备数据,那么数据在数据仓库中保持原始格式或只是存在于云中没有区别。

ETL 与机器学习

为了使机器学习算法可信赖并表现良好,它需要大量的训练数据。这些训练数据需要具有良好的质量,并具有可以帮助解决当前任务的特征和特性。

在制作有效的机器学习算法过程中,ETL 位于基础 - 基石。让我们深入了解 ETL 对机器学习的重要性。

数据收集

一旦你收集了数据,无论是通过外部来源、用户生成内容、传感器等,下一步就是移动和存储这些数据。这时 ETL 发挥了作用,还有其他步骤,如基础设施、管道、结构和非结构化数据存储。

数据准备

一旦数据被移动并存储在正确的位置,下一步就是探索数据并在必要时对其进行转换。数据的转换也称为数据的准备,包括清洗和错误检测。

数据标记

一旦数据准备好并且格式良好 - 我们就可以继续对数据进行标记,以便输入到机器学习算法中。这将作为训练数据,我们将在其中学习更多关于数据点的特征,并进行分析以获得更好的理解。

学习数据

这就是机器学习发挥作用的地方。通过标记的数据,我们可以将其输入到机器学习算法中,以便它们能更好地学习每个数据点的特征及其之间的关系。在这一阶段,会进行大量实验和 A/B 测试,以了解数据的局限性及其性能。

如你所见,ETL 是机器学习算法过程中的第一步之一——这就是为什么我称其为基础。如果你忽略了 ETL,你会发现自己不得不来回纠正数据中的错误和问题,这将导致机器学习算法中的输出不准确。

ETL 与 ELT

你可能也听说过 ELT,它与 ETL 类似但阶段不同——提取-加载-转换。虽然它们使用相同的术语,但它们是不同的。

ETL 在一个独立的处理服务器上转换数据,因此原始数据不会被转移到数据仓库。将数据转换到一个独立的处理服务器的过程使数据的摄取速度变慢。

然而,ELT 将原始数据转移到数据仓库中,并在那里进行数据转换。由于 ELT 不使用独立的处理服务器,数据摄取的速度更快。

如果你想了解更多关于 ETL 和 ELT 之间的区别,请点击这个链接。

结论

ETL 在各种数据管理任务、大数据、Hadoop 等方面被有效使用。在考虑 ETL 时,你需要考虑:

  • 你需要提取哪些数据源?

  • 你需要对这些数据进行什么样的转换?

  • 你计划将数据加载到哪里?

这是关于 ETL 与机器学习的概述,我希望我回答了你的问题。

Nisha Arya 是一名数据科学家和自由技术写作人。她特别关注提供数据科学职业建议或教程以及围绕数据科学的理论知识。她还希望探索人工智能如何有助于人类寿命的延续。她是一位热衷学习者,寻求拓宽技术知识和写作技能,同时帮助指导他人。

更多相关话题