OBJETIVOS: Realizar operações básicas em DataFrame.
✔️WORKFLOW:
Etapa | Descrição |
---|---|
Carregar Dados Brutos | Importar dados de um arquivo CSV (clientes_raw.csv) para staging area (sgt_clientes). |
Transformar Dados | Limpar, validar ou e enriquecer os dados conforme necessário usando a API do Spark. |
Salvar Dados | Armazenar os dados transformados em uma Delta Table (delta_clientes). |
✔️PROJETO
Vamos fazer upload de arquivo em csv para Databricks File System (DBFS), converter os dados brutos em delta format. Realizar tranformações utilizando operações básicas do SPARK e salvar na staging area. Carregar os dados limpos e transformados na camada final para análise, relatório ou ingestão em database.
✔️ARQUITETURA E NOMENCLATURA
✔️ARQUIVOS DA TAREFA:
FERRAMENTAS:
REFERÊNCIAS:
📌DeltaLake -Modern Data Lakehouse Architectures with Delta Lake
📌5-hours-understanding-more-about-the-delta-lake-table