Skip to content

Data platform to build batch and real-time ETL flows using only open source technologies.

Notifications You must be signed in to change notification settings

jasondavindev/open-dataplatform

Folders and files

NameName
Last commit message
Last commit date

Latest commit

d3e8051 · Nov 25, 2021
Nov 25, 2021
Jun 15, 2021
Nov 12, 2021
Nov 25, 2021
Sep 28, 2021
Sep 3, 2021
Nov 25, 2021
Oct 27, 2021
Apr 29, 2021
May 24, 2021
Oct 7, 2021
Sep 23, 2021
Nov 25, 2021

Repository files navigation

Open Data Platform

Problema

  • Não há ferramentas open source no mercado que provê plataformas de dados de ponta-a-ponta
  • Há diversas ferramentas no mercado com propósitos específicos em cada área da engenharia de dados
  • As ferramentas existentes não permitem a personalização e
  • Integram apenas com ferramentas dos próprios provedores

Motivação

  • Plataforma de dados centralizada
  • Solução com tecnologias open-source
  • Liberdade de personalização de ferramentas

Solução

Criar uma plataforma de dados centralizada utilizando ferramentas open-source, capaz de prover a criação de pipelines ETL em batch e em tempo real e também ferramentas para análise dos dados armazenados no Data Lake.

Arquitetura

Initial archtecture

Como executar este projeto

Primeiramente construa todas imagens docker, executando

./build_images.sh

Suba todos os containers

docker-compose -f docker-compose.yml -f kafka/docker-compose.yml -f ingestion/docker-compose.yml up