Skip to content

Latest commit

 

History

History
136 lines (65 loc) · 5.85 KB

README.md

File metadata and controls

136 lines (65 loc) · 5.85 KB

PDS - Pipelines e Sistemas Streaming

Repositório contendo atividades da disciplina Pipelines de Dados, CI/CD e Streaming

1. Atividade I

Para concluir essa atividade, você deverá realizar os seguintes passos, levando em consideração que para cada atividade, você poderá optar por incluir cada ponto em commits separados, ou criar branches específicas.

O arquivo em PDF contém os enunciados da atividade, e abaixo está pontuado conforme cada enunciado.

Os materiais complementares abaixo são para dar uma guiada em sua busca, demais dúvidas podem ser direcionadas no grupo de dúvidas do WhatsApp :)

1.1 - Clonar repositório

Faça o clone (ou fork) do presente repositório. Todas as modificações efetuadas das seguintes atividades deverão ocorrer em branches que não a main/master.

A forma de avaliação desse item será dada de acordo com o fork realizado. Sem fork, sem avaliação :O

1.2 - Criar diretório IaC

Será preciso criar um diretório IaC contendo os manifestos Terraform.

Para cada provedor de numem pública, existem maneiras de conectar o Terraform com as credenciais necessárias. Consulte documentação do provedor e siga as orientações.

1.3 - Criar diretório docs

Nesse diretório você deverá documentar sua solução, contendo diagramas indicando da arquitetura arquitetura na nuvem do seu provedor escolhido.

Crie também um arquivo README.md igual esse resumindo sua jornada no desenvolvimento da arquitetura.

1.4 - Criar diretório .github/workflows

Nesse diretório você deve incluir os workflows necessários para seu fluxo CI/CD, aos quais serão executados pelo Github Actions.

Consulte Como criar workflows CI/CD no Github Actions para ter um melhor entendimento.

1. Atividade II

Referências e materiais complementares

O conceito de Pipeline de Dados, na sua forma atual, é uma extensão de ETL, recebendo algumas características "próprias". Os materiais a seguir dão uma visão introdutória, mas também dos componentes de um pipeline de dados.

Pipeline de Dados - I

Pipeline de Dados - II

Pipeline de Dados - III

Pipeline de Dados - IV

Pipeline de Dados - V

Pipeline de Dados - VI

Referências da Atividade Final

Cada item da atividade final possui métodos específicos e formas de se realizar. Algumas dessas Referências irão te ajudar a estruturar sua solução final \o/

1 - ETL Architecture

ETL Architecture - I

ETL Architecture - II

ETL Architecture - III

ETL Architecture - IV

ETL Architecture - V

2.1 - Batch Architecture

Batch Architecture - I

Batch Architecture - II

Batch Architecture - III

Batch Architecture - IV

Batch Architecture - V

2.2 - Micro-Batch Architecture

Micro-Batch Architecture - I

Micro-Batch Architecture - II

Micro-Batch Architecture - III

Micro-Batch Architecture - IV

3 - Lambda & Kappa Architecture

Lambda Architecture - I

Lambda Architecture - II

Lambda Architecture - III

Lambda Architecture - IV

Lambda Architecture - V

Kappa Architecture - I

Kappa Architecture - II

Kappa Architecture - III

Kappa Architecture - IV

Kappa Architecture - V

Livros

Nathan Marz, James Warren - Big Data

Joe Reis, Matt Housley - Fundamentals of Data Engineering: Plan and Build Robust Data Systems

Martin Kleppmann - Designing Data-Intensive Applications

Tyler Akidau, Slava Chernyak, Reuven Lax - Streaming Systems

James Densmore - Data Pipelines Pocket Reference