Skip to content

Configuração de um cluster Hadoop pseudo-distribuído utilizando docker

Notifications You must be signed in to change notification settings

rviniciussouza/docker-hadoop

Repository files navigation

Cluster Hadoop 3.3.1

O objetivo deste repositório é a configuração de um cluster pseudo-distribuído utilizando o Apache Hadoop para simulação e testes de algoritmos utilizando o framework MapReduce.

A arquitetura inicial do cluster possui um nó master e dois worker nodes. Se novos worker nodes forem adicionados, eles devem ser registrados no arquivo de configuração master/config/hadoop/slaves.

Build and Run

make build
docker-compose up

Parâmetros de execução de um job

Os parâmetros para execução do job devem ser especificados no arquivo submit-params.env.

INPUT_DFS - caminho para o diretório ou arquivo de entrada no HDFS (default /datasets)
OUTPUT_DFS - caminho para o diretório de saída no HDFS (default /output)
PATH_TO_JAR - caminho para o arquivo .jar 
CLASSNAME - nome da classe principal
PATH_DATASET - caminho para o diretório ou arquivo de entrada na máquina host

Submissão do job

make submit

Acesso as interfaces gráficas

Antes de acessar as páginas é necessário configurar o DNS local para utilizar os domínios master-node e worker-node-*. Essa etapa pode ser ignorada, no entanto os domínios devem ser substituídos pelos ips correspondentes nos links abaixo.

Configuração do cluster

Os arquivos de configuração do cluster estão na pasta base/config/hadoop/.

About

Configuração de um cluster Hadoop pseudo-distribuído utilizando docker

Topics

Resources

Stars

Watchers

Forks