Skip to content

Latest commit

 

History

History
51 lines (35 loc) · 2.17 KB

README.md

File metadata and controls

51 lines (35 loc) · 2.17 KB

Cluster Hadoop 3.3.1

O objetivo deste repositório é a configuração de um cluster pseudo-distribuído utilizando o Apache Hadoop para simulação e testes de algoritmos utilizando o framework MapReduce.

A arquitetura inicial do cluster possui um nó master e dois worker nodes. Se novos worker nodes forem adicionados, eles devem ser registrados no arquivo de configuração master/config/hadoop/slaves.

Build and Run

make build
docker-compose up

Parâmetros de execução de um job

Os parâmetros para execução do job devem ser especificados no arquivo submit-params.env.

INPUT_DFS - caminho para o diretório ou arquivo de entrada no HDFS (default /datasets)
OUTPUT_DFS - caminho para o diretório de saída no HDFS (default /output)
PATH_TO_JAR - caminho para o arquivo .jar 
CLASSNAME - nome da classe principal
PATH_DATASET - caminho para o diretório ou arquivo de entrada na máquina host

Submissão do job

make submit

Acesso as interfaces gráficas

Antes de acessar as páginas é necessário configurar o DNS local para utilizar os domínios master-node e worker-node-*. Essa etapa pode ser ignorada, no entanto os domínios devem ser substituídos pelos ips correspondentes nos links abaixo.

Configuração do cluster

Os arquivos de configuração do cluster estão na pasta base/config/hadoop/.