Skip to content

Latest commit

 

History

History
58 lines (30 loc) · 3.2 KB

README.md

File metadata and controls

58 lines (30 loc) · 3.2 KB

Processo de ETL

Atualizando dados com API de geocodificação

Desafio de Projeto - (Avançado)

O desafio pedia para reimaginar um processo de ETL, não era obrigatório utilização de APIs externas, porém neste projeto foi necessário para obter os endereços e coordenadas dos hospitais.

🏥🚑 UDMES e Hospitais de Referência - SESPA

Os dados estão disponíveis no site da Secretaria de Estado da Saúde do Pará (SESPA). A planilha foi editada para conter apenas os dados relevantes para o estudo, então atributos como telefone do local e e-mails do responsável foram retirados. Assim, a planilha utilizada para o projeto contêm o munincípio, o nome do estabelecimento e o CEP.

❗ O motivo de utilizar a API para geolocalização provém do motivo que apesar de existir bibliotecas como geopy, pycep e pycep-correios, essas possuíam contras:

  • Não continham boa precisão;
  • Apenas 5% dos CEPs fornecidos eram reconhecidos;
  • Não ofereciam valores das coordenadas.

✔ Dessa forma, optou-se por usar a Brasil API como solução. Propriamente a Versão 2 de CEP pois retorna as coordenadas. Apesar dela ter maior precisão que as bibliotecas é informado que a geolocalização dos CEPs estão suscetíveis a erros, pois as coordenadas são provindas do OpenStreetMap, então caso o CEP não esteja no banco de dados não irá retornar nada.

A OSM é bem precisa e possui armazenamento provindo de diversos serviços como correios, viacep, midway, entre outros. Então para ter boa precisão e ser gratuito, utilizou-se o Brasil API.

📑 Para finalizar, os novos atributos obtidos serão: endereço completo e as coordenadas. Esses serão adicionados ao dataframe e será elaborada uma nova planilha, agora com as informações do Munincípio, Nome do Estabelecimento, CEP, Endereço Completo e as Coordenadas (Longitude e Latitude).



🔎 Planilha utilizada em formato CSV

🧱 Relatório .pbix

💻 Código realizado em Jupyter para esse desafio.

Resultado

Utilizando como ferramenta de visualização de dados o Microsoft Power BI, ao visualizar no mapa os pontos percebe-se que há uma concentração de unidades em Belém, porém uma falta de apoio no noroeste e sudoeste do Pará. A maioria das zonas e regiões onde têm unidades e hospitais ficam próximas de rios e afluentes. A região noroeste e sudoeste do Pará é onde ficam as terras indígenas, reservas e áreas de proteção.

Figura 1 - Relatório dos pontos de Hospitais e UDMES de referência no Pará


Figura 2 - Selecionando o Município apenas de Belém