Skip to content

Desafio de Código: construir um pipeline ETL (Extração, Transformação e Carregamento). Usando a Brasil API para geolocalização e os dados sobre UDMES e Hospitais disponibilizados pela Secretaria de Estado da Saúde do Pará (SESPA)

Notifications You must be signed in to change notification settings

limasfernanda/APIGeocode

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Processo de ETL

Atualizando dados com API de geocodificação

Desafio de Projeto - (Avançado)

O desafio pedia para reimaginar um processo de ETL, não era obrigatório utilização de APIs externas, porém neste projeto foi necessário para obter os endereços e coordenadas dos hospitais.

🏥🚑 UDMES e Hospitais de Referência - SESPA

Os dados estão disponíveis no site da Secretaria de Estado da Saúde do Pará (SESPA). A planilha foi editada para conter apenas os dados relevantes para o estudo, então atributos como telefone do local e e-mails do responsável foram retirados. Assim, a planilha utilizada para o projeto contêm o munincípio, o nome do estabelecimento e o CEP.

❗ O motivo de utilizar a API para geolocalização provém do motivo que apesar de existir bibliotecas como geopy, pycep e pycep-correios, essas possuíam contras:

  • Não continham boa precisão;
  • Apenas 5% dos CEPs fornecidos eram reconhecidos;
  • Não ofereciam valores das coordenadas.

✔ Dessa forma, optou-se por usar a Brasil API como solução. Propriamente a Versão 2 de CEP pois retorna as coordenadas. Apesar dela ter maior precisão que as bibliotecas é informado que a geolocalização dos CEPs estão suscetíveis a erros, pois as coordenadas são provindas do OpenStreetMap, então caso o CEP não esteja no banco de dados não irá retornar nada.

A OSM é bem precisa e possui armazenamento provindo de diversos serviços como correios, viacep, midway, entre outros. Então para ter boa precisão e ser gratuito, utilizou-se o Brasil API.

📑 Para finalizar, os novos atributos obtidos serão: endereço completo e as coordenadas. Esses serão adicionados ao dataframe e será elaborada uma nova planilha, agora com as informações do Munincípio, Nome do Estabelecimento, CEP, Endereço Completo e as Coordenadas (Longitude e Latitude).



🔎 Planilha utilizada em formato CSV

🧱 Relatório .pbix

💻 Código realizado em Jupyter para esse desafio.

Resultado

Utilizando como ferramenta de visualização de dados o Microsoft Power BI, ao visualizar no mapa os pontos percebe-se que há uma concentração de unidades em Belém, porém uma falta de apoio no noroeste e sudoeste do Pará. A maioria das zonas e regiões onde têm unidades e hospitais ficam próximas de rios e afluentes. A região noroeste e sudoeste do Pará é onde ficam as terras indígenas, reservas e áreas de proteção.

Figura 1 - Relatório dos pontos de Hospitais e UDMES de referência no Pará


Figura 2 - Selecionando o Município apenas de Belém

About

Desafio de Código: construir um pipeline ETL (Extração, Transformação e Carregamento). Usando a Brasil API para geolocalização e os dados sobre UDMES e Hospitais disponibilizados pela Secretaria de Estado da Saúde do Pará (SESPA)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published