Skip to content

Latest commit

 

History

History
122 lines (70 loc) · 12.3 KB

README.md

File metadata and controls

122 lines (70 loc) · 12.3 KB

Text Mining - Pedidos de Acesso à Informação à Prefeitura de São Paulo em 2018

Introdução

Em 18 de novembro de 2011, foi sancionada a Lei nº 12.527 que regulamenta o direito constitucional de acesso à informações públicas aos cidadãos, com o objetivo de fortalecer a democracia brasileira e as políticas de transparência pública. A chamada Lei de Acesso à Informação (LAI), em linhas gerais diz que, com exceção de informações pessoais e sigilosas legalmente estabelecidas, toda informação produzida pelo estado é pública.

Os principais aspectos da LAI são:

  • Acesso é a regra, o sigilo, a exceção (divulgação máxima)
  • Requerente não precisa dizer por que e para que deseja a informação (não exigência de motivação)
  • Hipóteses de sigilo são limitadas e legalmente estabelecidas (limitação de exceções)
  • Fornecimento gratuito de informação, salvo custo de reprodução (gratuidade da informação)
  • Divulgação proativa de informações de interesse coletivo e geral (transparência ativa)
  • Criação de procedimentos e prazos que facilitam o acesso à informação (transparência passiva)

Fonte: http://www.acessoainformacao.gov.br/assuntos/conheca-seu-direito/principais-aspectos

Para garantir a transparência passiva, foi criado o Sistema Eletrônico do Serviço de Informações ao Cidadão (e-SIC), que permite qualquer pessoa, física ou jurídica, fazer pedidos de acesso à informação e acompanhar o tramite.

Objetivo

Este trabalho tem como objetivo realizar uma mineração de texto nos pedidos de acesso à informação realizados à prefeitura de São Paulo no ano de 2018 com o intuito de identificar as principais necessidades de informações da população no que diz respeito à educação, saúde e transportes visando fornecer insumo ao planejamento de melhora dos serviços públicos para os anos subsequentes e melhora da comunicação com o público.

Tratamento da Base e Análise Exploratória

A base que estamos analisando possui 35.689 registros com 8 colunas. Essa base foi obtida no portal de dados abertos da prefeitura de São Paulo no link abaixo:

http://dados.prefeitura.sp.gov.br/pt_PT/dataset/pedidos-de-informacao-protocolados-a-prefeitura-via-e-sic1

As colunas estão descritas na tabela abaixo:

Coluna Definição
cd_atendimento_pedido Código único para cada movimentação do pedido (a partir de 2018)
status_nome Nome do status do pedido (Ex: Atendido, finalizado, 2ª instância, etc.)
cd_orgao Código de identificação do órgão responsável pelo pedido
orgao_nome Nome do órgão responsável pelo pedido
cd_pedido Código do pedido (protocolo único de cada pedido)
dc_pedido Conteúdo do Pedido
dt_resposta_atendimento Data do pedido ou movimentação
dc_resposta Resposta do pedido

Após a leitura da base, tratamos a coluna dc_pedido, transformando-as para caracteres, em seguida dt_resposta_atendimento é reformatada, trocando-se “/” por “-“ para que se possa separa-la em 4 colunas: data, ano, mês e dia. Em seguida, a partir da coluna orgao_nome, cria-se uma nova coluna apenas com a sigla do órgão para facilitar as visualizações.

A partir deste ponto inicia-se a análise exploratória com uma contagem de pedidos únicos por órgão com status de início (Em Tramitação) e fim (Finalizado). Pode-se observar na figura 1 abaixo os órgãos que mais recebem pedidos de acesso à informação, sendo áreas como educação, saúde e transportes as principais. Por conta disso e pelo fato de existirem mais de 100 órgãos no dataframe, optou-se por analisar os órgãos SME, SMS e SPTrans.

Seguindo a análise, pode-se observar na figura 2 o comportamento dos pedidos durante o ano de 2018, alcançando um pico de pedidos no mês de Maio e um declínio a partir de Setembro até Dezembro.

Na figura 3, pode-se observar a evolução dos pedidos dia a dia no mês de Maio, que foi o mês com o maior número de pedidos como visto anteriormente. Nesse mês, observa-se que o aumento aconteceu no final, particularmente nos dias 26 e 30.

Pode-se observar na figura 4 o comportamento dos pedidos nos 3 órgão selecionados durante o ano de 2018. A SME e SMS aparentemente seguem a mesma lógica da figura 2 com picos por volta do meio do ano e declínio ao final, porém a SPTrans segue um padrão um pouco diferente, com pico em janeiro seguido de um declínio até maio.

Text Mining

Inicialmente , o campo dc_pedido contendo os pedidos de acesso à informação foi separado em tokens e retirada as stop words da língua portuguesa, porém notou-se algumas palavras que não adicionavam significância à análise, logo foram retiradas também junto das stop words.

Após o processo de tokenização e remoção de stop words, gerou-se um ranking top 30 de palavras mais utilizadas nos pedidos. É possível notar que as palavras se relacionam com pedidos de dados sobre servidores, servidores comissionados, dados da cidade e região e citação de lei possivelmente para embasar alguma solicitação.

Na figura 7 podem-se observar as palavras de forma mais clara da sua importância.

Partindo-se para uma análise mais aprofundada dos órgãos selecionados, fez-se um top 10 de palavras mais utilizadas. Na educação, observa-se um interesse sobre números e dados de ensino nas escolas, já na saúde há um interesse em unidades básicas de saúde, enquanto que nos transportes aparentemente deseja-se saber sobre ônibus e passageiros. Com a superficialidade dessa análise, optou-se por partir para um estudo de bigramas, trigramas e TF-IDF com o intuito de aprofundar e pesquisa e retirar insights sobre o que a população está interessada em saber do estado.

Analisando a figura 9, já é possível observar alguns tópicos surgindo, principalmente no órgão SPTrans onde identificamos 3 bigramas associados diretamente com abusos sexuais e 1 sobre bilhete único. Já na SME nota-se interesse em educação infantil e fundamental, enquanto que na SMS não surgiu nenhum tópico além do comentado anteriormente.

Fazendo-se uma análise TF-IDF dos bigramas, puderam-se corroborar os assuntos citados no parágrafo anterior para o SPTrans e SME, enquanto que na SMS, já surgem alguns temas que aparentemente são de interesse da população, como NTCSSS (Núcleo Técnico de Contratação de Serviço de Saúde) e contratos.

Partindo-se para a análise de trigramas, além dos temas já citados anteriormente, na SME aparecem dúvidas sobre servidores comissionados e como proceder ou recorrer sobre algo. Na SPTrans, o tema de abusos sexuais aprece fortemente como o principal novamente, porém já se nota citações sobre servidores comissionados, zonas e tempo indicado em meses. Na SMS surgiu um tópico sobre dados abertos nos trigramas “dados abertos atenciosamente” e “abertos atenciosamente rede”, indicando a causa de citações a formatos de dados como csv, planilha e xlx.

A análise TF-IDF de trigramas reforça todas as análises feitas anteriores, adicionando o tema de fraudes à SPTrans.

Topic Modelling

A técnica de Topic Modelling é similar a uma Análise de Cluster, onde ele aplica o algoritmo LDA (Latent Dirichlet Allocation) para estimar em qual tópico uma palavra tem a maior chance de ser classificada, lembrando que a mesma palavra pode aparecer em vários tópicos. Neste estudo, optou-se por aplicar a técnica no órgão SPTrans pois foi o que demonstrou maior potencial de se obter resultados significativos, levando-se em consideração todas as análises anteriores.

Inicialmente filtrou-se apenas o órgão desejado para então aplicar o LDA para 2, 3, 4 e 5 tópicos e notou-se que, para 2 tópicos havia uma sobreposição de assuntos, enquanto que para 4 e 5 os assunto começavam a se repetir ou não se podia identificar. Por conta disso chegou-se à conclusão que existem 3 temas principais nos pedidos de acesso à informação no órgão SPTrans:

  1. O tópico 1 estaria relacionado à bilhetes únicos devido a palavras como bilhete, bilhetes, único, sistema;
  2. O tópico 2 estaria relacionado à linhas de ônibus devido a palavras como ônibus, linha, linhas, empresa, terminal;
  3. O tópico 3 estaria relacionado à abusos sexuais devido a palavras como quantos, abusos, cometidos, casos, sexuais, número;

Nas figuras 14, 15 e 16 pode-se observar os termos com maior diferença entre os betas de cada tópico.

Conclusão

Este trabalho discutiu e implementou técnicas de text mining aplicada à geração de insights na transparência passiva visando a melhora dos serviços públicos e da comunicação com a população. A partir destes resultados, a prefeitura de São Paulo pode pensar em estratégias para melhorar o site do bilhete único, elaborar novas campanhas contra o abuso sexual, passar para a transparência ativa o acesso a contratos caso ainda não esteja, por exemplo.

A análise apresentada mostrou que para a SME nota-se interesse em educação infantil e fundamental, servidores comissionados e como proceder ou recorrer sobre algo. Já na saúde, encontrou-se menções à NTCSSS (Núcleo Técnico de Contratação de Serviço de Saúde), contratos e dados abertos. Na SPTrans aplicou-se a técnica de topic modelling e se encontrou 3 temas principais: abusos sexuais, bilhetes únicos e linhas de ônibus.

Como trabalhos futuros, pretende-se investigar os principais temas nos pedidos dos demais órgãos, além de aprofundar a análise nos órgãos estudados no trabalho.