Proyecto conjunto Datalab - IDEC para analizar el contenido mediatico en mexico en el contexto de las elecciones 2018.
El repositorio consiste de dos partes:
1- Un pipeline en R para el preprocesamiento de texto que incluye: remover caracteres no deseados (puntuación, mayúsculas, etc.), remover stopwords, hacer stemming.
2- Un jupyter notebook en Python en donde se analizarán los encabezados utilizando k-means clustering y LDA topic modelling.
Análisis de contenido político en medios de comunicación en México mediante técnicas de NLP
Ellos nos informan, pero ¿quién nos informa sobre ellos?