Este repositorio contiene recursos y materiales que me ayudaran para convertirme en un ingeniero de datos.
- SQL
- Bases de datos relacionales (MySQL, PostgreSQL, etc.)
- Bases de datos NoSQL (MongoDB, Cassandra, etc.)
- Python
- Java
- Scala
- ETL (Extract, Transform, Load)
- Apache Spark
- Apache Flink
- Ecosistema Hadoop (HDFS, MapReduce, Hive)
- Tecnologías de procesamiento en tiempo real (Apache Kafka, Apache Storm)
- Almacenamiento en la nube (Amazon S3, Google Cloud Storage, Azure Blob Storage)
- Almacenamiento de datos distribuido (HDFS, Apache HBase)
- Arquitecturas de datos (Data Warehouses, Data Lakes, etc.)
- Escalabilidad y rendimiento
- Seguridad de datos
- Cumplimiento normativo (GDPR, CCPA)
- Análisis de datos
- Visualización de datos
- Git
- Docker
- Apache Airflow
- Talend
- Tableau
- Power BI
- Looker
- Metabase
- Superset
Dentro del repositorio encontrarás varios proyectos los cuales uso para este aprendizaje
para instalarlos sigue los siguientes pasos:
- Instalación de dependencias:
Para instalar las dependencias de este proyecto desde el archivo requirements.txt
, sigue estos pasos:
- Crear un entorno virtual (opcional pero recomendado):
python -m venv venv
- Activar el entorno virtual:
# En Windows
venv\Scripts\activate
# En macOS y Linux
source venv/bin/activate
- Instalar las dependencias:
pip install -r requirements.txt
El proyecto utiliza Python y varias bibliotecas como pandas, matplotlib y pymysql para analizar datos de ventas de la tienda, realizar visualizaciones y generar informes sobre el rendimiento de ventas.
El script principal del proyecto es tienda.py, que se encarga de cargar datos desde una base de datos MariaDB, realizar el análisis de datos y generar visualizaciones. Además, se proporcionan archivos como .env.example para la configuración de la base de datos.
¡Las contribuciones son bienvenidas! Si tienes algún recurso, tutorial, libro o proyecto que creas que sería útil, no dudes en abrir un pull request para agregarlo al repositorio.