Skip to content

Latest commit

 

History

History
106 lines (65 loc) · 2.68 KB

README.md

File metadata and controls

106 lines (65 loc) · 2.68 KB

Aprendizaje para ser un Ingeniero de Datos 🛠️

Este repositorio contiene recursos y materiales que me ayudaran para convertirme en un ingeniero de datos.

Lista de temas y habilidades que debo aprender 📚

Bases de datos 🗃️

  • SQL
  • Bases de datos relacionales (MySQL, PostgreSQL, etc.)
  • Bases de datos NoSQL (MongoDB, Cassandra, etc.)

Programación 💻

  • Python
  • Java
  • Scala

Procesamiento de datos 🔄

  • ETL (Extract, Transform, Load)
  • Apache Spark
  • Apache Flink

Big Data 🌐

  • Ecosistema Hadoop (HDFS, MapReduce, Hive)
  • Tecnologías de procesamiento en tiempo real (Apache Kafka, Apache Storm)

Almacenamiento de datos 🗄️

  • Almacenamiento en la nube (Amazon S3, Google Cloud Storage, Azure Blob Storage)
  • Almacenamiento de datos distribuido (HDFS, Apache HBase)

Diseño de sistemas 🏗️

  • Arquitecturas de datos (Data Warehouses, Data Lakes, etc.)
  • Escalabilidad y rendimiento

Seguridad y cumplimiento normativo 🔒

  • Seguridad de datos
  • Cumplimiento normativo (GDPR, CCPA)

Habilidades adicionales 🎨

  • Análisis de datos
  • Visualización de datos

Herramientas y tecnologías 🛠️

  • Git
  • Docker
  • Apache Airflow
  • Talend
  • Tableau
  • Power BI
  • Looker
  • Metabase
  • Superset

Proyectos en el reositorio 📂

Dentro del repositorio encontrarás varios proyectos los cuales uso para este aprendizaje

para instalarlos sigue los siguientes pasos:

  • Instalación de dependencias:

Para instalar las dependencias de este proyecto desde el archivo requirements.txt, sigue estos pasos:

  1. Crear un entorno virtual (opcional pero recomendado):
python -m venv venv
  1. Activar el entorno virtual:
# En Windows

venv\Scripts\activate

# En macOS y Linux

source venv/bin/activate
  1. Instalar las dependencias:
pip install -r requirements.txt

Proyecto 1: Análisis de datos de ventas de una tienda 📊

El proyecto utiliza Python y varias bibliotecas como pandas, matplotlib y pymysql para analizar datos de ventas de la tienda, realizar visualizaciones y generar informes sobre el rendimiento de ventas.

El script principal del proyecto es tienda.py, que se encarga de cargar datos desde una base de datos MariaDB, realizar el análisis de datos y generar visualizaciones. Además, se proporcionan archivos como .env.example para la configuración de la base de datos.

Contribución 🤝

¡Las contribuciones son bienvenidas! Si tienes algún recurso, tutorial, libro o proyecto que creas que sería útil, no dudes en abrir un pull request para agregarlo al repositorio.