Este proyecto documenta un análisis exploratorio de datos (EDA) sobre las ofertas laborales del sector de datos en España. El trabajo cubre todas las fases del pipeline: recogida de datos desde múltiples fuentes, limpieza y normalización, análisis exploratorio, visualizaciones interactivas y detección de sesgos.Documentation Index
Fetch the complete documentation index at: https://mintlify.com/Gema-Villanueva/proyecto-eda-roles-datos/llms.txt
Use this file to discover all available pages before exploring further.
Introducción
Conoce el contexto del proyecto, las fuentes de datos y los objetivos del análisis.
Quickstart
Configura el entorno, instala las dependencias y ejecuta tu primer notebook en minutos.
Notebooks
Guía completa de los cinco notebooks: desde la recogida de datos hasta el análisis de sesgos.
Resultados Clave
Descubre los principales hallazgos sobre roles, salarios, tecnologías y mercado laboral.
¿Qué contiene este proyecto?
El análisis se estructura en cinco notebooks Jupyter que forman un pipeline reproducible de principio a fin:Recogida de datos
Se evaluaron múltiples portales de empleo y se seleccionó la API pública de Adzuna como fuente complementaria a los datasets estáticos del bootcamp (TecnoEmpleo y Stack Overflow 2025).
Limpieza y preparación
Tres datasets heterogéneos se normalizan, se unifican bajo un esquema común en inglés y snake_case, y se generan archivos limpios listos para el análisis.
Análisis exploratorio (EDA)
Se exploran 1.542 ofertas unificadas: roles más frecuentes, distribución geográfica, modalidades de trabajo, disponibilidad salarial y skills demandadas.
Visualizaciones
Dashboards con matplotlib, seaborn y plotly que cubren volumen de vacantes, salarios por rol, heatmaps de correlación y rankings de tecnologías.
Datasets principales
jobs_all_clean.csv
Dataset unificado con 1.542 ofertas de empleo de datos en España, 17 columnas normalizadas.
technology_rankings.csv
Rankings de tecnologías usadas y deseadas extraídos de la encuesta Stack Overflow 2025.
technologies_clean_long_format.csv
Tecnologías en formato largo con categoría y tipo para análisis granular.
Referencia técnica
Configuración del entorno
Instrucciones de instalación, variables de entorno y estructura de carpetas del proyecto.
Scripts y utilidades
Documentación del script de generación de documentación DOCX y el pipeline de datos.