Skip to main content

Documentation Index

Fetch the complete documentation index at: https://mintlify.com/Gema-Villanueva/proyecto-eda-roles-datos/llms.txt

Use this file to discover all available pages before exploring further.

Este proyecto documenta un análisis exploratorio de datos (EDA) sobre las ofertas laborales del sector de datos en España. El trabajo cubre todas las fases del pipeline: recogida de datos desde múltiples fuentes, limpieza y normalización, análisis exploratorio, visualizaciones interactivas y detección de sesgos.

Introducción

Conoce el contexto del proyecto, las fuentes de datos y los objetivos del análisis.

Quickstart

Configura el entorno, instala las dependencias y ejecuta tu primer notebook en minutos.

Notebooks

Guía completa de los cinco notebooks: desde la recogida de datos hasta el análisis de sesgos.

Resultados Clave

Descubre los principales hallazgos sobre roles, salarios, tecnologías y mercado laboral.

¿Qué contiene este proyecto?

El análisis se estructura en cinco notebooks Jupyter que forman un pipeline reproducible de principio a fin:
1

Recogida de datos

Se evaluaron múltiples portales de empleo y se seleccionó la API pública de Adzuna como fuente complementaria a los datasets estáticos del bootcamp (TecnoEmpleo y Stack Overflow 2025).
2

Limpieza y preparación

Tres datasets heterogéneos se normalizan, se unifican bajo un esquema común en inglés y snake_case, y se generan archivos limpios listos para el análisis.
3

Análisis exploratorio (EDA)

Se exploran 1.542 ofertas unificadas: roles más frecuentes, distribución geográfica, modalidades de trabajo, disponibilidad salarial y skills demandadas.
4

Visualizaciones

Dashboards con matplotlib, seaborn y plotly que cubren volumen de vacantes, salarios por rol, heatmaps de correlación y rankings de tecnologías.
5

Análisis de sesgos

Identificación de posibles sesgos de representación, localización, seniority y disponibilidad de información salarial en el dataset.

Datasets principales

jobs_all_clean.csv

Dataset unificado con 1.542 ofertas de empleo de datos en España, 17 columnas normalizadas.

technology_rankings.csv

Rankings de tecnologías usadas y deseadas extraídos de la encuesta Stack Overflow 2025.

technologies_clean_long_format.csv

Tecnologías en formato largo con categoría y tipo para análisis granular.

Referencia técnica

Configuración del entorno

Instrucciones de instalación, variables de entorno y estructura de carpetas del proyecto.

Scripts y utilidades

Documentación del script de generación de documentación DOCX y el pipeline de datos.

Build docs developers (and LLMs) love