¿Sabías que en proyectos de big data entre el 60 % y el 80 % del tiempo se dedica a la limpieza de los datos? Puede parecer una tarea menor, sobre todo cuando se trabaja con datasets pequeños, pero gran parte del éxito de cualquier proyecto de datos reside en esta fase. La limpieza de datos consiste en revisar el dataset para identificar y resolver problemas. Imagina el siguiente escenario: tras hacer una encuesta a 30 personas generas un archivo de texto con las respuestas y, al importarlo a tu hoja de cálculo, descubres que solo aparecen 20 respuestas, que en campos numéricos hay texto o que algunas preguntas obligatorias quedaron sin rellenar. Identificar todos esos problemas — y encontrar su raíz para resolverlos — es un ejercicio clave si no quieres obtener resultados incorrectos en el análisis posterior.Documentation Index
Fetch the complete documentation index at: https://mintlify.com/WMCO-C0/DatosferaLab-Doc/llms.txt
Use this file to discover all available pages before exploring further.
Este es también un momento muy valioso para familiarizarte con los datos y su estructura, aprender a reconocer los fallos y anticiparte a ellos.
Qué cubre esta fase
Los problemas que puedes encontrar son prácticamente inabarcables, pero los más comunes se agrupan en dos grandes bloques:- Importación: errores introducidos al trasladar los datos a la hoja de cálculo (separadores incorrectos, codificación de caracteres, tipos de dato mal interpretados).
- Problemas de los datos: anomalías presentes en los propios datos, como valores ausentes, duplicados o inconsistencias de formato.
Flujo de trabajo
En Datosfera Lab dedicamos las sesiones 3 a 5 a este proceso:Seminario de introducción a la herramienta
Presentación a modo de seminario de la herramienta escogida (Google Sheets, LibreOffice Calc o Excel) y los principales procesos de importación y limpieza. Se trabaja en conjunto sobre un dataset de prueba descargado de Kaggle para practicar antes de tocar los datos del proyecto.
Importación y limpieza del dataset del proyecto
El equipo importa su propio dataset y aplica las técnicas aprendidas, con supervisión continua para garantizar el correcto desarrollo del proceso y la participación activa de todas las personas.
Siguientes pasos
Importación de datos
Aprende a importar correctamente archivos de texto a tu hoja de cálculo y evita los errores más frecuentes.
Problemas con los datos
Identifica y resuelve los problemas de calidad más habituales: valores ausentes, duplicados, inconsistencias y más.