Anonimización de datos sensibles

Problema

Los datasets reales contienen PII (Personally Identifiable Information): nombres, emails, DNIs, teléfonos, cuentas bancarias. Usar estos datos para entrenar modelos o compartirlos sin anonimización viola GDPR y expone a riesgos legales y de privacidad.

Solución

Detección automática de PII con regex y NER (reconocimiento de entidades nombradas), seguida de técnicas de anonimización: pseudonimización con hash, generalización de valores (edad exacta → rango), supresión de campos no necesarios y validación de que no queda PII identificable.

Detección de PII

Regex para patrones estructurados: emails, teléfonos, DNIs, IBANs, tarjetas
spaCy NER para nombres propios, organizaciones y localizaciones
Heurísticas de columna: nombre de columna + análisis de valores para clasificar PII
Reporte de PII detectada por columna antes de aplicar transformaciones

Técnicas de anonimización

Pseudonimización: sustitución por hash SHA-256 — reversible con clave secreta
Generalización: edad exacta → rangos (18–25, 26–35…), ciudad → región
Supresión: eliminación de columnas que no aportan información al modelo
Tokenización: reemplazo por ID artificial con tabla de correspondencia separada
Validación: escaneo post-anonimización para detectar PII residual

Problema

Solución

Detección de PII

Técnicas de anonimización

Pipeline de limpieza y tratamiento de nulos

Feature engineering y data augmentation