🔧 Preprocesamiento de Datos
🔧 Preprocesamiento de Datos

Anonimización de datos sensibles

Los datasets reales contienen PII (Personally Identifiable Information): nombres, emails, DNIs, teléfonos, cuentas bancarias.

Problema

Los datasets reales contienen PII (Personally Identifiable Information): nombres, emails, DNIs, teléfonos, cuentas bancarias. Usar estos datos para entrenar modelos o compartirlos sin anonimización viola GDPR y expone a riesgos legales y de privacidad.

Solución

Detección automática de PII con regex y NER (reconocimiento de entidades nombradas), seguida de técnicas de anonimización: pseudonimización con hash, generalización de valores (edad exacta → rango), supresión de campos no necesarios y validación de que no queda PII identificable.

Detección de PII

  • Regex para patrones estructurados: emails, teléfonos, DNIs, IBANs, tarjetas
  • spaCy NER para nombres propios, organizaciones y localizaciones
  • Heurísticas de columna: nombre de columna + análisis de valores para clasificar PII
  • Reporte de PII detectada por columna antes de aplicar transformaciones

Técnicas de anonimización

  • Pseudonimización: sustitución por hash SHA-256 — reversible con clave secreta
  • Generalización: edad exacta → rangos (18–25, 26–35…), ciudad → región
  • Supresión: eliminación de columnas que no aportan información al modelo
  • Tokenización: reemplazo por ID artificial con tabla de correspondencia separada
  • Validación: escaneo post-anonimización para detectar PII residual

Más proyectos en Preprocesamiento de Datos