Los datasets reales contienen PII (Personally Identifiable Information): nombres, emails, DNIs, teléfonos, cuentas bancarias.
Los datasets reales contienen PII (Personally Identifiable Information): nombres, emails, DNIs, teléfonos, cuentas bancarias. Usar estos datos para entrenar modelos o compartirlos sin anonimización viola GDPR y expone a riesgos legales y de privacidad.
Detección automática de PII con regex y NER (reconocimiento de entidades nombradas), seguida de técnicas de anonimización: pseudonimización con hash, generalización de valores (edad exacta → rango), supresión de campos no necesarios y validación de que no queda PII identificable.