No te pierdas nuestros contenidos
SuscribirmeLa Agencia Española de Protección de Datos (AEPD) ha puesto el foco sobre los denominados “datos sintéticos” para advertir a responsables y encargados del tratamiento sobre los riesgos asociados a su utilización. Para ello, la AEPD ha publicado una entrada en su Blog sobre la relación entre los datos sintéticos y la protección de datos.
¿Qué son los datos sintéticos?
Los datos sintéticos son datos generados artificialmente (es decir, datos no reales) que son útiles para un propósito específico, y que se originan a partir de datos reales, reuniendo sus características y propiedades. Dichos datos sintéticos nacen de la necesidad práctica de poseer un elevado volumen de datos para desarrollar, probar y validar el aprendizaje automático de sistemas de inteligencia artificial. La síntesis de los datos puede llevarse a cabo mediante algoritmos de deep learning, modelados diferenciales, o arboles de decisión, entre otros.
Como indica la AEPD en su entrada, “los datos sintéticos podrían usarse en el desarrollo, prueba y validación de servicios de aprendizaje automático, donde los datos reales no están disponibles en las cantidades necesarias, o incluso dichos datos reales no existen”. Del mismo modo, también podrían llegar a utilizarse como una forma de acceso a datos confidenciales de una empresa en el marco de Espacios de Datos sin filtrar secretos comerciales.
Esta tipología de datos no es una cuestión menor. A modo de ejemplo, la Propuesta de Reglamento del Parlamento Europeo y del Consejo por el que se establecen las normas armonizadas en materia de inteligencia artificial indica en su artículo 54 que, para el desarrollo y las pruebas de sistemas innovadores de inteligencia artificial en un espacio controlado de pruebas, prevalecerá el tratamiento de datos sintéticos frente al tratamiento de los datos personales legalmente recopilados con otros fines.
Ventajas del uso de datos sintéticos
Las ventajas que se derivan de la utilización de datos sintéticos son notables:
- En primer lugar, los datos sintéticos pueden resultar especialmente útiles para los casos en los que aún no existen datos reales o en los que éstos no existen en las cantidades necesarias para desarrollar, probar y validar el aprendizaje automático en cuestión. Además, también presentan gran utilidad cuando la recopilación de los datos reales resultaría compleja o poco ética.
- En segundo lugar, los datos sintéticos pueden contribuir a la creación de un entorno de protección de datos desde el diseño para potenciar el principio de minimización de datos y mejorar la privacidad de los interesados. En este sentido, los responsables del tratamiento se verán exentos de cargar con la responsabilidad de recopilar datos personales, con las obligaciones que dicha recopilación conlleva. Además, los datos sintéticos pueden ofrecer algunas ventajas colaterales como, por ejemplo, que se permitan unos períodos de conservación más largos que los admitidos para los datos personales reales.
- En tercer lugar, los datos sintéticos pueden ser manipulados de forma positiva para que sean más representativos de la realidad, contribuyendo así a la mitigación de los sesgos existentes. Sin embargo, es importante que dicha manipulación se ajuste a fines positivos: una manipulación negativa o un sesgo circunstancial que no sea corregido puede dar lugar a datos sintéticos sesgados, inexactos y peligrosos.
- Finalmente, como indicábamos al inicio, la AEPD señala que los datos sintéticos podrán apoyar la economía basada en datos al promover el acceso a espacios de datos de entidades públicas y privadas, reduciendo considerablemente el riesgo de filtración de secretos comerciales o datos personales.
En este sentido, y como apunta la AEPD, los datos sintéticos han sido objeto de atención en los últimos años, y han ayudado a desarrollar pruebas y validación en sistemas de comprensión del lenguaje natural (como en el caso de Alexa), algoritmos de visión para sistemas de vehículos autónomos (Waymo) o modelos de detección de fraude para instituciones financieras (American Express).
Datos sintéticos y RGPD
Conviene aclarar que los datos sintéticos no resultan de datos aleatorios, sino que se sintetizan a partir de datos reales, o creados desde cero, destinados a reproducir las características y la estructura de los datos reales permitiendo sacar conclusiones similares en casos de uso específicos.
En vista de las numerosas ventajas –y consciente también de los inconvenientes–la AEPD ha aprovechado para pronunciarse acerca del tratamiento de los datos sintéticos y su relación con el Reglamento General de Protección de Datos (en adelante, “RGPD”).
Como venimos diciendo, en realidad, los datos sintéticos permiten minimizar o evitar el tratamiento de datos personales mientras se logran los objetivos con conclusiones tan buenas como las obtenidas del empleo de datos personales originales.
En este sentido, y por la propia característica de estos datos tendente a minimizar o evitar el tratamiento de datos personales, los datos sintéticos no deberían contener información identificable, incluso cuando podrían generarse a partir de datos personales reales. Una vez sintetizados, los responsables deberán verificar que los datos sintéticos no contienen información que permita la identificación directa o indirecta de personas físicas.
La AEPD entiende que existe un riesgo asociado a los datos sintéticos o a los procesos de generación de datos que, en caso de no implementar medidas adecuadas, podrían llegar a considerarse como datos personales y, en consecuencia, sometidos al RGPD. Para evitarlo, la AEPD entiende que las compañías deben implementar medidas técnicas u organizativas como, por ejemplo, llevando a cabo una evaluación de la anonimidad de los datos.
Adicionalmente, también resulta útil la adopción de ciertas medidas con anterioridad a la generación de datos. Por ejemplo, limitar la generación de datos a las propiedades estadísticas, a la distribución de los datos personales reales para el propósito especifico; o medidas para la minimización de las variables de los datos personales reales expuestos al proceso de síntesis.
No te pierdas nuestros contenidos
Suscribirme