Este post proviene de esta fuente de noticias

Obstaculizar la investigación con el pretexto de la protección de datos o, por el contrario, justificar la concentración y comunicación masiva de categorías especiales de datos como única forma de llevarla a cabo, es un discurso binario que ya debería estar superado. La analítica de datos es una ciencia que genera información útil derivada de los datos brutos que, en su implementación, permite la utilización de soluciones que cumplan con la protección de datos desde el diseño. Es posible crear espacios de datos federados, que eviten la comunicación y exposición de los datos a terceros, y a la vez proporcionar acceso a la información necesaria a múltiples partes interesadas, optimizando las redes y los procesos, permitiendo, además, implementar políticas controladas de reutilización de datos. Todo ello independientemente de las medidas adicionales de protección de datos desde el diseño y por defecto que se puedan añadir, junto a un modelo de gobernanza, para la garantía de los derechos en los datos de origen.

La cantidad de datos que se recogen actualmente ha aumentado de forma exponencial. Habitualmente estos se encuentran disgregados entre distintas partes (o entidades), dificultando su análisis y explotación para la obtención de conclusiones generales. Una aproximación simplista para resolver este problema es la construcción de grandes repositorios de datos que concentren gran cantidad de ellos en un único punto.

Esta aproximación tiene múltiples problemas. Algunos prácticos: cómo almacenar una cantidad tan masiva y, sobre todo, cómo procesar de forma eficiente todos esos datos, lo que en muchos casos conduce a la paradoja de volver a distribuirlos para poder conseguirlo. Otros son las limitaciones para acceder a esos datos por problemas de confidencialidad, no solo de protección de datos personales, sino relativas a información que puede afectar a secretos comerciales, seguridad de estado, etc. También se encuentra el problema del control del uso secundario de dichos datos, tanto de la perspectiva del RGPD como desde perspectivas comerciales o éticas. Por otro lado, la trazabilidad de la exactitud de dichos datos, que es una cuestión de privacidad, lo es también con relación al mantenimiento de dichas bases de datos y de la calidad de la información inferida. Finalmente, grandes repositorios se tendrían que crear con objetivos distintos, teniendo por consiguiente una gran concentración en uno o varios puntos de gran cantidad de datos, lo que hace de dichos repositorios objetivos más interesantes para los atacantes, se aumentaría la exposición de cara a incidentes y, en el probable caso de una brecha de datos personales, el impacto sería más dañino.

La analítica de datos, necesaria para explotar y extraer resultados de conjuntos de datos, es una ciencia que genera información útil derivada de los dichos datos brutos. Actualmente, las herramientas de analítica de datos permiten la utilización de soluciones de protección de datos desde el diseño, y permiten la creación de espacios federados de datos. Los espacios federados de datos permiten, mediante el empleo de una capa de intermediación ejecutada en las fuentes de datos, la explotación de los mismos, la generación de la información, evitando la comunicación y exposición de los datos a terceros. Estas técnicas permiten que los datos permanezcan en las entidades que los generan, pero permitiendo que se tratan en origen y así proporcionando acceso a la información a una serie de múltiples partes interesadas, optimizando las redes y los procesos. Otra de las grandes ventajas de estos sistemas es poder implementar políticas controladas de reutilización de datos desde el origen, que permiten poder establecer una accountability de los intervinientes y de las operaciones realizadas por el guardián de los datos.

La implementación de la protección de datos desde el diseño se puede realizar utilizando distintas soluciones tecnológicas, como la paralelización y la distribución de proceso en algoritmos basados en aprendizaje automático, el empleo de estrategias de privacidad diferencial, el uso de técnicas criptográficas de enmascaramiento de los datos como son la Computación Segura Multi-parte, el cifrado homomórfico o protocolos de recuperación de información privada PIR (por sus siglas en inglés, Private Information Retrieval), entre otras.

Una de dichas tecnologías habilitadoras es la Computación Segura Multi-parte o SMPC (por sus siglas en inglés, Secure Multiparty Computation). Este es un protocolo criptográfico que, mediante la Compartición Aditiva de Secretos, permite segmentar un dato secreto en distintas partes, de manera que, al compartirse los datos, no pueda ser revelado el dato original por ninguna de las fuentes.

Consulte la noticia original si desea conocer más.