La recopilación de volúmenes masivos de datos es un habilitador crítico para los enfoques de inteligencia artificial (IA), y el aprendizaje automático (ML), que es el corazón de la IA, utiliza dichos datos para crear modelos predictivos. Sin embargo, recopilar los datos y utilizarlos para encontrar los patrones de comportamiento de los datos son dos cosas diferentes. Además, viene con varias dificultades para ser manejado por un individuo o una organización que incluye preocupaciones de privacidad como la violación de datos, pérdidas financieras y daños a la reputación.
Gran parte del análisis de datos más sensible a la privacidad, que incluye principalmente algoritmos de búsqueda, sistemas de recomendación y redes adtech, está impulsado por el aprendizaje automático.
El objetivo del aprendizaje automático que preserva la privacidad es cerrar la brecha entre la privacidad y recibir los beneficios del aprendizaje automático. Es un facilitador fundamental para la privatización de los datos adquiridos y el cumplimiento de las leyes de privacidad de datos.
En este artículo se presentan las ideas centrales del aprendizaje automático para preservar la privacidad. Muestra cómo usar una combinación de aprendizaje automático y estrategias de privacidad para resolver problemas. Echa un vistazo a algunas de las herramientas que son accesibles con el objetivo proporcionar una comprensión completa del aprendizaje automático que preserva la privacidad para una amplia gama de aplicaciones.
Indice
¿Qué es el aprendizaje automático para preservar la privacidad (PPML)?
El aprendizaje automático (ML) tiene un gran potencial para aumentar la productividad. Sin embargo, la calidad de los datos para entrenar modelos de ML debe ser excelente para brindar buenos resultados. Cualquier algoritmo de ML proporciona un rendimiento excelente solo cuando se alimentan datos enormes y perfectos para el entrenamiento.
Para obtener datos de tal calidad, muchas organizaciones trabajan de manera cooperativa. Cuando tomamos datos de diferentes organizaciones, es muy importante mantener la confidencialidad, la privacidad y el reparto de beneficios de los datos.
El aprendizaje automático para preservar la privacidad es un enfoque paso a paso para prevenir la fuga de datos en los algoritmos de aprendizaje automático. PPML permite muchas estrategias de mejora de la privacidad para permitir que múltiples fuentes de entrada entrenen modelos ML de manera cooperativa sin exponer sus datos privados en su forma original.
Necesidad en la era actual
Con los beneficios de las aplicaciones de aprendizaje automático siempre existe el riesgo de privacidad de datos. Por ejemplo, si consideramos aplicaciones para atención médica o detección de intrusos. Los ataques cibernéticos y las filtraciones de datos son cada vez más frecuentes y costosos de manejar. Los ciberdelincuentes se sienten atraídos por grandes conjuntos de datos almacenados por motivos de capacitación porque pueden robar datos que se pueden usar para identificar personas u otra información valiosa que se puede vender.
Además, los propios modelos ML presentan una vulnerabilidad, ya que se pueden extraer datos confidenciales de ellos. Por ejemplo, un artículo de investigación demuestra cómo determinar si se utilizó un registro en el conjunto de datos de entrenamiento para un determinado modelo de ML. Pusieron a prueba su método en los sistemas de aprendizaje automático de Amazon y Google Cloud, con resultados de 74 % y 94 % de precisión, respectivamente.
En este entorno, la protección de la información de identificación personal (PII), o los datos que pueden utilizarse para identificar a una persona específica, es un problema importante. Además de proteger la PII de posibles fugas, las empresas deben cumplir con varios requisitos de protección de datos, como el Reglamento General de Protección de Datos (RGPD) en Europa. En el caso de una violación de GDPR, las sanciones pueden ser sustanciales.
Los ataques cibernéticos ponen a las empresas que recopilan datos, así como a los usuarios finales a quienes pertenecen los datos, en peligro de consecuencias legales, financieras y reputacionales. No sería suficiente simplemente eliminar la PII de un conjunto de datos, como nombres y direcciones, porque se pueden usar otros cuasi identificadores para identificar a un individuo específico en la colección.
Preservando la privacidad al aumentar ML con diferentes estrategias que protegen la privacidad de los datos, ML se esfuerza por abordar estos desafíos. Estas técnicas incluyen técnicas de perturbación como la privacidad diferencial, enfoques criptográficos como el cifrado homomórfico y la computación multipartita, y enfoques específicos de aprendizaje automático como el aprendizaje federado.
El escenario actual basado en la nube para el aprendizaje automático, la seguridad de varios activos de cualquier organización y la seguridad de los datos dio origen al enfoque de ML que preserva la privacidad. Para hacer frente a este enfoque PPML, no habrá una solución única para todos los tipos de aplicaciones. Las diversas aplicaciones requieren varios tipos de atención a la privacidad.
Además, debemos lograr un equilibrio entre las preocupaciones específicas del escenario y el requisito de desarrollar metodologías sólidas e independientes de la plataforma. Si bien la investigación sobre el aprendizaje automático para preservar la privacidad se ha disparado en los últimos años, todavía existe una brecha entre las teorías y sus aplicaciones en escenarios del mundo real.
Aspectos principales de la preservación de la privacidad
Estos son los principales aspectos de la preservación de la privacidad:
Privacidad de datos en la formación
La seguridad de que una parte malintencionada no aplicará ingeniería inversa a los datos de entrenamiento. Si bien recopilar información sobre datos de entrenamiento y pesos de modelos es un poco más difícil que recopilar información de datos de entrada y salida de texto sin formato (el término técnico para no encriptar), investigaciones recientes han demostrado que reconstruir datos de entrenamiento y modelos de ingeniería inversa no es tan difícil como uno podría pensar.
Paper calcula la rapidez con la que los modelos de secuencias generativas (p. ej., modelos de lenguaje de caracteres) pueden memorizar información inusual dentro de un conjunto de entrenamiento. Carlini y Wagner usan Penn Treebank para entrenar un modelo de lenguaje de personajes con un «secreto»: «el número aleatorio es ooooooooo», donde ooooooooo es un número de seguro social (falso). Demuestran cómo el descubrimiento de un secreto que han escondido dentro de su copia del conjunto de datos de Penn Treebank se puede utilizar para su ventaja. Calculan la cantidad de memoria en la red entrenando un modelo de lenguaje de caracteres en el 5% del PTD. Cuando la pérdida del conjunto de prueba es más baja, la memorización está en su punto máximo. Aquí es cuando el secreto es más ampliamente conocido.
Privacidad en la entrada
La garantía de que otras partes, incluido el desarrollador del modelo, no podrán ver los datos de entrada de un usuario.
Privacidad en la salida
La seguridad de que el resultado de un modelo solo es accesible para el cliente cuyos datos se infieren.
Privacidad del modelo
La seguridad de que una parte hostil no podrá robar el modelo. Muchas organizaciones brindan habilidades predictivas a los desarrolladores a través de API o, más recientemente, software descargado, y los modelos de IA pueden ser un riesgo. La última de las cuatro apuestas a examinar es la privacidad del modelo, que es crucial tanto para los intereses del usuario como de la empresa. Si tus competidores pueden imitar fácilmente tus modelos, las empresas tendrán pocos incentivos para crear productos innovadores o gastar dinero en mejorar las habilidades de IA (un acto que no es fácil de investigar).
Los principales productos y la propiedad intelectual de muchas empresas son modelos de aprendizaje automático; por lo tanto, que te roben uno es peligroso con graves consecuencias financieras. Además, un modelo se puede robar directamente o realizar ingeniería inversa utilizando sus resultados.
Técnicas PPML
Estos son los métodos utilizados para garantizar que los datos no puedan ser robados por un tercero. Como resultado, las tácticas que se enumeran a continuación se utilizan para contrarrestar varios ataques.
Privacidad diferencial
La privacidad diferencial es un tipo de privacidad que te permite proporcionar información relevante sobre un conjunto de datos sin revelar ninguna información personal al respecto. Incluso si un atacante tiene acceso a todas las entradas en un conjunto de datos, el resultado de una operación de privacidad diferencial no se puede usar para vincular un registro específico a una persona, gracias a este método.
En otras palabras, la presencia del registro de un individuo en el conjunto de datos no tiene un impacto (sustancial) en el resultado del análisis. Como resultado, el riesgo de privacidad es básicamente el mismo ya sea que una persona participe o no en el conjunto de datos. La privacidad diferencial se logra agregando ruido aleatorio al resultado, lo que se puede hacer a través de una variedad de procesos privados diferenciales, como los enfoques de respuesta aleatoria, exponencial y de Laplace.
Cifrado homomórfico
El cifrado homomórfico es un método criptográfico para calcular datos cifrados que da como resultado una salida descifrada idéntica a la salida de la entrada original sin cifrar. El siguiente es un ejemplo de cómo se utiliza el enfoque:
- El propietario de los datos cifra los datos utilizando una función homomórfica y comparte la salida con un tercero que es responsable de completar un determinado cálculo.
- El tercero calcula los datos cifrados y proporciona la salida, que está cifrada debido a los datos de entrada cifrados.
- El propietario de los datos descifra la salida y recibe el resultado del cálculo en los datos originales de texto sin formato.
- La entrada y la salida sin cifrar no son accesibles para terceros durante este procedimiento.
Cómputo de múltiples partes
MPC (Multi-Party Computation) es un sistema que permite a muchos participantes calcular una función sin revelar sus entradas privadas. Las partes son autosuficientes y desconfiadas unas de otras. El concepto fundamental es permitir que se realicen cálculos en datos privados manteniendo la privacidad de los datos. MPC se asegura de que cada participante solo aprenda del resultado y de su contribución tanto como sea posible.
Veremos varias estrategias seguras de MPC a continuación.
Los circuitos ilegibles del protocolo criptográfico se usan comúnmente para la computación segura de dos partes en funciones booleanas (circuitos). Los pasos del protocolo son los siguientes:
- La primera parte, Alice, encripta (o distorsiona) la función (circuito) y la envía a la segunda parte, Bob, junto con su entrada encriptada.
- Bob encripta su entrada con la ayuda de Alice mediante transferencia olvidada, en la que Alice y Bob transfieren cierta información mientras que el remitente no sabe qué información se ha transferido.
- Bob evalúa la función utilizando ambas entradas cifradas y obtiene la salida cifrada.
Muchas técnicas de MPC utilizan el intercambio de secretos como estrategia. Por ejemplo, la técnica de intercambio de secretos (t, n) divide los secretos en n acciones y asigna una parte a cada participante. Cuando se fusionan t acciones, se puede reconstruir el secreto s, pero cuando se combinan t-1 de las acciones, no se expone información sobre s. Para decirlo de otra manera, el secreto se divide para que cualquier grupo de al menos t personas pueda reconstruirlo, pero ningún grupo de menos de t puede.
Tanto MPC como el cifrado homomórfico son enfoques de privacidad efectivos, pero tienen un alto coste para la comunicación y el procesamiento.
Aprendizaje federado
El aprendizaje federado permite que los procesos de ML se descentralicen, lo que reduce la cantidad de información expuesta de los conjuntos de datos de los contribuyentes y reduce el peligro de que la privacidad de los datos y la identidad se vea comprometida. La idea básica detrás del aprendizaje federado es que un modelo M central de aprendizaje automático (ML) propiedad de una autoridad central (por ejemplo, una empresa) puede capacitarse aún más en nuevos conjuntos de datos privados de los contribuyentes de datos haciendo que cada colaborador entrene localmente con su conjunto de datos y luego actualizar el modelo central M (es decir, actualizar el parámetro del modelo).
El aprendizaje federado, en particular, funciona de la siguiente manera:
- Un grupo de n participantes (contribuyentes de datos) recibe el modelo central M.
- Cada participante actualiza el modelo M localmente entrenándolo en su propio conjunto de datos local Zl, generando un nuevo parámetro local l.
- La autoridad central recibe la actualización l de cada participante.
- La autoridad central combina los parámetros locales de cada participante para formar un nuevo parámetro que se utiliza para actualizar el modelo central. Este procedimiento puede continuar hasta que el modelo principal esté bien entrenado.
Técnicas de preservación de la privacidad de Ensemble
No existe una bala de plata cuando se trata de lograr la privacidad en el aprendizaje automático. El nivel de privacidad proporcionado por las tácticas descritas aquí está determinado por varios factores, incluido el algoritmo de aprendizaje automático utilizado, las habilidades y recursos del adversario y el conteo. Como resultado, para obtener mayores grados de privacidad, puede ser necesario combinar o ensamblar varias técnicas de ML para preservar la privacidad.
Desafíos de las técnicas de PPML
Cada enfoque de aprendizaje automático para preservar la privacidad tiene como objetivo lograr distintos objetivos de privacidad mientras fortalece una infraestructura de ML y reduce la superficie de vulnerabilidad expuesta a un atacante.
La privacidad diferencial protege la privacidad de distintos conjuntos de datos en un proceso de ML y proporciona una garantía comprobada de privacidad. Sin embargo, lograr el equilibrio correcto entre el valor de los datos anónimos y la privacidad, que están inversamente conectados, puede ser difícil.
El cifrado homomórfico permite operar con datos cifrados manteniendo la funcionalidad de los conjuntos de datos originales. Sin embargo, su alcance es bastante limitado y la escalabilidad puede ser un problema.
MPC permite que varias personas trabajen juntas para resolver un problema mediante el intercambio de datos cifrados. Esto se puede usar para:
- entrenar un modelo de aprendizaje automático común sin revelar información privada, lo que da como resultado la privacidad de la identidad, el conjunto de datos sin procesar y el conjunto de datos de características, y
- calcular la salida de un modelo de ML haciendo que las partes compartan sus entradas cifradas, lo que da como resultado la privacidad de entrada.
La flexibilidad de trabajar con datos cifrados, como HE, tiene un coste en términos de comunicación, y la necesidad de actualizar el modelo o aplicar un enfoque de ML podría aumentar la sobrecarga de rendimiento. Además, el requisito de disponibilidad continua de las partes informáticas puede plantear problemas de escalabilidad, mientras que el uso de la aritmética de punto fijo limita el alcance de la aplicabilidad de ML.
El aprendizaje federado supera los inconvenientes del entrenamiento de modelos centralizado al permitir que los modelos se entrenen localmente sin necesidad de intercambiar conjuntos de datos de contribuyentes de datos, lo que garantiza la identidad, el conjunto de datos sin procesar y la privacidad del conjunto de datos de características. La red de dispositivos utilizada para entrenar el modelo, por otro lado, requiere altos costes de comunicación y disponibilidad de dispositivos durante el entrenamiento.
Herramientas PPML
Veamos a continuación las principales herramientas PPML:
PYSYFT
PySyft es una caja de herramientas de aprendizaje automático de código abierto basada en Python que es segura y privada. Es parte del programa Open Mined, que desarrolla marcos y tecnologías de IA que respetan la privacidad de las personas. La biblioteca admite diferentes técnicas de preservación de la privacidad, incluida la privacidad diferencial, HE, MPC y el aprendizaje federado. PySyft también amplía los marcos populares de aprendizaje profundo como PyTorch, TensorFlow y Keras.
Privacidad de Tensorflow
TensorFlow Privacy (TFP) es una caja de herramientas de Python para entrenar y generar modelos de aprendizaje automático diferencialmente privados. La biblioteca se basa en TensorFlow de Google, un marco de código abierto para la capacitación de aprendizaje automático tradicional que ignora las preocupaciones de privacidad. Una de las metodologías clave de ML para preservar la privacidad de la biblioteca es entrenar un modelo de ML utilizando SDG privados diferenciales.
TFP también se puede usar para calcular las garantías de privacidad que ofrece el mecanismo privado diferencial de elección, que se puede usar para comparar modelos ML en términos de privacidad y tener en cuenta la pérdida de utilidad al elegir un modelo sobre otro.
CrypTFlow
CrypTFlow es un sistema que utiliza conceptos de lenguajes de programación y MPC para brindar una solución para consultar modelos de ML de forma segura.
ML Privacy Meter
La integración de salvaguardas de privacidad en el proceso de ML utilizado para construir el modelo es tan importante como evaluar la resiliencia de un modelo de ML contra ataques específicos.
ML Privacy Meter es un paquete de Python que utiliza TensorFlow de Google para evaluar las amenazas a la privacidad en los modelos de aprendizaje automático. Tanto en los modelos de adversarios de caja blanca como de caja negra, la herramienta se puede utilizar para desarrollar ataques de inferencia de pertenencia. Después de eso, el programa puede calcular las calificaciones de riesgo de privacidad en función del modelo adversario seleccionado. Las puntuaciones de riesgo pueden verse como una medida de cuán precisos son tales ataques al modelo de interés. Finalmente, el programa puede visualizar los resultados y generar informes de privacidad.
CrypTen
CrypTen es un marco de aprendizaje automático que preserva la privacidad basado en la investigación. El programa se basa en PyTorch, una plataforma de aprendizaje automático de código abierto. El marco ahora es compatible con MPC, con la posibilidad de agregar soporte Cifrado homomórfico en el futuro.
Conclusión
El aprendizaje automático para preservar la privacidad (PPML) es un campo emergente que se encuentra en investigación activa. Los modelos de aprendizaje automático exitosos más prolíficos de la actualidad se construyen agregando todos los datos en una ubicación central. Si bien las técnicas centralizadas son excelentes, hay muchos escenarios, como la privacidad del usuario, las preocupaciones legales, la competitividad comercial o las limitaciones de ancho de banda, en los que los datos no se pueden agregar.
El aprendizaje federado puede ayudar a superar todos estos desafíos con su estrategia descentralizada para construir modelos de aprendizaje automático. Junto con técnicas de preservación de la privacidad, como la privacidad diferencial y las encriptaciones, el aprendizaje federado presenta una nueva y prometedora forma de avanzar en las soluciones de aprendizaje automático.