Cuando los sistemas están diseñados para ser diferencialmente privados, permiten a las empresas recopilar los datos que necesitan para entrenar sus algoritmos, al tiempo que ayudan a mantener el anonimato de los interesados. A medida que aumentan las preocupaciones por la privacidad, la privacidad diferencial podría ser un concepto clave en la forma en que nuestras sociedades superan la era actual de vigilancia invasiva.
Si te preocupa la recopilación de datos de las principales empresas de tecnología, la buena noticia es que conceptos como la privacidad diferencial están comenzando a ser más prominentes. En determinadas situaciones, la privacidad diferencial puede ayudar a protegernos proporcionando un compromiso entre los intereses de las personas y los de los recopiladores de datos.
Vamos a ver aquí qué es la privacidad diferencia y cómo ayuda a proteger los datos.
Indice
¿Qué es la privacidad diferencial?
La privacidad diferencial es en realidad una idea mucho más amplia que se puede aplicar en una multitud de campos fuera de los algoritmos de entrenamiento. Fue desarrollado como respuesta a problemas de privacidad en el análisis de datos. En circunstancias normales, si tus datos se incluyen en una base de datos, pueden producirse violaciones de tu privacidad.
Incluso si tus datos se han anonimizado y se han eliminado sus identificadores, conserva la posibilidad de conectarse nuevamente a tu identidad a través de análisis estadísticos. La idea subyacente detrás de la privacidad diferencial es que no se puede violar la privacidad de una persona si sus datos no están en la base de datos.
Teniendo esto en cuenta, la privacidad diferencial tiene como objetivo otorgar a las personas incluidas en una base de datos el mismo grado de privacidad que si sus datos se excluyeran por completo. Un sistema es diferencialmente privado cuando los datos están estructurados de tal manera que no se puede saber si un sujeto en particular participó o no.
Si algo cumple con este requisito, los datos no se pueden vincular a las personas, lo que protege su privacidad. En este sentido, la privacidad diferencial es realmente una definición más que una técnica.
Uno de los conceptos erróneos más comunes es que la privacidad diferencial es una técnica específica. Cuando las empresas hablan de privacidad diferencial, no están usando privacidad diferencial, están usando varias técnicas para asegurarse de que los datos sean privados de manera diferencial.
Por ejemplo, en los algoritmos de sugerencia de palabras y emojis de Apple, la compañía ha establecido un sistema que agrega ruido a lo que escriben los usuarios para mantener la información privada. Suponiendo que no hay fallas en el sistema, la base de datos es diferencialmente privada.
La privacidad diferencial se logra a través de una variedad de técnicas complicadas que involucran muchas estadísticas. En esencia, agregan una cantidad calculada de ruido (datos aleatorios) a la base de datos. Esto oscurece la relación entre el individuo y los puntos de datos, pero debido a que se hace de manera controlada, los datos siguen siendo lo suficientemente precisos como para ser útiles en muchas situaciones.
La cantidad de ruido necesaria dependerá del número de personas en la base de datos. Para mantener la privacidad de la información individual, la base de datos no puede depender demasiado de una sola persona. Cuantas menos personas haya en una base de datos, más ruido debe agregarse para protegerlas.
Primero, examinaremos la privacidad y los datos en un sentido más general. Luego, profundizaremos y cubriremos la privacidad diferencial a un nivel más profundo, antes de enfocarnos en cómo se puede usar en el aprendizaje automático para un análisis de datos menos invasivo.
Veremos el potencial diferencial que la privacidad tiene en el aprendizaje automático, sus aplicaciones actuales y también sus limitaciones. Para cuando hayas terminado, debes tener una buena comprensión de sus ramificaciones en el mundo real sin tener que ahogarte en las matemáticas detrás de ello.
Datos y privacidad
Los datos son buenos, al menos en determinadas situaciones. Nos ayuda a comprender lo que realmente está sucediendo y nos permite tomar mejores decisiones para el futuro. Sin su recopilación y análisis, no hubiéramos logrado ningún progreso científico y el mundo sería mucho más caótico.
Digamos que tu país está planeando cómo gastar su presupuesto el próximo año. ¿Qué crees que conduciría a resultados mejores y más equitativos?
- Si planificó su distribución de acuerdo con una mezcla de conjeturas e intuición; o
- Si planifica su distribución en base a la recopilación y análisis detallado de información, incluyendo cuántas personas había, dónde estaban, sus edades, ingresos, niveles de educación y muchos otros aspectos.
Si elegiste la segunda opción, felicitaciones, acabas de inventar los censos, que son solo un ejemplo de cómo el análisis de datos puede ayudar a mejorar nuestras vidas. Los censos implican la recopilación y el análisis de datos, que los gobiernos luego utilizan para una variedad de tareas, incluida la asignación de recursos. Como probablemente puedas adivinar, pueden hacer un trabajo mucho mejor con esta información que sin ella.
En términos prácticos, esto significa que cada pocos años, la mayoría de nosotros llenamos un cuestionario muy detallado y lo enviamos al gobierno. Pero hacerlo tiene el potencial de violar la privacidad de quienes lo responden, lo que potencialmente puede tener consecuencias graves.
No es descabellado que las personas desconfíen de los censos, especialmente a medida que el mundo se despierta lentamente a la recopilación masiva de datos y las invasiones de privacidad que son tan frecuentes. Pero los censos también nos ofrecen conocimientos increíblemente valiosos, que son importantes para el éxito futuro de nuestros países.
Esto nos deja en un enigma. Participar en el censo podría dar lugar a violaciones de la privacidad, pero si todos rechazan el censo, perdemos toda esta valiosa información.
Una oficina de censos competente disipará estos temores al introducir mecanismos de seguridad y privacidad que ayuden a proteger la información individual , al mismo tiempo que nos brindan información sobre los grupos en general. Cuando se hace correctamente, es un buen compromiso.
Algoritmos diferencialmente privados
Por ejemplo, considera un algoritmo que analiza un conjunto de datos y calcula sus estadísticas, como la media, la mediana, la moda, etc. Ahora, este algoritmo se puede considerar como diferencialmente privado solo si se examina en la salida si una persona no puede establecer si los datos de un individuo se incluyó en el conjunto de datos real o no.
En la forma más simple, el algoritmo diferencialmente privado asegura que apenas haya un cambio de comportamiento cuando un individuo alista o mueve los conjuntos de datos. O simplemente, el algoritmo podría producir una salida, en la base de datos que contiene la información de algún individuo, es casi la misma salida que genera una base de datos sin tener información de las personas. Esta garantía es válida para cualquier individuo o conjunto de datos.
Por lo tanto, independientemente de cuán particular sea la información de un individuo, de los detalles de cualquier otra persona en la base de datos, la garantía de privacidad diferencial es cierta y proporciona una garantía formal de que la información a nivel individual sobre los participantes en la base de datos se conservará filtrada.
Ejemplos
La privacidad diferencial se puede aplicar a todo, desde sistemas de recomendación y redes sociales hasta servicios basados en la ubicación. Por ejemplo,
- Apple emplea privacidad diferencial para acumular información de uso anónima de dispositivos como iPhones, iPads y Mac.
- Amazon utiliza la privacidad diferencial para acceder a las preferencias de compra personalizadas del usuario al mismo tiempo que cubre información confidencial sobre sus compras anteriores.
- Facebook lo usa para recopilar datos de comportamiento para campañas publicitarias específicas sin desafiar las políticas de privacidad de ningún país.
- Hay varias variantes de algoritmos diferencialmente privados empleados en el aprendizaje automático, la teoría de juegos y el diseño de mecanismos económicos, la estimación estadística y muchos más.
¿Qué garantiza la privacidad diferencial?
La privacidad diferencial garantiza matemáticamente que una persona, que está observando el resultado de un análisis privado diferencial, probablemente producirá la misma inferencia sobre la información privada de un individuo, ya sea que la información privada de ese individuo se combine o no en la entrada para el análisis.
También especifica la garantía matemática verificada de la protección de la privacidad contra una amplia gama de atractivos de privacidad, como ataques de diferenciación, ataques de vinculación, etc.
La privacidad diferencial no puede asegurar que uno suponga que su secreto permanecerá en secreto, es importante comprender y reconocer qué información es casual o privada para obtener beneficios de los algoritmos de privacidad diferencial y disminuir la pérdida.
Dado que protege la privacidad de información específica, no puede proteger el secreto de uno si es solo información general.
Características
La privacidad diferencial tiene características valiosas que la convierten en un marco rico para evaluar la delicada información personalizada y la preservación de la privacidad, que algunos están siguiendo;
Cuantifica la pérdida de privacidad
Bajo un mecanismo y algoritmos de privacidad diferencial, se puede medir la pérdida de privacidad que permite realizar comparaciones entre diferentes técnicas. Además, la pérdida de privacidad es controlable, lo que establece una compensación entre la pérdida de privacidad y la precisión de la información genérica.
Composición
La cuantificación de la pérdida permite el control y el análisis de las pérdidas de privacidad acumuladas a través de múltiples cálculos, y también la comprensión del comportamiento de los mecanismos diferencialmente privados bajo composición permite el diseño y análisis de algoritmos diferenciales privados compactos a partir de bloques de construcción diferenciados privados más fáciles.
Privacidad del grupo
La privacidad diferencial permite el control y análisis de la pérdida de privacidad adquirida por grupos.
Cierre en posprocesamiento
Para el posprocesamiento, la privacidad diferencial es invulnerable, es decir, un profesional de datos no puede ejecutar una función de la salida de un algoritmo diferencialmente privado sin tener conocimientos adicionales sobre bases de datos privadas y hacerlo menos diferencialmente privado.
Beneficios
La privacidad diferencial tiene varias ventajas sobre las técnicas de privacidad tradicionales:
- Suponiendo que toda la información disponible es información identificada, la privacidad diferencial elimina las tareas desafiantes consideradas al identificar todos los elementos de los datos.
- La privacidad diferencial es resistente al ataque de privacidad sobre la base de información auxiliar, de modo que puede impedir los ataques de vinculación de manera eficiente que probablemente se puedan lograr en datos no identificados.
- La privacidad diferencial es composicional, es decir, se puede calcular la pérdida de privacidad de realizar dos análisis privados diferencialmente sobre los mismos datos mediante la suma de las pérdidas de privacidad individuales para dos análisis.
Aquí, la composicionalidad define la creación de garantías significativas de privacidad al tiempo que ofrece múltiples resultados de análisis a partir de los mismos datos. Sin embargo, algunas técnicas como la desidentificación no son de composición y los resultados de múltiples lanzamientos bajo estos enfoques pueden conducir a una pérdida catastrófica de privacidad.
Por otra parte, la disponibilidad de estas ventajas de la privacidad diferencial son las razones esenciales para elegir otras técnicas de privacidad de datos.
Además de eso, al ser una herramienta nueva y sólida, los estándares de privacidad diferencial y las mejores prácticas no están fácilmente disponibles fuera de las comunidades de investigación.
Sin embargo, se espera que esta limitación se supere con el tiempo debido a la creciente necesidad de soluciones robustas y fáciles de implementar para la privacidad de los datos.
¿Cómo funciona la privacidad diferencial?
Las técnicas convencionales de conservación de datos consideran que la privacidad es la característica de la interferencia de un análisis. Sin embargo, es un atributo del análisis en sí.
Por otro lado, la privacidad diferencial preserva la privacidad de un individuo al agregar algo de ruido aleatorio en el conjunto de datos mientras se realiza el análisis de datos. Simplemente, no sería posible reconocer información individual sobre la base del resultado de un análisis mediante la introducción de ruido.
Sin embargo, después de agregar ruido, la salida del análisis se convierte en una aproximación, no en el resultado exacto que se habría obtenido solo si se hubiera realizado sobre el conjunto de datos real. Además, también es muy posible que si se realiza un análisis privado diferencial varias veces, pueda producir resultados distintos cada vez que se introduzcan los ruidos aleatorios en los conjuntos de datos.
Ɛ (Epsilon): El parámetro de pérdida de privacidad, determina la cantidad de ruido a introducir. El épsilon se puede derivar de la distribución de probabilidad, conocida como Distribución de Laplace, que determina cuánta desviación hay en el cálculo si uno de los atributos de los datos se ha excluido del conjunto de datos.
Cuanto menor sea el Epsilon, menor será la desviación en los cálculos en los que los datos de los usuarios debían eliminarse del conjunto de datos. O, los valores más altos de Epsilon representan resultados más precisos, menos privados y Epsilon más bajo proporciona resultados aleatorios altos que no permitirán a los atacantes aprender mucho en absoluto.
Por lo tanto, el pequeño valor de Epsilon conducirá a una mayor preservación de los datos incluso si los resultados del cálculo son poco precisos. Sin embargo, aún no se ha determinado un valor óptimo de Epsilon que pueda garantizar / cumplir con el nivel necesario de protección y precisión de datos. Dependiendo de la compensación entre privacidad y precisión que los usuarios deben generar, la privacidad diferencial se puede adoptar a nivel mundial.
Estos son los fundamentos sobre cómo funciona la privacidad diferencial, después de conocer cómo funciona, ¿cómo podemos asegurarnos de que tenemos datos valiosos mientras preservamos la privacidad de las personas?
Con los enfoques basados en datos, un analista de datos debe tomar buenas decisiones sobre cómo analizar los datos mientras protege la información de identificación personal.
Aprendizaje automático
La mayor parte de la publicidad reciente en torno a la privacidad diferencial se ha realizado en la esfera del aprendizaje automático, por lo que nos vamos a centrar en eso. Primero, necesitamos cubrir algunos de los conceptos básicos.
Tenemos nuestros feeds de noticias perfectamente seleccionados y actualizados constantemente que nos mantienen entretenidos. Aplicaciones de redireccionamiento de tráfico que parecen saber mágicamente la forma más rápida de atravesar una ciudad, y podemos encontrar cualquier información que queramos con solo unos pocos toques en el teclado.
Todas estas tareas se completan con algoritmos, que son mucho más aburridos que la magia. Los algoritmos son esencialmente conjuntos de instrucciones o fórmulas que calculan el resultado deseado o resuelven un problema.
Nuestras vidas están llenas de ellos, desde Twitter hasta el filtro de correo no deseado de tu correo electrónico y la búsqueda de vuelos. Es probable que gran parte de tu información y muchas de las decisiones de tu vida se tomen con su ayuda. En cierto modo, los algoritmos controlan nuestras vidas.
Hay una variedad de beneficios en esta configuración: facilita la elección de un restaurante y encontrar una dirección es mucho más simple ahora que en los días de los mapas. A pesar de estos beneficios, los algoritmos también nos dejan abiertos a la manipulación y otros efectos negativos.
Lo que más nos preocupa es cómo estos algoritmos logran resultados tan precisos y cómo se mejoran constantemente.
¿Por qué utilizamos el aprendizaje automático para mejorar los algoritmos?
Una parte importante del proceso se realiza a través del aprendizaje automático, que es un campo dentro de la esfera de la inteligencia artificial. En el aprendizaje automático, los datos se recopilan y analizan, y los algoritmos toman lo que aprenden y luego alteran sus procesos para realizar sus tareas de manera más efectiva.
Lo impresionante de este tipo de inteligencia artificial es que los algoritmos de aprendizaje automático pueden mejorarse a sí mismos y a sus resultados sin necesidad de programación externa de un desarrollador humano.
Para hacer un ejemplo simple, digamos que una empresa que crea una aplicación de chat quiere que sus emojis se coloquen en los lugares más convenientes para los usuarios. Primero, necesitaría un algoritmo para contar cuáles son los algoritmos más comúnmente utilizados, de modo que pueda colocar los más utilizados en las posiciones más fáciles.
El uso de emoji puede cambiar con el tiempo, por lo que lo que alguna vez fue un emoji convenientemente colocado puede terminar apenas siendo tocado. Si esto sucede, solo está ocupando espacio y haciendo que la tarea del usuario tome una fracción más de tiempo.
Si la empresa quiere hacer la vida lo más fácil posible para sus usuarios, utilizará un algoritmo de aprendizaje automático para recopilar datos sobre estas tendencias, analizarlos y luego actualizar la ubicación para asegurarse de que los emojis populares actuales sean de fácil acceso.
Puede que no te importen mucho los emojis, pero ¿qué pasa con los resultados de tu búsqueda? Cuando buscabas en Google algo hace 15 o 20 años, a menudo tendrías que pasar por páginas y páginas de resultados o probar varios términos de búsqueda diferentes para obtener lo que realmente deseabas. En comparación, es sorprendente lo precisos que son los resultados actuales.
¿Qué hay de los motores de escritura predictiva en tu teléfono? Si recuerdas cuando las plataformas comenzaron a sugerir la siguiente palabra, era mucho menos útil que Gboard o el teclado del iPhone ahora. En estos días, la tecnología puede captar más del contexto de lo que estás escribiendo, lo que lo hace bastante bueno para predecir la palabra correcta.
Si aprecias la facilidad y simplicidad que provienen de estas tecnologías, debes algo a los algoritmos de aprendizaje automático. Pero la recopilación de datos no siempre es tan benévola y, a veces, puede dañar a los sujetos al provocar un delito cibernético o una monitorización invasiva por parte de los recopiladores de datos.
Si bien el daño que puede provenir de estas prácticas puede parecer obvio, los peligros que provienen de los datos anónimos son más sutiles.
Modelos
Los algoritmos diferencialmente privados tienen el potencial de proteger nuestros datos al mismo tiempo que permiten un aprendizaje automático razonablemente preciso. Dos de los modelos más comunes incluyen la privacidad diferencial global y la privacidad diferencial local.
Privacidad diferencial global
Según el modelo de privacidad diferencial global, los datos sin procesar de las personas son recopilados y analizados por algún organismo central, que a menudo sería una empresa de tecnología. Los algoritmos de privacidad diferencial se aplican a los datos en conjunto. Si bien es posible que la información individual privada nunca se divulgue públicamente, se ha recopilado en algún lugar en su forma original.
Esto no tiene por qué ser una gran preocupación si la organización es de confianza y cuenta con altos niveles de seguridad. Sin embargo, si no se cumple alguna de estas condiciones, la privacidad diferencial no puede mantener segura la información individual.
Si la empresa publica la base de datos diferencialmente privada, su información no podrá ser desanonimizada de ella. Sin embargo, el modelo global hace posible que la empresa haga un mal uso de sus datos sin procesar. Los piratas informáticos también pueden acceder a los datos sin procesar y utilizar tu información privada para cometer una variedad de delitos.
Privacidad diferencial local
En contraste con la privacidad diferencial global, la privacidad diferencial local comienza con la suposición de que no puedes confiarle a ninguna parte tu información personal sin procesar. En lugar de transferir tus datos personales sin procesar a algún servidor central para su análisis, deseas conservar tus datos para eliminar la posibilidad de que sean expuestos o mal utilizados por empresas o piratas informáticos.
Bajo el modelo de privacidad diferencial local, nunca envías tus datos a ninguna parte. En cambio, el algoritmo llega a tu dispositivo. Cuando el algoritmo quiere aprender de tus datos, esencialmente le hace preguntas a tu dispositivo. Luego, tu dispositivo agrega ruido aleatorio para ocultar los datos privados reales en las respuestas, antes de enviarlos al servidor central.
Luego, el servidor central agrega los datos ocultos de todos sus sujetos. Juntos, el ruido aleatorio se cancela, lo que permite que el algoritmo aprenda de la información privada sin haber tenido nunca acceso a los datos sin procesar de ningún individuo.
Este modelo ofrece un mayor grado de privacidad porque elimina la posibilidad de que los datos personales en bruto sean mal utilizados por el organismo central y de que sean robados por los ciberdelincuentes.
Privacidad diferencial y coronavirus
En medio de la pandemia de coronavirus, muchas empresas de tecnología también están haciendo su parte. Un ejemplo son los informes de movilidad de la comunidad Covid-19 de Google, que toman datos agregados de aquellos que han activado el historial de ubicaciones y utilizan Google Maps para determinar qué tan ocupados están ciertos lugares.
Se espera que los informes Covid-19 Community Mobility proporcionen información sobre lo que ha cambiado en respuesta al trabajo desde casa, refugio en el lugar y otras políticas destinadas a aplanar la curva de esta pandemia.
Estos datos podrían ayudar a los funcionarios a tomar decisiones efectivas para combatir la pandemia. Por ejemplo, si una ciudad descubre que ciertas paradas de autobús están demasiado llenas de gente para distanciarse socialmente, podría aumentar la cantidad de servicios que ofrece para ayudar a reducir el contacto entre las personas.
En circunstancias normales, esto puede parecer un avance preocupante, por lo que hay algunas cosas que debemos aclarar.
Las personas que tienen el Historial de ubicaciones activado ya están rastreando su ubicación. La única diferencia ahora es que esta información será parte del agregado que se publica en los informes.
Si bien algunos pueden querer ayudar a los funcionarios en todo lo que puedan, otros pueden estar preocupados por el uso de sus datos. La buena noticia es que los informes de movilidad de la comunidad Covid-19 no implican la recopilación de datos individuales sin procesar.
En cambio, utilizan la privacidad diferencial para recopilar datos que otorgan información útil sobre el grupo, sin comprometer la privacidad de las personas.
Aunque la privacidad diferencial de Google no es perfecta, la compañía parece estar comprometida con la protección de las personas mientras entrega datos para combatir el coronavirus. Si aún te preocupa, el Historial de ubicaciones es un servicio de suscripción y, a menos que esté activado, tus datos no se recopilarán como parte de los informes.
Si deseas ayudar de todas las pequeñas formas que puedas, tener el Historial de ubicaciones activado contribuirá a que los resultados sean un poco más precisos. Sin embargo, hacerlo significa que Google también utilizará tu información de ubicación para otros fines.