Guía completa sobre el enmascaramiento de datos

Dadas las crecientes amenazas cibernéticas y la implementación de la legislación de privacidad de datos como el RGPD en la UE o la CCPA en los EE.UU., las empresas deben asegurarse de que los datos privados se utilicen lo menos posible. El enmascaramiento de datos proporciona una forma de limitar el uso de datos privados al tiempo que permite a las empresas probar sus sistemas con datos que se acercan lo más posible a los datos reales.

El coste medio de una violación de datos fue de más de $ 4 millones en 2020. Esto crea un fuerte incentivo para que las empresas inviertan en soluciones de seguridad de la información, incluido el enmascaramiento de datos para proteger los datos confidenciales. El enmascaramiento de datos es una solución imprescindible para las organizaciones que desean cumplir con el RGPD o utilizar datos realistas en un entorno de prueba.

En este post te explicamos qué es el enmascaramiento de datos, cómo funciona, sus tipos y técnicas, ejemplos y mejores prácticas.

¿Qué es el enmascaramiento de datos?

El enmascaramiento de datos también se conoce como ofuscación de datos, anonimización de datos o seudonimización. Es el proceso de reemplazar datos confidenciales mediante el uso de datos ficticios funcionales como caracteres u otros datos. El objetivo principal del enmascaramiento de datos es proteger la información confidencial y privada en situaciones en las que la empresa comparte datos con terceros.

En esto, el formato sigue siendo el mismo y solo se cambia el valor. Esta versión de los datos, estructuralmente idéntica, pero incorrecta, se utiliza para la formación del usuario o las pruebas de software. Además, la causa principal es mantener seguros los datos reales en las ocasiones en las que no son necesarios.

Aunque las organizaciones tienen reglas y regulaciones estrictas para mantener seguros sus datos de producción, sin embargo, en caso de subcontratación de datos, pueden surgir problemas. Por eso, la mayoría de las empresas no se sienten cómodas mostrando sus datos públicamente.

¿Por qué es importante?

La cantidad de violaciones de datos aumenta cada año. Por lo tanto, las organizaciones necesitan mejorar sus sistemas de seguridad de datos. La necesidad de enmascaramiento de datos está aumentando debido a las siguientes razones:

  • Las organizaciones necesitan una copia de los datos de producción cuando deciden utilizarlos por motivos ajenos a la producción, como pruebas de aplicaciones o modelos de análisis de negocios.
  • La política de privacidad de datos de la empresa también se ve amenazada por personas con información privilegiada. Por lo tanto, las organizaciones deben tener cuidado al permitir el acceso a empleados con información privilegiada.
    • El 79% de los CIO cree que los empleados han puesto en riesgo los datos de la empresa de forma accidental en los últimos 12 meses, mientras que el 61% cree que los empleados han puesto en riesgo los datos de la empresa de forma maliciosa.
    • El 95% reconoce que las amenazas de seguridad internas son un peligro para su organización.
  • RGPD y CCPA obligan a las empresas a fortalecer sus sistemas de protección de datos, de lo contrario, las organizaciones tienen que pagar fuertes multas.

¿Cómo funciona?

El proceso de enmascaramiento de datos es simple, sin embargo, tiene diferentes técnicas y tipos. En general, las organizaciones comienzan identificando todos los datos confidenciales que tiene su empresa. Luego, usan algoritmos para enmascarar datos confidenciales y reemplazarlos con datos estructuralmente idénticos pero numéricamente diferentes.

¿Qué entendemos por estructuralmente idéntico? Por ejemplo, los números de pasaporte son de 9 dígitos y las personas generalmente tienen que compartir la información de su pasaporte con las compañías aéreas. Cuando una compañía aérea crea un modelo para analizar y probar el entorno empresarial, crea una identificación de pasaporte de 9 dígitos diferente o reemplaza algunos dígitos con caracteres.

¿Quién usa el enmascaramiento de datos?

Para cumplir con los Requisitos Generales de Protección de Datos (RGPD), las empresas han mostrado su interés en aplicar el enmascaramiento de datos para garantizar la seguridad de sus datos de producción. De acuerdo con las reglas y regulaciones del RGPD, todas las empresas que reciben los datos de los ciudadanos de la UE deben ser muy conscientes de la sensibilidad del tema y tomar algunas medidas para evitar cualquier inconveniente.

Por lo tanto, se vuelve inevitable para las empresas que integran mantener seguros sus datos confidenciales. Mientras tanto, existen diferentes tipos de datos que se pueden utilizar, pero los siguientes se utilizan con mayor frecuencia en los campos comerciales:

  • Información de identificación personal: cualquier dato que pueda usarse para identificar a una persona en particular. Por ejemplo, nombre completo, número de seguro social, número de licencia de conducir y número de pasaporte.
  • Información médica protegida: incluye información demográfica, historiales médicos, resultados de análisis y laboratorio, afecciones de salud mental, información sobre seguros y otros datos que un profesional de la salud recopila para identificar la atención adecuada.
  • Información de tarjetas de pago (PCI-DSS): existe un estándar de seguridad de la información que las organizaciones deben seguir al manejar tarjetas de crédito de marca de los principales esquemas de tarjetas.
  • Propiedad intelectual (PI): se refiere a creaciones de la mente, como invenciones; obras literarias y artísticas; diseños; y símbolos, nombres e imágenes utilizados en el comercio.

Todos los ejemplos anteriores recaen bajo la obligación que se debe seguir.

Tipos de enmascaramiento de datos

El enmascaramiento de datos es una técnica especial que se aplica para hacer que tus datos no sean accesibles para usuarios que no son de producción. Se está volviendo popular entre las organizaciones, y la razón detrás de esto es una creciente amenaza a la seguridad cibernética. Entonces, para hacer frente a esta amenaza de datos, se aplica la técnica de enmascaramiento. Hay diferentes tipos que sirven a la misma causa, pero su forma de proceder sigue siendo diferente. Ahora, hay dos tipos principales, uno es estático y el segundo es dinámico.

Estáticos

En el caso del enmascaramiento de datos estáticos, se prepara un duplicado de la base de datos, y es idéntico a la base de datos real excepto por aquellos campos que se van a falsificar o enmascarar. Este contenido ficticio no influye en el funcionamiento de la base de datos en el momento de las pruebas en el mundo real.

Dinámico

En el enmascaramiento dinámico de datos, la información importante se modifica solo en tiempo real. Por lo tanto, los datos originales solo serán vistos por los usuarios, mientras que los usuarios sin privilegios solo podrán ver los datos ficticios.

Los anteriores son los principales tipos de enmascaramiento de datos, pero también se utilizan los siguientes tipos.

Ofuscación de datos estadísticos

Los datos de producción de la empresa poseen diferentes cifras que se denominan estadísticas. El enmascaramiento de estas estadísticas se denomina ofuscación de datos estadísticos. Los usuarios que no son de producción nunca podrían tener una estimación de las estadísticas reales en este tipo de enmascaramiento de datos.

Enmascaramiento de datos sobre la marcha

El enmascaramiento de datos sobre la marcha se aplica cuando se realiza la transferencia de datos de entorno a entorno. Este tipo es explícitamente adecuado para entornos que realizan una implementación continua para aplicaciones altamente integradas.

¿Cuáles son las técnicas de enmascaramiento de datos?

Existen numerosas técnicas de enmascaramiento de datos y las clasificamos según su caso de uso.

Adecuado para la gestión de datos de prueba

Sustitución

En el enfoque de sustitución, como su nombre se refiere, las empresas sustituyen los datos originales con datos aleatorios del archivo de búsqueda proporcionado o personalizado. Esta es una forma eficaz de disfrazar los datos, ya que las empresas conservan el aspecto auténtico de los datos.

Arrastramiento

La mezcla aleatoria es otro método común de enmascaramiento de datos. En el método de barajado, al igual que la sustitución, las empresas sustituyen los datos originales por otros datos de aspecto auténtico, pero barajan las entidades en la misma columna de forma aleatoria.

Variación de número y fecha

Para los conjuntos de datos financieros y basados ​​en fechas, aplicar la misma variación para crear un nuevo conjunto de datos no cambia la precisión del conjunto de datos mientras se enmascaran los datos. El uso de la varianza para crear un nuevo conjunto de datos también se usa comúnmente en la generación de datos sintéticos.

Cifrado

El cifrado es el algoritmo de enmascaramiento de datos más complejo. Los usuarios pueden acceder a los datos solo si tienen la clave de descifrado.

Codificación de personajes

Este método implica reorganizar aleatoriamente el orden de los caracteres. Este proceso es irreversible, por lo que los datos originales no se pueden obtener a partir de los datos codificados.

Adecuado para compartir datos con usuarios no autorizados

Anulación o eliminación

Reemplazar los datos confidenciales con un valor nulo es también un enfoque que las empresas pueden preferir en sus esfuerzos de enmascaramiento de datos. Aunque reduce la precisión de los resultados de las pruebas, que en su mayoría se mantienen en otros enfoques, es un enfoque más simple cuando las empresas no están enmascarando debido a fines de validación del modelo.

Enmascarar

En el método de enmascaramiento, solo se enmascara una parte de los datos originales. Es similar a anular, ya que no es efectivo en el entorno de prueba. Por ejemplo, en las compras en línea, solo se muestran a los clientes los últimos 4 dígitos del número de la tarjeta de crédito para evitar fraudes.

¿En qué se diferencia el enmascaramiento de datos de los datos sintéticos?

Para crear datos de prueba que cumplan con las regulaciones del RGPD, las organizaciones tienen dos opciones: generar datos sintéticos o enmascarar datos con diferentes algoritmos. Aunque estas dos técnicas de prueba tienen el mismo propósito, cada método tiene diferentes beneficios y riesgos.

El enmascaramiento de datos es el proceso de crear una copia de datos del mundo real que se oculta en campos específicos dentro de un conjunto de datos. Sin embargo, incluso si la organización aplica las técnicas de enmascaramiento de datos más complejas y completas, existe una pequeña posibilidad de que alguien pueda identificar a personas individuales en función de las tendencias en los datos enmascarados. Por tanto, existe el riesgo de divulgar información a terceros.

Por otro lado, los datos sintéticos son datos que se crean artificialmente en lugar de ser generados por eventos reales. No contiene información real sobre individuos, se crea en base al modelo de datos o modelos de mensajes que utiliza una empresa para sus sistemas de producción. Para los casos en los que una empresa está probando una aplicación completamente nueva o la empresa cree que el enmascaramiento de sus datos no es suficiente, el uso de datos sintéticos es la respuesta.

¿Cómo promueve el RGPD el enmascaramiento de datos?

El enmascaramiento de datos se acepta como una técnica para proteger los datos de las personas por el RGPD. A continuación, se muestran los artículos relacionados en los que el RGPD anima a las empresas a utilizar la seudonimización:

Artículo 6 (4-e): «la existencia de salvaguardias adecuadas, que pueden incluir cifrado o seudonimización».

Artículo 25 (1): “Teniendo en cuenta el estado de la técnica, el costo de implementación y la naturaleza, alcance, contexto y propósitos del procesamiento, así como los riesgos de variabilidad y severidad de los derechos y libertades de las personas físicas planteados por procesamiento, el controlador, tanto en el momento de la determinación de los medios para el procesamiento como en el momento del procesamiento en sí, implementará las medidas técnicas y organizativas apropiadas, como la seudonimización, que están diseñadas para implementar los principios de protección de datos, tales como minimización de datos, de manera eficaz y para integrar las salvaguardias necesarias en el procesamiento con el fin de cumplir con los requisitos del presente Reglamento y proteger los derechos de los interesados ​​”.

«El responsable del tratamiento y el encargado del tratamiento aplicarán las medidas técnicas y organizativas adecuadas para garantizar un nivel de seguridad adecuado al riesgo, que incluyen, entre otras cosas, según proceda: la seudonimización y el cifrado de los datos personales» (Artículo 32 (a)).

Artículo 40 (2): “Las asociaciones y otros organismos que representen categorías de controladores o procesadores podrán preparar códigos de conducta, o enmendar o ampliar dichos códigos, con el propósito de especificar la aplicación de este Reglamento, por ejemplo con respecto a: (d) la seudonimización de datos personales.

Artículo 89 (1): «El procesamiento con fines de archivo en interés público, con fines de investigación científica o histórica o con fines estadísticos, estará sujeto a las salvaguardias adecuadas, incluida la minimización de datos y la seudonimización»

Ejemplos

A continuación, tienes algunos ejemplos de uso de enmascaramiento de datos.

Independence Health Group

Independence Health Group es la compañía líder en seguros de salud que ofrece una amplia gama de servicios que incluyen cobertura médica comercial, de Medicare y Medicaid, administración de beneficios de terceros, administración de beneficios de farmacia y compensación para trabajadores.

La compañía quería permitir que los desarrolladores en tierra y fuera de la costa probaran aplicaciones utilizando datos reales, sin embargo, necesitaban enmascarar la PHI y otra información de identificación personal.

Decidieron utilizar el enmascaramiento dinámico de datos de para disfrazar los nombres de los miembros, las fechas de nacimiento, los números de seguridad social (SSN) y otros datos confidenciales en tiempo real a medida que los desarrolladores recopilan conjuntos de datos.

Con una solución de enmascaramiento de datos, Independence Health puede proteger mejor los datos confidenciales de los clientes, lo que reduce el coste potencial de una violación de datos.

Samsung

Samsung está trabajando en el análisis y la producción de productos para televisores inteligentes y móviles en todo el mundo. Mientras realiza análisis de productos en millones de dispositivos Samsung Galaxy Smartphone, la empresa debe proteger la información privada personal de acuerdo con las reglas y procedimientos de la regulación local.

Para garantizar el cumplimiento legal de la privacidad personal, Samsung se ha asociado con Dataguise. La herramienta de Dataguise para Hadoop descubre automáticamente los datos de privacidad del consumidor y los cifra antes de migrar los datos a las herramientas de análisis de AWS para que solo los usuarios autorizados puedan acceder y realizar análisis en datos reales.

Mejores prácticas

Aquí te contaremos sobre las mejores prácticas de enmascaramiento de datos:

  • Buscar datos: Este es el primer paso en el que debes encontrar los datos que parecen ser confidenciales y deben enmascararse.
  • Encuentra la técnica adecuada: Después de haber visto la naturaleza de los datos, puedes elegir cualquiera de las técnicas que se han dado anteriormente en el artículo. Teniendo en cuenta las circunstancias, será fácil encontrar una técnica de enmascaramiento adecuada.
  • Implementación de enmascaramiento: Esto no va a funcionar para una gran organización para usar una sola herramienta de enmascaramiento. Pero debe hacerse con una planificación adecuada y diversas herramientas. Por lo tanto, para tener las mejores soluciones de enmascaramiento de datos, debes analizar las necesidades de tu empresa en el futuro.
  • Resultados de la prueba de enmascaramiento de datos: Este es el paso final. Se requieren controles de calidad y pruebas para garantizar que los arreglos de ocultación produzcan los resultados deseados.

Herramientas de enmascaramiento de datos

Como todos sabemos, la tecnología se desarrolla de forma constante a diario, y las soluciones a diferentes problemas se van modificando. Por lo tanto, las herramientas que estaban disponibles han agregado un nuevo lote con una eficiencia y calidad de trabajo aún mejores. Por lo tanto, aquí tenemos algunas de las últimas soluciones o herramientas de enmascaramiento de datos que se utilizan.

  • Administrador de datos de prueba de CA
  • Plataforma Dataguise Privacy on Demand
  • Plataforma de datos dinámicos Delphix
  • HPE SecureData Enterprise
  • IBM Infosphere Optim
  • Enmascaramiento de datos de camuflaje Imperva
  • Enmascaramiento de datos persistentes de Informatica (para SDM)
  • Mentis
  • Enmascaramiento dinámico de datos de Informatica (para DDM)
  • Seguridad avanzada de Oracle (para DDM)
  • Paquete de enmascaramiento y subconjuntos de datos de Oracle (para SDM)
  • Análisis de privacidad
  • Enmascaramiento de datos Solix.