Estamos experimentando una proliferación de dispositivos inteligentes, como los teléfonos inteligentes en manos de los consumidores y el Internet de las cosas (IoT) en los hogares y las industrias. Durante todo el día, estos dispositivos recopilan datos con sensores y software, lo que ha provocado una explosión de datos. Esta generación exponencial de información ha justificado la necesidad de «almacenar» datos.
Las empresas pueden utilizar grandes «lagos» de datos para analizar, sacar conclusiones y tomar decisiones comerciales.
Las empresas públicas más grandes del mundo como Amazon, Google, Facebook, Alibaba y Tencent dependen de los datos para el éxito empresarial; algunas son exclusivamente empresas de datos. Hoy en día, las empresas de todos los tamaños tienen que trabajar con datos para seguir siendo competitivas en el mercado.
Sin embargo, los datos a menudo se recopilan más rápido de lo que se pueden usar. Las enormes cantidades de datos generados y almacenados plantean un problema: los datos oscuros.
Aquí tienes todo lo que debes saber sobre los datos oscuros, qué son, tipos, cómo se utilizan y sus riesgos de seguridad y privacidad.
Indice
¿Qué son los datos oscuros?
Los datos oscuros y los datos no estructurados son casi lo mismo. La diferencia radica en a quién va dirigido el término. Los datos no estructurados tienden a ser una palabra dirigida a los ingenieros. Se refiere a las cualidades estructurales de los datos, indicando al ingeniero cómo tendrán que refinar los datos para hacer algún uso de ellos.
Los datos no estructurados son datos sin refinar, que requieren más trabajo para que sean utilizables. Los datos estructurados ya son datos refinados donde el propósito de los datos ya está determinado. Los no estructurados son el yin del yang de los datos estructurados, pero, en su mayoría, los datos no estructurados provienen de un punto de vista centrado en la ingeniería.
Los datos oscuros, sin embargo, surgen desde el punto de vista centrado en el usuario. Cuando los datos estructurados se refieren a las cualidades estructurales de los datos, los datos oscuros se refieren a las cualidades visibles de los datos. Hay datos que el usuario puede ver, como fotos de Instagram, nombres de perfil, hashtags, pero luego hay datos que el usuario no puede ver. Los datos oscuros.
En una plataforma de redes sociales como Instagram, los datos oscuros serían:
- ¿Cuántas instancias de inicio de sesión tiene el usuario?
- ¿La actividad de sus usuarios se concentra en determinados momentos del día?
- ¿A cuántas personas les gustó la publicación que tienen grandes redes de usuarios? (Para medir la influencia de un usuario).
- ¿De dónde fue tomada la foto?
- ¿Dónde estaba la persona cuando publicó la foto?
Cuando los usuarios son los ingenieros, los datos oscuros se referirán a datos no estructurados que no se analizan. Son los datos almacenados a través de varios procesos de red en servidores y en lagos de datos los que terminan almacenados para satisfacer el estatuto de limitaciones de la industria o se mantienen porque el almacenamiento de datos puede ser muy barato.
Se trata de información no utilizada recopilada y almacenada por las organizaciones a través de sus actividades comerciales diarias. Este tipo de datos generalmente no se utiliza para fines tales como análisis, monetización directa o relaciones comerciales debido a su inaccesibilidad a las herramientas tradicionales de bases de datos. Los datos oscuros generalmente están en un formato no estructurado, mal etiquetado e inviable.
Tipos
Los tipos de datos oscuros que existen son específicos de la industria. Los datos meteorológicos de fondo se pueden recopilar en una aplicación en ejecución y el historial del navegador se puede recopilar en una aplicación de compras.
Básicamente, cualquier cosa que se envíe a través de Internet tiene el potencial de ser y crear datos oscuros. Los paquetes se envían del punto A al punto B. Si bien esos paquetes se pueden cifrar y los que miran pueden tener dificultades para ver lo que hay en el paquete, hay otras entidades conocidas en el proceso.
En algunos casos, es posible que una organización ni siquiera sepa que está recopilando datos oscuros. Los tipos de datos oscuros o heredados pueden incluir datos internos sin explotar, datos no estructurados no tradicionales (adjuntos a archivos de audio, video, imágenes) y datos ocultos detrás de firewalls, como datos de la web profunda. Otras fuentes tecnológicas incluyen:
- Informática vehicular
- Telecomunicaciones
- Comunicaciones inalámbricas
- Sistemas globales de navegación por satélite
- Datos en tránsito de transacciones de red
- Redes industriales como máquinas y dispositivos de sensores
Ejemplos de datos oscuros de estas fuentes podrían incluir:
- Datos brutos de la encuesta
- Datos de geolocalización
- Estados financieros
- Registros de llamadas de clientes
- Correspondencia por correo electrónico
- Datos de empleados anteriores
- Imágenes de video de vigilancia
- Archivos de registro de servidores y sistemas
- Presentaciones, documentos y notas antiguas
Las empresas no son las únicas que recopilan datos oscuros. Al descargar documentos de Internet, muchas personas acumulan sin saberlo datos oscuros debido a protocolos de almacenamiento de datos inadecuados, como etiquetado y archivo.
Cualquier documento descargado que no esté claramente etiquetado probablemente se acumulará en tu computadora o en la nube, sin usar y no se podrá encontrar en el futuro. Estos documentos se encuentran en la parte de tus datos oscuros personales.
Existe una gran variedad de datos que se encuentran en datos oscuros. Debido a la naturaleza y la inmensidad de los datos oscuros, es difícil clasificarlos en grupos prolijos.
Sin embargo, se puede clasificar por origen, tipo y otras características de los datos. Analicemos cinco tipos principales de datos oscuros.
1. Requisito reglamentario
Los diferentes países tienen diferentes leyes y mandatos de protección de datos por motivos de seguridad. RGPD, HIPPA, CCPA y PIPL son algunas de las regulaciones que los proveedores de servicios deben seguir. De acuerdo con cada legislación específica, los proveedores de servicios deben recopilar y almacenar datos durante un período de tiempo. Es posible que las organizaciones no necesiten estos datos, pero deben conservarlos con fines legales. Los datos que no se utilizan son datos oscuros.
2. Datos olvidados
Los datos a menudo se recopilan o se obtienen para su uso posterior. Cuando esos datos se adquieren originalmente, una organización puede necesitar solo una parte de los datos. El resto se almacena para utilizarlo más tarde. Con el paso del tiempo, las organizaciones se olvidan de esta existencia de datos y nunca los utilizan. Este es un tipo común de datos oscuros.
3. Metadatos
Los datos de los teléfonos inteligentes y las redes sociales tienen metadatos vinculados. Algunas organizaciones pueden hacer uso de ellos, pero es posible que otras no sepan cómo usarlos. Las organizaciones que no utilizan metadatos almacenan datos oscuros que derrochan dinero.
4. Datos urgentes
Los datos sensibles al tiempo son datos que deben usarse dentro de un período de tiempo determinado; de lo contrario, no es valioso. Por ejemplo, la información de ubicación de un comprador es muy relevante para una empresa de cupones, ya que pueden enviar cupones según la ubicación. Una vez que el usuario se aleja de la ubicación, los datos de ubicación no son relevantes a menos que se utilicen para fines analíticos más amplios.
5. Datos no estructurados
Los datos no estructurados constituyen la mayor parte de datos oscuros. Este tipo de datos no se pueden etiquetar, categorizar ni analizar fácilmente y. puede estar en una amplia gama de formatos, lo que dificulta su estructura y análisis. Los archivos de texto, los datos de audio y los videoclips son algunos ejemplos de datos no estructurados. Se estima que para 2025, el 80% de todos los datos estarán desestructurados.
Cómo utilizar datos oscuros
Los datos oscuros no significan datos sin ningún uso, significa que una organización no los ha utilizado. Esto se puede cambiar fácilmente ya que la mayoría de los datos oscuros son un tesoro de información y conocimientos.
El primer paso para descubrir datos oscuros es informar a tus empleados del problema. Una vez que los empleados están familiarizados con los datos, pueden reconocer el valor de todo tipo de datos.
El segundo paso es realizar una auditoría exhaustiva para descubrir datos oscuros. Tu organización no estará al tanto de los datos oscuros en sus almacenes de datos; cada rincón debe peinarse para identificar los datos oscuros.
Elimina todos los datos innecesarios. No es necesario almacenar datos en previsión de futuras utilidades. Puedes asumir con seguridad que los datos que has estado almacenados durante años y nunca se han aprovechado son datos inútiles.
Finalmente, alinea tus datos oscuros con los objetivos comerciales. Haz preguntas y capacita a tu equipo de datos para que colabore y analice los datos recién descubiertos. Podrán descubrir información útil a partir de los datos.
No todos los datos oscuros son iguales. Dependiendo de tu industria, parte de ellos nunca fueron valiosos y es probable que más de la mitad pierda valor rápidamente. Es probable que la otra mitad no estén estructurados, sin formato y sin etiqueta, lo que dificulta el acceso. Estas características presentan desafíos únicos para las empresas interesadas en invertir en herramientas de análisis y extracción de datos oscuros.
Las empresas pueden tomar medidas para administrar mejor sus datos oscuros y prepararlos para el análisis. También pueden aplicar los siguientes pasos a los datos entrantes:
- Audita y elimina periódicamente tu base de datos. Esta poda requerirá que el personal asigne categorías y etiquetas a los datos antiguos, haciéndolos más accesibles.
- Aplica fuertes estándares de cifrado a sus datos, incluidos los datos del servidor interno y los que se encuentran en el almacenamiento en la nube.
- Crea políticas de retención de datos y eliminación segura alineadas con las Pautas del Instituto Nacional de Estándares y Tecnología para el Saneamiento de Medios. Las políticas deben identificar claramente los criterios para el borrado y la retención de datos.
Utilizar tecnologías avanzadas para optimizar el valor de los datos oscuros
Para muchas empresas, la adaptación de datos no estructurados en activos comprensibles implica procesos prolongados que son en su mayoría manuales y, por lo general, con costes prohibitivos. Para un uso más óptimo de los recursos, las empresas deben automatizar este proceso.
Los avances en tecnologías como la visión por computadora, el análisis cognitivo y el reconocimiento de patrones hacen que esto esté más disponible, al menos para las grandes corporaciones que deseen y puedan invertir en las herramientas y los empleados capacitados necesarios. Estas herramientas pueden facilitar el procesamiento y la exploración de datos oscuros no estructurados.
Aprendizaje automático
Como forma de aplicación de inteligencia artificial (IA), el aprendizaje automático es una de estas herramientas analíticas. Esta permite que los sistemas aprendan y completen tareas rápidamente, como la ejecución continua de programas de computadora, en una fracción del tiempo que tomaría hacer el mismo trabajo manualmente.
En el caso de los datos oscuros, el aprendizaje automático puede crear modelos de observación de datos que busquen patrones. Si funciona correctamente, dicho sistema alertará a los usuarios sobre las excepciones, con la opción de que aborden o ignoren la alerta. El sistema aprende de las reacciones de los usuarios y ofrecerá automáticamente una solución similar la próxima vez que ocurra un evento de este tipo.
El aprendizaje automático puede desempeñar un papel vital para ayudar a las empresas a descubrir información no utilizada y conocimientos que de otro modo se pasarían por alto. Estos conocimientos pueden ayudar a las organizaciones a tomar decisiones más informadas sobre sus datos entrantes. También pueden orientarlos hacia los pasos prácticos que deben tomar en respuesta a sus datos.
La implementación de sistemas de aprendizaje automático requerirá cambios estructurales internos para las empresas, que pueden ser costosos tanto en tiempo como en dinero. Para muchas empresas, los beneficios serán un alto retorno de la inversión.
Visualización de datos
Existen herramientas menos costosas que el aprendizaje automático, como las tecnologías de visualización de datos. Estas herramientas funcionan para conectar y presentar todas tus fuentes de datos en un solo panel que puede proporcionar visibilidad en tiempo real de tus datos compilados. Las empresas pueden aprovechar este tipo de herramienta para clasificar sus datos oscuros y descubrir información valiosa que de otro modo no se utilizaría.
Privacidad de datos oscuros
Las personas están creando su huella tecnológica con datos. Esto está bien cuando a las personas no les importa si otros saben por dónde han estado caminando, pero, a veces, hay otros elementos (consultas médicas, búsquedas en Google, sitios menos interesantes e incluso información que debe ocultar a un socio o familiar) que los individuos no quieren que los demás vean.
Cuando se trata de datos, la seguridad es un gran desafío.
Datos anónimos
La gente suele pensar que el primer paso para proteger los datos es anonimizarlos. Esto significa que todos los puntos de datos pueden existir, pero eliminarán cualquier número de cuenta, nombre, dirección de correo electrónico, etc., de los datos de la persona para que no puedas identificarla directamente. Ese método funcionó en la escuela primaria, cuando se quitó un nombre de una tarea que alguien entregó.
Pero los datos en el mundo tecnológico funcionan de manera diferente. Cualquier conjunto de puntos de datos es un identificador. Cinco puntos de datos vinculados a una persona, independientemente del nombre que se le dé, son un identificador. Si se sabe que alguien se despierta por la mañana, sale a caminar, estornuda, bosteza, patea una piedra, se vuelve a dormir, esa es la impresión de una identidad única estampada en el mundo.
Intersecciones de datos
Hay tantos datos por ahí que el nombre de una persona puede existir entre otro conjunto de datos. Luego, cuando estos conjuntos de datos tienen puntos de datos que se cruzan, los dos conjuntos tienen referencias cruzadas, es posible colocar una identidad sobre los datos anónimos. Crear un diagrama de Venn de diferentes fuentes de datos y encontrar cuáles se superponen es una opción simple, y las estadísticas invitan a métodos más complejos para desanonimizar los datos.
Existe la historia de un caso legal en el que una anciana fue atropellada por un automóvil y el automóvil se fue. La mujer pudo decir que el auto era amarillo (no sabía la marca) y que el conductor era un hombre moreno con cabello oscuro. Eso no es mucho, pero algunos puntos de datos oscuros más agregan la hora del día del accidente y la ubicación del accidente. A partir de estos cuatro puntos de datos, en una ciudad de aproximadamente 120.000 habitantes, los investigadores pudieron reducir su búsqueda, desde lo que parecían ser probabilidades imposibles, hasta tener solo unos pocos sospechosos que podrían haber golpeado a la mujer.
Del mismo modo, desde el mundo de la tecnología, el equipo de investigación de 7scientists presentó un caso similar en Defcon. Compraron datos de navegación anónimos, que son fáciles de adquirir, y demostraron que podían identificar al usuario a partir de ellos basándose en solo cinco puntos de datos.
Privacidad de datos de código abierto
Open Mined es un grupo de investigación de código abierto que trabaja para hacer que los datos preserven más la privacidad. En un mundo con datos cada vez más oscuros, su trabajo beneficia a la población en general al hacer que los datos sean más anónimos y garantizar que las identidades se vuelvan privadas incluso en las cantidades cada vez mayores de datos disponibles.
Específicamente, los modelos de aprendizaje automático se entrenan con datos. Los modelos de aprendizaje automático pueden ofrecer un alto valor y funcionar con datos confidenciales. Si bien todos los datos pueden considerarse confidenciales y pueden tratarse por igual, las condiciones legales colocan los registros médicos entre los más confidenciales.
Por lo tanto, entrenar modelos de aprendizaje automático en los historiales médicos de las personas es de naturaleza muy difícil debido a la sensibilidad con la que la industria ha tratado los registros en el pasado. Los desafíos incluyen: datos insuficientes, datos aislados en diferentes ubicaciones por motivos de seguridad, tener que pasar por muchos obstáculos adicionales para cumplir con las “mejores prácticas de seguridad” creadas por las instituciones reguladoras.
El objetivo de Open Mined es doble: crear un marco en el que a las personas se les pague por sus datos y realmente anonimizar los datos cuando se pasan a través de modelos ML. Con ese fin, el grupo de código abierto ofrece actualmente tres soluciones de software principales:
- Aprendizaje automático cifrado como servicio
- Plataforma de ciencia de datos para preservar la privacidad
- Aprendizaje federado.
¿Por qué debería preocuparme por los datos oscuros?
Existen numerosas razones para que te preocupes por los datos oscuros que pueden volverse aún más urgentes a medida que pasa el tiempo.
Leyes de protección de datos
En 2018, la Unión Europea introdujo una legislación innovadora llamada Reglamento general de protección de datos (GDPR) de la Unión Europea. Esta legislación restringe las prácticas y el uso de la recopilación de datos. Regulaciones similares siguieron en 2020 a través de la Ley de Privacidad del Consumidor de California (CCPA) y la Ley General de Protección de Datos (LGPD) de Brasil.
Estas regulaciones de privacidad, introducidas para proteger los datos de los consumidores y limitar la venta de información personal, presentan nuevos desafíos para las empresas que recopilan datos. El incumplimiento de estas regulaciones podría resultar en multas elevadas. Las infracciones de privacidad pueden dañar la reputación de una empresa y sus posibilidades de éxito. Por lo tanto, es esencial que las empresas de recopilación de datos se familiaricen con estas nuevas regulaciones para garantizar que sus prácticas cumplan con las mismas.
Muchos usuarios de Internet están familiarizados con las opciones de aceptación o exclusión que ahora están disponibles en la mayoría de los sitios web. Los consumidores ahora también pueden solicitar acceso a los datos recopilados durante el año pasado, incluidos los datos personales que terminaron como datos oscuros. La información no estructurada o inaccesible podría generar problemas legales para las empresas.
Seguridad interna
Si bien los datos oscuros generalmente no están organizados ni estructurados, también pueden contener información confidencial y patentada que podría ser peligrosa en las manos equivocadas. Con las violaciones de datos cada vez más comunes, las empresas que no organizan o protegen sus datos oscuros podrían ser vulnerables a graves riesgos de seguridad. Si una violación de datos incluye los datos personales de los consumidores, puede exponerlos a riesgos de seguridad y posibles fraudes de identidad.
Oportunidades perdidas
Análisis de datos efectivo
Los datos oscuros a los que no se acceden limitarán la capacidad de una organización para producir el análisis de datos más útil. Las herramientas de análisis producen análisis de datos de la más alta calidad cuando tienen acceso a datos completos. La falta de acceso a datos oscuros limita el conjunto de información analizable. Hasta el 60% de los datos oscuros comienzan a perder valor inmediatamente después de su generación.
Potencial de datos sin explotar
Las organizaciones sin analistas de datos capacitados o sin presupuestos para proveedores de servicios externos pueden estar perdiendo oportunidades para aprovechar el potencial sin explotar de esta información. Las herramientas de extracción y análisis disponibles pueden ser costosas y su gestión requieren personal capacitado y con conocimientos.
El análisis de datos oscuros puede revelar información valiosa y matizada sobre clientes, negocios y operaciones que los datos estructurados que actualmente están bajo tu control no pueden revelar. Estos conocimientos podrían proporcionar un conocimiento más profundo de algunas de las siguientes áreas:
- Cuánto tiempo permanecen los clientes en una página web
- ¿En qué momento los clientes suelen salir de una página web?
- Cómo interactúan los consumidores con los programas de fidelización
- Comentarios de los clientes a través de registros de llamadas
- Qué afecta el comportamiento del consumidor y las tendencias de gasto
- Qué afecta las tendencias de inversión
- Cuando es probable que los clientes se pongan en contacto con una empresa a través de un canal de asistencia.
- Patrones de actividad y seguridad de la red
- Patrones de tráfico de datos de geolocalización móvil
A medida que tus competidores aprovechen tus datos previamente no apalancados, puedes encontrar oportunidades de ingresos perdidas o una disminución en tu participación de mercado, a menos que hagas lo mismo.
En el competitivo mercado actual, los datos son moneda corriente. El tamaño de los datos oscuros por sí solo es una fuente crítica de conocimiento con el potencial de mejorar las operaciones comerciales. Al expandir la cantidad de datos analizados, las organizaciones pueden aprovechar las nuevas innovaciones para crear ventajas competitivas. Si las empresas no logran optimizar las nuevas formas de datos en la era digital actual, corren el riesgo de quedarse atrás en comparación con sus competidores.
Espacio de almacenamiento
Una de las preocupaciones más costosas de los datos oscuros es el bajo retorno de la inversión en espacio de almacenamiento. A medida que crecen tus datos desorganizados, se requiere un almacenamiento que, de lo contrario, podrías utilizar para obtener información más accesible. Los centros de almacenamiento de datos desperdician el 90% de su energía en datos oscuros. Las necesidades de almacenamiento más importantes significan costes generales más altos, lo que ya es una preocupación en la mayoría de las organizaciones.
Conclusión
Muchas empresas están de acuerdo en que los datos oscuros no utilizados representan oportunidades perdidas. Pero para muchas de estas empresas, acceder, comprender y utilizar estos datos pueden presentar un desafío abrumador. La inversión en los nuevos procesos, mano de obra y tecnologías necesarias puede presentar muchas limitaciones financieras. Las empresas que se han movido hacia la recopilación de big data pero no logran explotar los datos oscuros pierden muchas ventajas que podrían dictar su éxito.
Al invertir en nuevos empleados con habilidades y tecnologías avanzadas como el aprendizaje automático, las empresas tienen el potencial de combinar datos estructurados y no estructurados para generar resultados valiosos.
Liberar los beneficios de los datos oscuros puede permitir que las organizaciones obtengan conocimientos y perspectivas que les permitan obtener ventajas competitivas y aumentar sus resultados finales.