La acumulación de datos aumenta a diario a un ritmo exponencial y la naturaleza de alto perfil de las violaciones de datos puede ser extremadamente perjudicial para una empresa. Por lo tanto, la capacidad de una empresa para proteger sus datos es crucial para su supervivencia.
Tener la capacidad de identificar amenazas a la seguridad lo más rápido posible, ya sea detectando o reparando estas amenazas, es crítico.
Se necesitan las herramientas adecuadas en estas situaciones y los avances en el análisis de Big Data muestran una reducción prometedora para combatir los ataques cibernéticos y mejorar la seguridad en general.
Vamos a analizar aquí cómo puede utilizarse el Big Data para mejorar la ciberseguridad. Pero antes veamos en qué consiste el Big Data, cómo funciona y sus tipos.
Indice
¿Qué es Big Data?
Big Data es la rápida expansión de datos estructurados, no estructurados y semiestructurados generados principalmente desde dispositivos conectados a Internet. El volumen, la velocidad y la variedad de big data es lo que lo hace tan «grande».
La información derivada del software de big data se puede utilizar para ayudar a los especialistas en marketing a enfocar sus campañas de manera más estratégica, ayudar a los ambientalistas a comprender la sostenibilidad en el futuro, ayudar a los profesionales de la salud a predecir epidemias y mucho más.
Para comprender la magnitud de los grandes datos, primero debemos analizar su historia y lo lejos que hemos llegado en un período de tiempo tan corto.
Historia
La práctica de reunir y almacenar grandes cantidades de información, y luego intentar darle sentido a esa información, ha existido durante siglos. Por ejemplo, la Oficina del Censo de los EE.UU. comenzó a registrar datos de población en tarjetas perforadas en 1790.
Con la «explosión de información» de la década de 1940, la sociedad necesitaba desesperadamente una mejor manera de almacenar y acceder a grandes cantidades de datos.
La comercialización de Internet en 1995 allanó el camino para la Web 2.0. En su infancia, Internet era solo de información y presentaba sitios web estáticos que proporcionaban aburridas experiencias de usuario. Cuando se lanzó Web 2.0 en 2004, los usuarios finales ahora podían generar, distribuir y almacenar su propio contenido en una comunidad virtual.
Los usuarios de Internet inundaron las redes sociales como Facebook y Twitter a mediados de la década de 2000, lo que condujo a la distribución de aún más datos. Además, YouTube y Netflix cambiaron para siempre la forma en que veíamos y transmitíamos contenido de vídeo.
El Internet de las cosas (IoT) revolucionó el Big Data en 2014. Con un mundo conectado a Internet, más empresas decidieron cambiar el gasto hacia Big Data para reducir los costes operativos, aumentar la eficiencia y desarrollar nuevos productos y servicios.
Ahora, el alcance de los grandes datos es casi infinito. Los investigadores en «ciudades inteligentes» están utilizando datos en tiempo real para observar el consumo de electricidad, la contaminación, el tráfico y mucho más. Las tecnologías emergentes como la inteligencia artificial y el aprendizaje automático están aprovechando los grandes datos para la automatización futura y ayudando a los humanos a revelar nuevas soluciones.
Funcionamiento del Big Data
El mercado de Big Data se está acelerando a velocidades realmente alucinantes. En 2014, Big Data era solo un mercado de 18.3 mil millones de dólares. Pero, se pronostica que para 2026, los ingresos totales generados por hardware, software y servicios profesionales asociados con Big Data alcanzarán los 92,2 mil millones de dólares.
Una de las principales razones de esta aceleración puede estar vinculada a IoT. Para bien o para mal, los humanos están constantemente involucrados con dispositivos conectados a Internet que contribuyen al flujo constante de datos.
Los dispositivos que poseemos hoy vienen en forma de teléfonos inteligentes, ordenadores portátiles, tabletas, televisores inteligentes, consolas de juegos, relojes inteligentes, etc. Pero en un futuro muy cercano, aparecerán electrodomésticos inteligentes como tostadoras, refrigeradores, cerraduras inteligentes y otros que contribuyan a esta combinación.
El hardware en sí mismo posibilita que se compartan datos de manera más eficiente, pero el volumen real de big data surge de la manera en que interactuamos con estos dispositivos.
Por ejemplo, un reloj inteligente puede recopilar todo tipo de datos sobre ti. Puede rastrear la frecuencia cardíaca, la calidad del sueño, los niveles de glucosa en sangre e incluso los ciclos de fertilidad. Y esos datos se pueden compartir con los proveedores de atención médica para una atención al paciente más personalizada.
Los conjuntos de datos masivos pueden alimentar a una red neuronal de aprendizaje profundo (piensa en un súper cerebro digital y artificial) para comprender las eficiencias desde el punto de vista empresarial.
Darle sentido a todos estos datos y usarlos para obtener descubrimientos únicos, rentables y potencialmente innovadores, es donde reside el valor real del Big data.
Las tres V
El Big data no es fácil de comprender, especialmente con las enormes cantidades y variedades de datos actuales. Para ayudar a darle sentido, los expertos los han dividido en tres segmentos más fáciles de entender. Estos segmentos se conocen como las 3 V de Big data: volumen, velocidad y variedad.
1. Volumen
La primera V de big data es quizás la más destacada, y se refiere al gran volumen de datos disponible ahora y en el futuro.
Hay muchos datos por ahí, una cantidad casi incomprensible. Con el 90 por ciento de todos los datos a lo largo de la historia generados en los últimos dos años, eso equivale a aproximadamente 2.5 quintillones de bytes de datos creados cada día.
Pero si pensabas que 2,5 quintillones era grande, piensa que para 2025, se estima que el universo digital alcanzará 163 zettabytes de datos.
Veamos el volumen desde el punto de vista de las redes sociales, ya que las redes sociales han tenido un impacto sustancial en los grandes datos.
A partir de 2016, hay casi 2 billones de publicaciones en total en Facebook. Desde que Facebook se lanzó por primera vez en 2004, se han cargado más de 250 mil millones de fotos en la plataforma.
Facebook ha acumulado una gran cantidad de datos personales, y sus 2.200 millones de usuarios comparten una cantidad asombrosa cada segundo del día. Esto simplemente no sería posible sin el crecimiento de Big Data.
2. Velocidad
La segunda V de big data se refiere a la velocidad a la que se expande el universo de big data.
Inicialmente, la aceleración de big data puede presentar oportunidades interesantes. Hay tantos datos a mano, y cuando aprovechamos estos datos, se pueden usar para descubrir nuevas realidades.
Lamentablemente, la velocidad a la que crecen los datos está superando rápidamente nuestra capacidad de descifrarlos.
Big data no solo es «grande», sino que también está creciendo exponencialmente rápido. Pongamos esta velocidad en perspectiva al continuar nuestra serie de hechos asombrosos de Facebook. En esta red social ¡hay 510,000 comentarios publicados, 293,000 estados actualizados y 136,000 fotos subidas a Facebook cada minuto!
Las tecnologías de Big data y los metadatos combinados con inteligencia artificial y aprendizaje automático deberán utilizarse a su máximo potencial para darnos la mejor instantánea de las fronteras futuras.
3. Variedad
La última V de big data se refiere a la variedad, o muchos tipos diferentes, de datos que se generan hoy.
Los datos son grandes, los datos son rápidos, pero los datos también son extremadamente diversos.
Hace solo unas décadas, los datos probablemente habrían sido texto plano y perfectamente estructurados en una base de datos relacional. No había muchas opciones para usar estos datos, aparte de una clasificación simple o tal vez encontrar una tendencia.
Big data ha cambiado drásticamente el panorama de datos. Todavía hay un lugar para los datos de texto sin formato, pero los formatos de datos como audio digital, vídeo, imágenes y muchos otros han entrado en juego.
Cada tipo de datos tiene su propia singularidad en términos de tamaño y cómo se almacena y clasifica en una nube, base de datos, etc. Lo que también hace que cada formato sea único y así los analizamos para obtener soluciones valiosas.
Veracidad y valor
¡Pero espera hay mas! Dos V adicionales, conocidas como veracidad y valor, pueden no ser parte de las 3 V originales, pero se han vuelto cada vez más importantes a medida que se expande el big data.
La veracidad simplemente se refiere a la precisión de los datos. No todos los datos son precisos o consistentes, y con el crecimiento de los grandes datos, cada vez es más difícil determinar qué datos realmente aportan valor.
Un buen ejemplo de datos inconsistentes son los datos de las redes sociales, que a menudo son volátiles y tienen tendencia de una forma u otra. Los datos consistentes serían pronósticos del tiempo, que son mucho más fáciles de predecir y rastrear.
El valor es la V más directa de Big Data. Pretende dar respuesta a la pregunta, «¿Cómo podemos utilizar todos estos datos para extraer algo importante para nuestros usuarios y para nuestro negocio?». Para que Big data nos aporte mucho valor, los datos deben analizarse con un propósito.
Tipos
Sabemos que con la afluencia de más dispositivos, plataformas y opciones de almacenamiento, esto no solo aumentará el volumen de datos, sino también la variedad de datos que existe.
Pero no todos los datos se crean de la misma manera. Con esto quiero decir que la forma en que almacenará y buscará un número de identificación en una base de datos relacional es completamente diferente a extraer valor de un contenido de vídeo.
Un tipo de datos es lo que llamamos estructurado, y otro se llama no estructurado. Pero también hay un tercer tipo de datos llamado semi-estructurado. Examinemos las diferencias de cada tipo de datos.
Datos estructurados
Los datos estructurados, en su mayor parte, están altamente organizados en una base de datos relacional. Si necesitas acceder a una información dentro de la base de datos, puedes hacerlo fácilmente con una búsqueda rápida.
Los datos estructurados son en realidad bastante similares al lenguaje de máquina, o el único lenguaje que una computadora es capaz de entender. Este tipo de datos se encuentra perfectamente en un campo fijo dentro de un registro o archivo.
Uno de los ejemplos más comunes de datos estructurados es algo que vería en una hoja de cálculo. Si estás hablando por teléfono con tu compañía telefónica y te pide tu identificación personal, es probable que estén trabajando con datos estructurados.
Datos no estructurados
Sería bueno si todos los datos pudieran estar bien estructurados, pero los datos generados por humanos como fotos en las redes sociales, correos de voz, mensajes de texto y más están altamente desestructurados.
De hecho, el 80% de todos los datos no están estructurados, lo que tiene sentido porque solo hemos podido «etiquetar» el 3 por ciento de los datos del mundo.
¿Pero a qué se refiere no estructurado? Significa datos que no son fácilmente identificables por lenguaje de máquina y que no se ajustan a una base de datos u hoja de cálculo estándar.
La mayoría de los datos no estructurados en realidad contienen mucho texto. Por ejemplo, los mensajes de texto no están estructurados porque, en lo que respecta a las máquinas, los humanos no hablan ni escriben de manera lógica. Es por eso que el aprendizaje automático y el procesamiento del lenguaje natural se utilizan para diseccionar lenguajes humanos.
También hay datos no estructurados generados por la máquina, que es un poco más fácil de procesar para las máquinas. Un ejemplo de esto sería imágenes de satélite que capturan pronósticos del tiempo.
Datos semiestructurados
El tercer tipo de datos cae en algún lugar entre estructurado y no estructurado, también conocido como datos semiestructurados.
Cosas como archivos XML o correos electrónicos son ejemplos de datos semiestructurados, porque si bien contienen etiquetas como fechas, horas e información del remitente/receptor, el lenguaje utilizado en ellas no está estructurado.
Análisis de Big Data
El software de análisis de big data esencialmente retoma donde la inteligencia de negocios convencional y otras plataformas de análisis dejan de funcionar, observando grandes volúmenes de datos estructurados y (en su mayoría) no estructurados.
El software de Big data ayuda a las empresas a tomar decisiones más calculadas mediante el análisis de datos dentro del almacén de datos de una organización.
El análisis de Big Data, por otro lado, analiza más datos en bruto en un intento de descubrir patrones, tendencias de mercado y preferencias de los clientes para hacer predicciones informadas.
Hay varias formas en que el análisis de big data hace esto.
Descriptivo
El análisis descriptivo crea informes simples, gráficos y otras visualizaciones que permiten a las empresas comprender lo que sucedió en un punto en particular.
Es importante tener en cuenta que el análisis descriptivo solo se refiere a eventos que ocurrieron en el pasado.
De diagnóstico
El análisis de diagnóstico ofrece una visión más profunda de un problema específico, mientras que el análisis descriptivo es más una visión general.
Las empresas pueden usar el análisis de diagnóstico para comprender por qué ocurrió un problema. Este análisis es un poco más complejo e incluso puede incorporar aspectos de inteligencia artificial o aprendizaje automático.
Predictivo
Al combinar algoritmos avanzados con inteligencia artificial y aprendizaje automático, las empresas pueden predecir lo que probablemente sucederá a continuación.
Ser capaz de dar una respuesta informada sobre el futuro obviamente puede aportar un montón de valor a un negocio. El análisis predictivo es útil para pronosticar tendencias y descubrir patrones.
Prescriptivo
El análisis prescriptivo es extremadamente complejo, por lo que aún no está ampliamente incorporado.
Mientras que otras herramientas analíticas se pueden utilizar para sacar sus propias conclusiones, el análisis prescriptivo le proporciona respuestas reales. Se necesita un alto nivel de uso de aprendizaje automático para este tipo de informes.
Ejemplos
Los datos están entrelazados en casi todas las partes de nuestra sociedad hoy en día. Ya sea que un usuario actualice su estado de Facebook a través de un dispositivo móvil o una empresa que aproveche los datos para mejorar la funcionalidad del producto, todos estamos contribuyendo al universo del Big data.
Más empresas basadas en datos en todas las industrias están surgiendo constantemente. Esto es lo que algunas industrias planean hacer con todos estos datos.
Telecomunicaciones
Con miles de millones de usuarios móviles en todo el mundo, las telecomunicaciones están listas para la innovación de big data.
Mediante el uso de análisis de big data, los proveedores de servicios podrían recuperarse de una interrupción de la red mucho más rápido al identificar su causa raíz con datos en tiempo real.
El análisis también se puede aplicar para descubrir formas más precisas y personalizadas de facturar a los clientes.
Los datos de opinión de las redes sociales, los datos geoespaciales y otros datos móviles se pueden usar para ofrecer opciones específicas de medios y entretenimiento.
Servicios financieros
Más bancos se están alejando de centrarse en el producto y se centran en el cliente. Big Data puede ayudar a segmentar las preferencias de los clientes a través de un enfoque de marketing omnicanal.
Quizás el uso más obvio de los grandes datos en los servicios financieros es la detección y prevención del fraude. El análisis de big data y el aprendizaje automático pueden estudiar las tendencias de un cliente y distinguirlas del comportamiento inusual.
Cuidado de la salud
Mencionamos cómo se pueden usar los datos de smartwatch para la atención personalizada del paciente y las tarifas de seguro de atención médica personalizadas.
El análisis predictivo puede tener aplicaciones fenomenales en la industria de la salud, lo que permite la detección temprana de enfermedades y asociaciones más precisas con ciertos factores de riesgo.
Educación
Un modelo educativo no se adapta a todos los estudiantes. Algunos son aprendices visuales, otros son aprendices de audio. Algunos prefieren en línea, otros prosperan durante las conferencias en persona.
El análisis de Big Data se puede utilizar para crear modelos de aprendizaje más personalizados para todos los estudiantes.
Big data también se está utilizando en algunos campus universitarios para reducir las tasas de abandono al identificar los factores de riesgo en los estudiantes que se están quedando atrás en sus clases.
Futuro de Big Data
El mercado de Big Data ha experimentado un crecimiento masivo por una razón. Cada vez más empresas se están dando cuenta de la importancia de adoptar un enfoque comercial y de marketing basado en datos, no solo para los procesos internos, sino también para mejorar las experiencias de sus clientes.
Las tecnologías emergentes como la IA, el aprendizaje automático y la PNL están utilizando grandes datos para innovar en nuevos productos, experiencias de usuario, eficiencia de costos y más.
Entonces, ¿Cuál es el futuro del big data? Aunque la imagen no está completamente clara, tenemos algún tipo de idea.
Podemos predecir que IoT está impulsando la mayor parte de este crecimiento.
IoT no solo aumentará las interacciones de usuario a dispositivo, sino que también jugará un papel crucial en las interacciones de máquina a máquina (M2M). Los sensores serán una tecnología de conducción que conectará máquinas a Internet.
Una forma de utilizar los datos de las interacciones M2M es monitorizar el impacto humano en el medio ambiente, incendios forestales, terremotos y otras fuerzas de la naturaleza.
Dado que se espera que el universo digital alcance 163 zettabytes para 2025, el enfoque cambiará lentamente del volumen de datos a la veracidad de los datos.
No solo tenemos que poder confiar en los datos que estamos analizando, sino también asegurarnos de que sirvan para un propósito en algún momento.
Big Data impulsa la ciberseguridad
Hoy en día, la mayoría de las medidas de seguridad implementadas por pequeñas y grandes empresas están impulsadas por los grandes datos.
Notarás que la mayoría de las compañías de antivirus y firewall usan big data para entrenar y refinar los productos que venden. Necesitan grandes cantidades de datos para probar estos productos y garantizar que sean adecuados para sus usuarios finales.
También pueden aprovechar millones de muestras para capacitar a sus productos para reconocer los ataques más populares y construir las bases para prevenir futuros ataques que aún no conocemos.
Recopilación de grandes cantidades de datos
La cantidad de datos necesarios para impulsar la ciberseguridad también ha aumentado. Sí, Big Data ha presentado un nuevo desafío de seguridad, pero también ha abierto el camino a una tecnología de ciberseguridad de última generación ampliamente disponible.
Aquí hay una pequeña cantidad de características impulsadas por big data:
- Aprendizaje automático.
- Detección avanzada de amenazas.
- Análisis de comportamiento.
Estas tecnologías avanzadas se han convertido de repente en la norma. Es imposible sobrevivir sin ellos en el mundo moderno de la ciberseguridad.
Además, dependen completamente de big data.
Respuesta eficiente a incidentes
Los centros de datos también están utilizando Big data para romper posibles ataques de pirateo.
Están recopilando fuentes de datos tanto a través de centros de datos físicos como a través del almacenamiento en la nube. Pueden monitorizar aplicaciones y comportamientos que podrían interpretarse como sospechosos, y gran parte de esto es automático.
Analizan millones de archivos todos los días para hacer esto. Una vez más, es un ejemplo de cómo se utilizan los grandes datos para predecir cuándo vendrán los atacantes y dónde atacarán.
Solo se necesitan unos minutos para violar un sistema y solo unas horas para que ocurra la exfiltración y el daño permanente a un negocio. El siguiente enfoque para la ciberseguridad en Big Data es la respuesta a incidentes.
Los centros de datos pueden recopilar tanta información como deseen, pero si no reaccionan a las amenazas a tiempo, no sirve de nada.
Big data está permitiendo a las empresas crear libros de jugadas que les permitan reaccionar a ataques específicos automáticamente. Eso puede detener las infracciones antes de que los piratas informáticos puedan causar un daño real.
Cuantos más datos tengas, mejores serán tus sistemas de defensa automática.
Big Data como fortaleza y como debilidad
Probablemente pienses que los grandes datos parecen ser el camino a seguir para la ciberseguridad y también un gran dolor de cabeza para la ciberseguridad. Y tienes toda la razón porque funciona de esta manera.
No debes sentir que tienes que evitar los grandes datos porque podrías abrir tus sistemas para atacar, pero debes tener en cuenta las dos caras de la moneda.
Confía en Big Data y estarás mejor protegido contra las amenazas que puede traer el alcance oscuro de la web.
Big data y Coronavirus
La batalla contra COVID-19 ha puesto al descubierto las limitaciones de la tecnología moderna frente a una pandemia. No podemos rastrear con precisión el número de víctimas de la enfermedad en tiempo real, ni podemos predecir con precisión hacia dónde se dirige.
Se nos dice que desarrollar una vacuna llevará 18 meses, lo que parece extremadamente lento, y que el único arma verdaderamente efectiva que tenemos por ahora es el distanciamiento social generalizado, que, por supuesto, tiene sus propios efectos secundarios económicos dolorosos.
Siempre creímos que nuestras herramientas modernas nos protegerían de la catástrofe, pero han demostrado ser sorprendentemente inadecuadas contra este enemigo invisible.
Al menos en algunos aspectos, la tecnología ha podido decirnos más sobre cómo y dónde se está propagando el virus. En su mayoría, esto ha implicado aprovechar de manera creativa el poder del Big data:
- usar lecturas de temperatura de termómetros inteligentes para detectar puntos calientes de COVID-19 , o
- agregar datos de ubicación de teléfonos móviles para señalar las áreas del país donde las personas se quedan en casa.
Pero en un contexto de debate entre las libertades civiles y la salud pública, también debemos preguntarnos dónde está la línea digitalmente: ¿cuánta vigilancia es aceptable al servicio del bien común?
Coste para la privacidad
Para ser claros, los tipos de datos que se rastrean ahora generalmente son anónimos, agregados en grandes grupos según, por ejemplo, la geografía.
También se recopilan con el consentimiento de los usuarios. Pero mucho antes de que surgiera el nuevo coronavirus, los críticos de las grandes compañías tecnológicas ya señalaban que los usuarios generalmente otorgan dicho consentimiento a través de acuerdos laberínticos de términos de servicio, a menudo sin saber para qué se utilizarían sus datos.
En el mundo actual, los datos son un producto extremadamente valioso que recompensa a sus recolectores de muchas maneras. A pesar de que los perfiles de datos individuales que proporcionan sugerencias de búsqueda, direcciones de tráfico y orientación sobre la salud ayudan a mejorar la vida diaria, esto va de la mano con motivos más nefastos de las empresas para registrar las actividades de los usuarios.
Una vez más, esas fueron las preocupaciones que surgieron antes de la pandemia. Ahora, el COVID-19 ha revelado compensaciones mucho más marcadas entre la privacidad personal y los beneficios colectivos de la tecnología.
En Corea del Sur, por ejemplo, la capacidad de volver sobre los pasos de una persona infectada mediante transacciones con tarjeta de crédito y datos de seguimiento de teléfonos móviles es parte de la respuesta del país al virus.
Otros países también están aumentando la vigilancia digital a nivel individual en nombre de la salud pública.
Estos esfuerzos pueden parecer atractivos porque representan un uso efectivo de la tecnología contra una amenaza que estamos luchando por controlar.
Si el seguimiento menos agresivo, como los datos antes mencionados del termómetro inteligente, ha sido útil para medir los efectos de las políticas de distanciamiento social, incluso las versiones más fuertes tienen el potencial de ayudar en el rastreo de contactos y, en última instancia, ayudar a contener el virus para siempre.
Si podemos utilizar el poder de nuestro creciente aparato de recopilación de datos en la lucha contra COVID-19, ¿no deberíamos hacerlo?
Difícil equilibrio entre seguridad y privacidad
Durante la pandemia de coronavirus, esta tensión entre seguridad y libertad se está extendiendo más allá del espacio tecnológico.
Debido a que se está implementando un mosaico de políticas en gran medida a nivel estatal, las reglas en torno a acciones como las cuarentenas, y su exigibilidad constitucional, son algo abiertas. En este momento, entre los estados, hay diferentes protocolos en términos de cómo manejar una crisis de salud como esta.
Entonces, ¿qué aspecto tiene una política que equilibra la privacidad de los datos y el bien público?
Debemos hacernos tres preguntas sobre las propuestas para usar datos sobre personas de nuevas maneras en respuesta al COVID-19: ¿Sería efectivo? ¿Se entrometería excesivamente en nuestras libertades? ¿Hay suficientes salvaguardas?
Algunas propuestas no serían efectivas. Por ejemplo, el uso de la información de ubicación del mçovil para el rastreo de contactos, porque no es lo suficientemente granular como para colocar a dos personas lo suficientemente juntas como para transmitir la enfermedad.
Otras propuestas interferirían excesivamente con nuestras libertades. Por ejemplo, la obligación de China de que cada residente descargue una aplicación de seguimiento. Pero, algunas formas de datos agregados podrían ser una forma tolerable de informar la toma de decisiones sobre el brote, siempre y cuando haya suficientes salvaguardas para proteger la privacidad.
Debido a que el coronavirus ha sido tan difícil de detener, es tentador combatirlo por cualquier medio disponible, y puede utilizarse el Big data para ello. Pero también es importante recordar que los derechos individuales cedidos durante una crisis rara vez regresan , incluso cuando esa crisis desaparece.