¿Qué es Data Science? – Guía para principiantes

A medida que el mundo entró en la era de los grandes datos, también aumentó la necesidad de su almacenamiento. Fue la principal preocupación y un desafío para las empresas.

El objetivo principal era crear marcos y soluciones para almacenar datos. Ahora, cuando se ha resuelto con éxito el problema del almacenamiento, el enfoque se ha desplazado al procesamiento de estos datos.

Data Science es el secreto en este caso. Todas las ideas que ves en las películas de ciencia ficción pueden convertirse en realidad por Data Science.

La ciencia de datos es el futuro de la inteligencia artificial. Por lo tanto, es muy importante comprender qué es Data Science y cómo puede agregar valor a tu negocio.

Aquí tienes una completa guía sobre Data Science que te ayudará a entender esta disciplina y su importancia en el mundo actual. Empezamos!

¿Qué es Data Science?

El uso del término Data Science o ciencia de datos es cada vez más común, pero ¿qué significa exactamente?

¿Qué habilidades necesitas para convertirte en Data Scientist?

¿Cuál es la diferencia entre BI y Data Science?

¿Cómo se toman las decisiones y las predicciones en Data Science?

A estas preguntas daremos respuesta más adelante.

Primero, veamos qué es la ciencia de datos.

Data Science es una combinación de distintas herramientas, algoritmos y principios de aprendizaje automático con la finalidad de localizar patrones ocultos a partir de los datos sin procesar.

¿En qué se diferencia esto de las funciones realizadas por los estadísticos durante años?

La respuesta se encuentra en la distinción entre explicar y predecir.

Un analista de datos generalmente explica lo que sucede al procesar el historial de los datos. Por otro lado, Data Scientist no solo realiza el análisis exploratorio para descubrir ideas a partir de él, sino que también utiliza varios algoritmos avanzados de aprendizaje automático para identificar la ocurrencia de un evento en particular en el futuro.

Un científico de datos analizará los datos desde muchos ángulos, a veces ángulos no conocidos anteriormente.

Por lo tanto, Data Science se usa principalmente para tomar decisiones y predicciones haciendo uso de análisis causal predictivo, análisis prescriptivo y aprendizaje automático.

Análisis causal predictivo

Si deseas un modelo que pueda predecir las posibilidades de un evento particular en el futuro, debes aplicar el análisis causal predictivo.

Supongamos que si proporcionas dinero a crédito, la probabilidad de que los clientes realicen pagos de crédito a tiempo es motivo de preocupación para ti. Aquí, puedes crear un modelo que pueda realizar análisis predictivos en el historial de pagos del cliente para predecir si los pagos futuros serán puntuales o no.

Análisis prescriptivo

Si deseas un modelo que tenga la inteligencia de tomar sus propias decisiones y la capacidad de modificarlo con parámetros dinámicos, ciertamente necesitas un análisis prescriptivo para ello.

Este campo relativamente nuevo trata de proporcionar asesoramiento. En otros términos, no solo predice, sino que sugiere una gama de acciones prescritas y resultados asociados.

El mejor ejemplo de esto es el vehículo sin conductor de Google. Los datos recopilados por los vehículos se pueden usar para entrenar automóviles sin conductor. Pueden ejecutarse algoritmos en estos datos para proporcionarle inteligencia. Esto permitirá que el automóvil tome decisiones como cuándo girar, qué camino tomar, cuándo reducir la velocidad o acelerar.

Aprendizaje automático para hacer predicciones

Si tienes datos transaccionales de una compañía financiera y necesitas construir un modelo para determinar la tendencia futura, entonces los algoritmos de aprendizaje automático son la mejor opción.

Esto cae bajo el paradigma del aprendizaje supervisado. Se llama supervisado porque ya tienes los datos en función de los cuales puedes entrenar tus máquinas.

Por ejemplo, un modelo de detección de fraude puede ser entrenado usando un registro histórico de compras fraudulentas.

Aprendizaje automático para el descubrimiento de patrones

Si no tienes los parámetros en función de los cuales puedes hacer predicciones, debes encontrar los patrones ocultos dentro del conjunto de datos para poder hacer predicciones significativas.

Esto no es más que el modelo no supervisado, ya  que no tiene etiquetas predefinidas para la agrupación. El algoritmo más común utilizado para el descubrimiento de patrones es la agrupación en clúster.

Supongamos que estás trabajando en una compañía telefónica y necesitas establecer una red colocando torres en una región. Puedes usar la técnica de agrupamiento para encontrar las ubicaciones de las torres que garantizarán que todos los usuarios reciban una intensidad de señal óptima.

¿Por qué es importante?

Tradicionalmente, los datos que teníamos eran en su mayoría estructurados y de pequeño tamaño, lo que podía analizarse mediante el uso de herramientas de BI simples.

A diferencia de los datos en los sistemas tradicionales que en su mayoría estaban estructurados , hoy en día la mayoría de los datos no están estructurados o son semiestructurados. Así, en 2020, más del 80% de los datos estarán desestructurados.

Estos datos se generan a partir de diferentes fuentes, como registros financieros, archivos de texto, formularios multimedia, sensores e instrumentos.

Las herramientas de Business Intelligence (BI) simples no son capaces de procesar este gran volumen y variedad de datos. Esta es la razón por la que necesitamos herramientas y algoritmos analíticos más complejos y avanzados para procesar, analizar y extraer ideas significativas.

Esta no es la única razón por la que Data Science se ha vuelto tan popular.

Profundicemos y veamos cómo se usa Data Science en varios dominios.

  • ¿Qué tal si pudieras entender los requisitos precisos de tus clientes a partir de los datos existentes, como el historial de navegación anterior del cliente, el historial de compras, la edad y los ingresos? Sin duda, también tenías todos estos datos anteriormente, pero ahora con la gran cantidad y variedad de datos, puedes entrenar modelos de manera más efectiva y recomendar el producto a tus clientes con más precisión. Esto traerá más negocios a tu empresa.
  • Veamos ahora un escenario diferente para comprender el papel de la ciencia de datos en la toma de decisiones. ¿Qué tal si tu coche tuviera la inteligencia para llevarte a casa? Los coches autónomos recopilan datos en vivo de sensores, incluidos radares, cámaras y láseres para crear un mapa de sus alrededores. En base a estos datos, toma decisiones como cuándo acelerar, cuándo reducir, cuándo adelantar, dónde tomar un turno, utilizando algoritmos avanzados de aprendizaje automático.
  • Veamos cómo se puede usar Data Science en análisis predictivo. Tomemos el pronóstico del tiempo como ejemplo. Los datos de barcos, aviones, radares, satélites se pueden recopilar y analizar para construir modelos. Estos modelos no solo pronosticarán el clima, sino que también ayudarán a predecir la ocurrencia de calamidades naturales. Te ayudará a tomar las medidas apropiadas de antemano y salvar muchas vidas.

Business Intelligence (BI) vs. Ciencia de datos

Estoy segura de que también habrás oído hablar de Business Intelligence (BI).  A menudo, Data Science se confunde con BI.

Expondré algunos contrastes concisos y claros entre los dos que te ayudarán a obtener una mejor comprensión.

  • Business Intelligence analiza los datos anteriores para encontrar la perspectiva para describir las tendencias del negocio. Te permite tomar datos de fuentes externas e internas, prepararlos, realizar consultas y crear paneles para responder preguntas como análisis de ingresos trimestrales o problemas comerciales. BI puede evaluar el impacto de ciertos eventos en el futuro cercano.
  • Data Science es un enfoque más prospectivo, una forma exploratoria con el enfoque en analizar los datos pasados ​​o actuales y predecir los resultados futuros con el objetivo de tomar decisiones informadas. Responde las preguntas abiertas en cuanto a «qué» y «cómo» ocurren los eventos.

Ciclo de vida de Data Science

Un error común cometido en los proyectos de Data Science es apresurarse en la recopilación y el análisis de datos, sin comprender los requisitos o incluso enmarcar el problema comercial correctamente.

Por lo tanto, es muy importante que sigas todas las fases a lo largo del ciclo de vida de Data Science para garantizar el buen funcionamiento del proyecto.

Aquí tienes una breve descripción de las principales fases del ciclo de vida de la ciencia de datos:

1. Descubrimiento

Antes de comenzar el proyecto, es importante comprender las diversas especificaciones, requisitos, prioridades y presupuesto requerido.

Debes poseer la capacidad de hacer las preguntas correctas. Aquí, evalúa si tienes los recursos necesarios presentes en términos de personas, tecnología, tiempo y datos para respaldar el proyecto.

En esta fase, también debes enmarcar el problema comercial y formular hipótesis iniciales para probar.

2. Preparación de datos

En esta fase, necesitas una caja de arena analítica en la que puedes realizar análisis durante toda la duración del proyecto.

Necesitas explorar, preprocesar y condicionar los datos antes del modelado. Además, realizarás ETLT (extraer, transformar, cargar y transformar) para obtener datos en el entorno limitado.

Puedes usar R para la limpieza, transformación y visualización de datos. Esto te ayudará a detectar los valores atípicos y establecer una relación entre las variables.

Una vez que hayas limpiado y preparado los datos, es hora de hacer análisis exploratorios sobre ellos. Veamos cómo puedes lograr eso.

3. Planificación del modelo

Aquí determinarás los métodos y técnicas para dibujar las relaciones entre las variables. Estas relaciones establecerán la base para los algoritmos que implementarás en la siguiente fase.

Aplicarás el Análisis de datos exploratorios (EDA) utilizando diversas fórmulas estadísticas y herramientas de visualización.

Echemos un vistazo a varias herramientas de planificación de modelos.

  1. tiene un conjunto completo de capacidades de modelado y proporciona un buen entorno para construir modelos interpretativos .
  2. Los servicios de análisis SQL pueden realizar análisis en la base de datos utilizando funciones comunes de minería de datos y modelos predictivos básicos.
  3. SAS / ACCESS  se puede usar para acceder a datos de Hadoop y se usa para crear diagramas de flujo de modelos repetibles y reutilizables.

Aunque, muchas herramientas están presentes en el mercado, R es la herramienta más utilizada.

Ahora tienes información sobre la naturaleza de tus datos y has decidido los algoritmos que se utilizarán. En la siguiente etapa, aplicarás el algoritmo y crearás un modelo.

4. Construcción del modelo

En esta fase, desarrollarás conjuntos de datos para fines de capacitación y prueba. Considerarás si tus herramientas existentes serán suficientes para ejecutar los modelos o si necesitarás un entorno más robusto (como el procesamiento rápido y paralelo).

Analizarás varias técnicas de aprendizaje como clasificación, asociación y agrupación para construir el modelo.

Puedes lograr la construcción de modelos a través de las siguientes herramientas:

  • SAS Enterprise Miner
  • WEKA
  • SPCS Modeler
  • Matlab
  • Alpine Miner
  • Statistica

5. Operacionalización

En esta fase, entregas informes finales, informes, códigos y documentos técnicos. Además, a veces también se implementa un proyecto piloto en un entorno de producción en tiempo real.

Esto te proporcionará una imagen clara del rendimiento y otras restricciones relacionadas a pequeña escala antes de la implementación completa.

6. Comunicar los resultados

Ahora es importante evaluar si has podido alcanzar tu objetivo planeado en la primera fase. Identifica todos los hallazgos clave, comunícalo a las partes interesadas y determina si los resultados del proyecto son exitosos o fracasados ​​según los criterios desarrollados en la Fase 1.

¿Para qué se utiliza la Ciencia de datos?

La ciencia de datos se utiliza en los siguientes ámbitos:

  • Detectar anomalías, por ejemplo, comportamiento anormal del cliente o fraude;
  • Marketing personalizado: boletines personales por correo electrónico, retargeting, sistemas de recomendación;
  • Pronósticos métricos: indicadores de rendimiento, calidad de campañas publicitarias y otras actividades;
  • Sistemas de puntuación: procesan grandes cantidades de datos y ayudan a tomar una decisión, por ejemplo, sobre la concesión de un préstamo;
  • Interacción básica con el cliente: respuestas estándar en salas de chat, asistentes de voz, clasificación de cartas en carpetas.

Además, aquí hay algunos ejemplos de cómo las empresas están utilizando la ciencia de datos para innovar en sus sectores, crear nuevos productos y hacer que el mundo que los rodea sea aún más eficiente.

Cuidado de la salud

La ciencia de datos ha llevado a una serie de avances en la industria de la salud. Con una enorme red de datos disponible a través de cualquier dispositivo, los profesionales médicos están encontrando nuevas formas de comprender las enfermedades, realizar una medicina preventiva, diagnosticar enfermedades más rápido e investigar nuevas opciones de tratamiento.

Autos sin conductor

Tesla, Ford y Volkswagen están implementando análisis predictivos en su nueva ola de vehículos autónomos. Estos autos usan miles de cámaras y sensores diminutos para transmitir información en tiempo real.

Mediante el aprendizaje automático, el análisis predictivo y la ciencia de datos, los automóviles autónomos pueden ajustarse a los límites de velocidad, evitar cambios peligrosos de carril e incluso llevar a los pasajeros en la ruta más rápida.

Logística

UPS recurre a la ciencia de datos para maximizar la eficiencia, tanto internamente como a lo largo de sus rutas de entrega.

La herramienta de optimización y navegación integradas en carretera (ORION) de la empresa utiliza algoritmos y modelos estadísticos respaldados por la ciencia de datos que crean rutas óptimas para los conductores de entregas en función del clima, el tráfico, la construcción, etc.

Se estima que la ciencia de datos está ahorrando a la empresa de logística a 39 millones en combustible y más de 100 millones de millas de entrega cada año.

Entretenimiento

¿Alguna vez te has preguntado cómo Spotify parece recomendar la canción perfecta para la que estás de humor? ¿O cómo Netflix sabe exactamente qué programas te encantará ver?

Utilizando la ciencia de datos, el gigante de la transmisión de música puede seleccionar cuidadosamente listas de canciones basadas en el género musical o la banda que te gusta.

¿De verdad te gusta cocinar últimamente? El agregador de datos de Netflix reconocerá tu necesidad de inspiración culinaria y recomendará programas pertinentes de su vasta colección.

Finanzas

El aprendizaje automático y la ciencia de datos le han ahorrado a la industria financiera millones de dólares y cantidades de tiempo no cuantificables.

Por ejemplo, la plataforma de inteligencia de contrato de JP Morgan (COiN) utiliza el procesamiento del lenguaje natural (PNL) para procesar y extraer datos vitales de aproximadamente 12.000 acuerdos de crédito comercial al año.

Gracias a la ciencia de datos, lo que llevaría  alrededor de 360.000 horas de trabajo manual, ahora se completa en unas pocas horas.

Además, empresas como Paypal están efectuando fuertes inversiones en ciencia de datos para elaborar herramientas de aprendizaje automático que detecten e impidan rápidamente actividades fraudulentas.

Ciberseguridad

La ciencia de datos es útil en todas las industrias, pero puede ser la más importante en ciberseguridad.

La firma internacional de ciberseguridad Kaspersky está utilizando ciencia de datos y aprendizaje automático para detectar diariamente más de 360.000 nuevas muestras de malware.

Poder detectar y aprender instantáneamente nuevos métodos de cibercrimen, a través de la ciencia de datos, es esencial para nuestra seguridad y protección en el futuro.

Conocimientos necesarios

Para usar Data Science es necesario disponer de unos determinados conocimientos que vamos a analizar a continuación.

1. Estadística, Matemáticas, Álgebra Lineal

Si hablamos en general sobre la ciencia de datos, entonces para una comprensión y trabajo serios necesitamos un curso fundamental en la teoría de la probabilidad (y por lo tanto, el análisis matemático como herramienta necesaria en la teoría de la probabilidad), álgebra lineal y, por supuesto, estadística matemática.

El conocimiento matemático fundamental es importante para poder analizar los resultados de la aplicación de algoritmos de procesamiento de datos.

2. Programación (Python)

De hecho, una gran ventaja sería familiarizarse inmediatamente con los conceptos básicos de la programación. Pero dado que este es un proceso que consume mucho tiempo, puedes simplificar un poco esta tarea. ¿Cómo? Comienza a aprender un idioma y concéntrate en todos los matices de la programación a través de la sintaxis de ese idioma.

Por ejemplo, te aconsejaría que prestes atención a Python. Es un lenguaje de programación perfecto para que los principiantes aprendan, ya que es relativamente simple. Python combina también la demanda de especialistas y es multifuncional.

3. Aprendizaje automático

El aprendizaje automático (Machine Learning) te permite entrenar a las computadoras para que actúen de manera independiente, de modo que no tengamos que escribir instrucciones detalladas para realizar ciertas tareas.

Por esta razón, el aprendizaje automático es de gran valor para casi cualquier área, pero antes que nada, por supuesto, funcionará bien donde hay ciencia de datos.

El primer paso para aprender ML son sus tres grupos principales:

  • Aprendizaje supervisado es ahora la forma más desarrollada de ML. La idea aquí es que tienes datos históricos con alguna noción de la variable de salida. La variable de salida está destinada a reconocer cómo puede una buena combinación de varias variables de entrada y los valores de salida correspondientes como datos históricos que se le presentan y luego, basándose en eso, intenta crear una función que pueda predecir una salida dada cualquier entrada. Entonces, la idea clave es que los datos históricos están etiquetados. Etiquetado significa que tienea un valor de salida específico para cada fila de datos, que se te presenta.
  • Aprendizaje no supervisado no tiene el lujo de haber etiquetado la entrada-salida de datos históricos. En cambio, solo podemos decir que tiene un montón de datos de entrada. Nos permite identificar lo que se conoce como patrones en los datos de entrada históricos y las ideas interesantes desde la perspectiva general. La salida aquí está ausente y todo lo que necesitas entender es que hay un patrón visible en el conjunto de entrada no supervisado.
  • Aprendizaje por refuerzo ocurre cuando presentas el algoritmo con ejemplos que carecen de etiquetas, como en el aprendizaje no supervisado. Sin embargo, puede acompañar un ejemplo con retroalimentación positiva o negativa de acuerdo con la solución que propone el algoritmo. Es como aprender por ensayo y error. Un ejemplo interesante de RL ocurre cuando las computadoras aprenden a jugar videojuegos por sí mismas.

4. Minería de datos y visualización de datos

La minería de datos es un importante proceso analítico creado para explorar datos.

Es el procedimiento por el que se analizan patrones ocultos de datos desde distintas perspectivas para su clasificación en información útil, que se recoge y une en áreas comunes, como almacenes de datos, para un análisis eficaz, algoritmos de minería de datos, posibilitando la adopción de decisiones comerciales y otros requisitos de información para reducir costes y aumentar los ingresos.

5. Experiencia práctica

Estudiar solo la teoría no es muy interesante, debes probar suerte en la práctica.

6. Confirmación de calificación

Después de haber estudiado todo lo que necesitas para analizar los datos y probar suerte en tareas y concursos abiertos, comienza a buscar trabajo.