Vivimos en el siglo XXI, un mundo impulsado por dispositivos y tecnología. Hay algunas tecnologías completamente establecidas y algunas que aún están surgiendo.
El aprendizaje automático es una de esas tecnologías que aún no se han utilizado en todo su potencial. Con varios elementos que lo hacen mejor, uno de los más importantes es el Teorema de Bayes. Pero antes de comprender el uso del teorema de Bayes en el aprendizaje automático, es esencial comprender qué es exactamente el teorema de Bayes y cómo funciona.
La mayoría de la gente piensa que el teorema de Bayes se usa ampliamente en los sectores financieros del mundo. Este no es el caso real. Muchos canales del sector médico han estado utilizando este teorema con ML para determinar con precisión los resultados de cualquier prueba. Teniendo en cuenta una enfermedad, los médicos y científicos utilizan este método para estudiar o determinar cuántas personas pueden contraer una nueva enfermedad o con qué rapidez. De manera similar, el sector aeronáutico también ha estado utilizando este teorema en más de una forma para determinar los resultados de las pruebas.
El teorema de Bayes se usa ampliamente en ciencia de datos. Constituye los fundamentos de la literatura sobre aprendizaje automático. Este artículo explicamos en qué consiste, cómo funciona, por qué se usa en el aprendizaje automático y ejemplos.
Indice
Requisitos previos para el teorema de Bayes
Necesitamos comprender algunos conceptos antes de sumergirnos en el mundo del teorema de Bayes. Estos conceptos son esencialmente los requisitos previos para comprender el teorema de Bayes.
Experimenta
¿Cuál es la primera imagen que te viene a la mente cuando escuchas la palabra «experimento»? La mayoría de la gente, incluyéndome a mí, imagina un laboratorio químico lleno de tubos de ensayo y vasos de precipitados. El concepto de un experimento en la teoría de la probabilidad es bastante similar:
Un experimento es una operación planificada que se lleva a cabo en condiciones controladas.
Lanzar una moneda, lanzar un dado y sacar una carta de un mazo de cartas bien mezclado son todos ejemplos de experimentos.
Espacio muestral
El resultado de un experimento se llama resultado. El conjunto de todos los posibles resultados de un evento se denomina espacio muestral. Por ejemplo, si nuestro experimento está tirando dados y registrando su resultado, el espacio muestral será:
S1 = {1, 2, 3, 4, 5, 6}
¿Cuál será la muestra cuando lancemos una moneda? Piénsalo antes de ver la respuesta a continuación:
S2 = {H, T}
Evento
Un evento es un conjunto de resultados (es decir, un subconjunto del espacio muestral) de un experimento.
Volvamos al experimento de lanzar un dado y definamos los eventos E y F como:
E = Se obtiene un número par = {2, 4, 6}
F = Se obtiene un número mayor que 3 = {4, 5, 6}
La probabilidad de estos eventos:
P (E) = Número de resultados favorables / Número total de resultados posibles = 3/6 = 0,5
P (F) = 3/6 = 0.5
Las operaciones básicas en la teoría de conjuntos, unión e intersección de eventos, son posibles porque un evento es un conjunto.
Entonces, E∪F = {2, 4, 5, 6} y E∩F = {4, 6}
Ahora considera un evento G = Se obtiene un número impar:
Entonces E ∩ G = conjunto vacío = Φ
Tales eventos se denominan eventos inconexos. Estos también se denominan eventos mutuamente excluyentes porque solo uno de los dos eventos puede ocurrir a la vez.
Variable aleatoria
Una variable aleatoria es exactamente lo que parece: una variable que toma valores aleatorios y cada valor tiene alguna probabilidad (que puede ser cero). Es una función de valor real definida en el espacio muestral de un experimento.
Tomemos un ejemplo simple. Define una variable aleatoria X en el espacio muestral del experimento de lanzar una moneda. Toma un valor +1 si se obtiene “Cara” y -1 si se obtiene “cruz”. Entonces, X toma valores +1 y -1 con igual probabilidad de 1/2.
Considera que Y es la temperatura observada (en grados Celsius) de un lugar determinado en un día determinado. Entonces, podemos decir que Y es una variable aleatoria continua definida en el mismo espacio, S = [0, 100] (la escala Celsius se define desde cero grados Celsius hasta 100 grados Celsius).
Eventos exhaustivos
Se dice que un conjunto de eventos es exhaustivo si al menos uno de los eventos debe ocurrir en cualquier momento. Por tanto, se dice que dos eventos A y B son exhaustivos si A ∪ B = S, el espacio muestral.
Por ejemplo, digamos que A es el evento de que una carta extraída de un mazo sea roja y B es el evento de que la carta extraída sea negra. Aquí, A y B son exhaustivos porque el espacio muestral S = {rojo, negro}. Cosas bastante sencillas, ¿verdad?
Eventos independientes
Si la ocurrencia de un evento no tiene ningún efecto sobre la ocurrencia de otro, se dice que los dos eventos son independientes. Matemáticamente, se dice que dos eventos A y B son independientes si:
P (A ∩ B) = P (AB) = P (A) * P (B)
Por ejemplo, si A obtiene un 5 al lanzar un dado y B está sacando un rey de corazones de un mazo de cartas bien mezclado, entonces A y B son independientes solo por su definición. Por lo general, no es tan fácil identificar eventos independientes, por lo que usamos la fórmula que mencioné anteriormente.
Probabilidad condicional
Considera que estamos robando una carta de un mazo dado. ¿Cuál es la probabilidad de que sea una tarjeta negra? Eso es fácil – 1/2, ¿verdad? Sin embargo, ¿qué pasaría si supiéramos que era una carta negra? ¿Cuál sería la probabilidad de que fuera un rey?
El enfoque de esta pregunta no es tan simple.
Aquí es donde entra en juego el concepto de probabilidad condicional. La probabilidad condicional se define como la probabilidad de un evento A, dado que ya ha ocurrido otro evento B (es decir, A condicional B). Esto está representado por P (A | B) y podemos definirlo como:
P (A | B) = P (A ∩ B) / P (B)
Dejemos que el evento A represente la elección de un rey y el evento B, la elección de una carta negra. Luego, encontramos P (A | B) usando la fórmula anterior:
P (A ∩ B) = P (Obtener una carta negra que es un Rey) = 2/52
P (B) = P (Escogiendo una carta negra) = 1/2
Por lo tanto, P (A | B) = 4/52. Prueba esto con un ejemplo de tu elección. Esto te ayudará a comprender la idea completa realmente bien.
Probabilidad marginal
Es la probabilidad de que ocurra un evento A, independientemente de cualquier otro evento B, es decir, marginar el evento B.
Probabilidad marginal P (A) = P (A | B) * P (B) + P (A | ~ B) * P (~ B)
Esta es solo una forma elegante de decir:
P (A) = P (A ∩ B) + P (A ∩ ~ B) # de nuestro conocimiento de la probabilidad condicional
donde ~ B representa el evento de que B no ocurre.
Comprobemos si este concepto de probabilidad marginal es cierto. Aquí, necesitamos calcular la probabilidad de que una carta al azar extraída de un paquete sea roja (evento A). La respuesta es, obviamente, 1/2. Calculemos lo mismo a través de la probabilidad marginal con el evento B que dibujar un rey.
P (A ∩ B) = 2/52 (porque hay 2 reyes en trajes rojos, uno de corazones y otro de diamantes)
y P (A ∩ ~ B) = 24/52 (cartas restantes del palo rojo)
Por lo tanto, P (A) = 2/52 + 24/52 = 26/52 = 1/2
¡Perfecto! Así que esto es lo suficientemente bueno para cubrir nuestros conceptos básicos del teorema de Bayes. Tomemos ahora unos momentos para comprender qué es exactamente el teorema de Bayes y cómo funciona.
¿Qué es el teorema de Bayes?
Para comprender el teorema de Bayes en el aprendizaje automático, es esencial comprender que el teorema de Bayes es muy útil para estimar la precisión de los valores. Para saber cómo, comencemos esto desde el principio. El Teorema de Bayes es un enunciado y un teorema dado por un matemático británico del siglo XVIII. La fórmula que dedujo es efectiva y se usa en probabilidad condicional. Ahora bien, ¿qué es exactamente la probabilidad condicional?
Es un término utilizado para la probabilidad de obtener una respuesta a una pregunta o el resultado probable sobre la base de sus resultados anteriores. Una sola declaración es un método o proceso de verificación cruzada o revisión de las predicciones existentes para eliminar las posibilidades y posibilidades de cometer errores. Así es como enunciamos el Teorema de Bayes en Machine Learning.
Para explicar esto con un ejemplo, podemos considerar que un medicamento que ha sido probado es 98% exacto y efectivo. Significa que, si una persona infectada con alguna enfermedad usa ese medicamento, es 98% de veces que la persona se recupera. Después de esto, supongamos que solo alrededor del 0,5% de las personas conocen este medicamento y lo usan cuando lo necesitan. Por lo tanto, si al azar se recoge a una persona y se le da positivo en la prueba con el uso de esta droga, entonces de acuerdo con el Teorema de Bayes:
(0,98 x 0,005) / [(0,98 x 0,005) + ((1 – 0,98) x (1 – 0,005))] = 0,0049 / (0,0049 + 0,0199) = 19,76%
Ahora bien, si has estudiado y estás familiarizado con el aprendizaje automático, utilizas la inteligencia artificial en muchas cosas y procesos para predecir respuestas y posibilidades. Por lo tanto, debido al gran trabajo de Thomas Bayes, las fórmulas y la teoría de la decisión iluminada por él se utilizan en Machine Learning para mejorar y precisar la capacidad de toma de decisiones de esta tecnología.
El uso de este teorema ha resultado ser una decisión acertada, ya que es preciso, eficaz y sencillo. Hay varias aplicaciones donde se gestionan las tareas de clasificación y todas utilizan el Teorema de Bayes. Así es como “qué es el teorema de Bayes en el aprendizaje automático” se puede definir de la mejor manera.
Fórmula de Bayes:
P (A / B) = {P. (A⋂B) / P. (B)} = {P (A). P (B / A) / P (B)}
En esta fórmula, de acuerdo con la regla de Bayes en aprendizaje automático:
- P (A) denota la probabilidad de que ocurra un evento
- P (B) denota la probabilidad de que ocurra el evento B
- P (A / B) denota la probabilidad de A por B
- P (B / A) denota la probabilidad de B por A
- P (A⋂B) denota la probabilidad de que ocurran eventos A y B
El método bayesiano para calcular probabilidades condicionales se utiliza en aplicaciones de aprendizaje automático que involucran tareas de clasificación.
Se utiliza una versión simplificada del Teorema de Bayes, conocida como Clasificación ingenua de Bayes, para reducir el tiempo y los costes de cálculo.
¿Por qué utilizar el teorema de Bayes en el aprendizaje automático?
Hay muchos casos en los que se requieren respuestas y números precisos para tomar una decisión, especialmente en el mundo financiero. Es el momento en que la tecnología resulta útil para tomar la decisión correcta. El aprendizaje automático es una de las tecnologías que ayuda a tomar la decisión correcta en esos momentos, y el teorema de Bayes ayuda a mejorar esas decisiones de probabilidad condicional.
Estos eventos han ocurrido, y la decisión entonces predicha actúa como una respuesta de verificación cruzada. Ayuda enormemente a obtener un resultado más preciso. Por lo tanto, siempre que haya un problema de probabilidad condicional, se utiliza el Teorema de Bayes en Machine Learning. La conclusión directa de este proceso es que cuantos más datos tenga, más preciso será el resultado.
Por lo tanto, hace que la probabilidad condicional sea una necesidad para determinar o predecir posibilidades más precisas de que suceda un evento en el aprendizaje automático.
El Teorema de Bayes es un método para determinar probabilidades condicionales, es decir, la probabilidad de que ocurra un evento dado que ya ocurrió otro evento. Debido a que una probabilidad condicional incluye condiciones adicionales, en otras palabras, más datos, puede contribuir a resultados más precisos.
Por lo tanto, las probabilidades condicionales son imprescindibles para determinar predicciones y probabilidades precisas en el aprendizaje automático. Dado que el campo se está volviendo cada vez más omnipresente en una variedad de dominios, es importante comprender el papel de los algoritmos y métodos como el Teorema de Bayes en el aprendizaje automático.
Cómo aplicar el teorema de Bayes en el aprendizaje automático
El Clasificador Naive Bayes, una versión simplificada del Teorema de Bayes, se utiliza como un algoritmo de clasificación para clasificar los datos en varias clases con precisión y velocidad.
Veamos cómo se puede aplicar el Clasificador Naive Bayes como algoritmo de clasificación.
- Considera un ejemplo general: X es un vector que consta de ‘n’ atributos, es decir, X = {x1, x2, x3,…, xn}.
- Digamos que tenemos clases ‘m’ {C1, C2,…, Cm}. Nuestro clasificador tendrá que predecir que X pertenece a una determinada clase. La clase que presente la probabilidad posterior más alta se elegirá como la mejor clase. Entonces, matemáticamente, el clasificador predecirá para la clase Ci sif P (Ci | X)> P (Cj | X). Aplicación del teorema de Bayes:
P (Ci | X) = [P (X | Ci) * P (Ci)] / P (X)
- P (X), al ser independiente de la condición, es constante para cada clase. Entonces, para maximizar P (Ci | X), debemos maximizar [P (X | Ci) * P (Ci)]. Considerando que todas las clases son igualmente probables, tenemos P (C1) = P (C2) = P (C3)… = P (Cn). Entonces, en última instancia, necesitamos maximizar solo P (X | Ci).
- Dado que es probable que el gran conjunto de datos típico tenga varios atributos, es computacionalmente costoso realizar la operación P (X | Ci) para cada atributo. Aquí es donde entra en juego la independencia condicional de clase para simplificar el problema y reducir los costes de cálculo. Por independencia condicional de clase, queremos decir que consideramos que los valores del atributo son independientes entre sí de forma condicional. Esta es la Clasificación Naive Bayes.
P (Xi | C) = P (x1 | C) * P (x2 | C) *… * P (xn | C)
Ahora es fácil calcular las probabilidades más pequeñas. Una cosa importante a tener en cuenta aquí: dado que xk pertenece a cada atributo, también debemos verificar si el atributo con el que estamos tratando es categórico o continuo.
- Si tenemos un atributo categórico, las cosas son más sencillas. Podemos simplemente contar el número de instancias de la clase Ci que consta del valor xk para el atributo k y luego dividirlo por el número de instancias de la clase Ci.
- Si tenemos un atributo continuo, considerando que tenemos una función de distribución normal, aplicamos una fórmula, con media? y desviación estándar?
En última instancia, tendremos P (x | Ci) = F (xk,? K,? K).
Ahora, tenemos todos los valores que necesitamos para usar el Teorema de Bayes para cada clase Ci. Nuestra clase predicha será la clase que alcance la probabilidad más alta P (X | Ci) * P (Ci).
Categorías de problemas de aprendizaje automático
Cuando se trata de probabilidad condicional, los problemas de aprendizaje automático se pueden dividir en dos categorías: regresión y clasificación.
- Regresión: Esta es la condición en la que necesitamos que la computadora calcule un valor que está asociado o relacionado con algunos datos.
- Clasificación: esta es la condición en la que asignamos el punto de datos a una categoría.
Considera un conjunto de datos pequeño y simple que representa la temperatura de una aldea cada día durante un año en el eje x. De manera similar, en el eje y, determina la cantidad de botellas que vende una de las tiendas del pueblo todos los días. Este gráfico es una representación de estas dos consideraciones de acuerdo con la regla de Bayes en el aprendizaje automático.
Es una de las formas que ayuda a predecir una mejor manera, ya que después de usar el teorema de Bayes, se puede encontrar la cantidad de botellas que una persona vende en promedio cada mes. El comerciante también puede determinar los meses en los que se venden la mayoría de las botellas y trabajar para mantener las existencias durante esos momentos. Además, la persona puede verificar si estas dos cantidades se pueden relacionar entre sí o no.
La mejor forma de utilizar este teorema en regresión es estimar todos los parámetros según el modelo lineal. Ayuda a proporcionar un mejor razonamiento sobre cómo y por qué ML depende del Teorema de Bayes.
Por otro lado, con la ayuda del clasificador óptimo de Bayes, también se puede utilizar el método para el proceso de clasificación. Ambos procesos se siguen en varias grandes empresas a un nivel enorme.
¿Es el clasificador bayesiano un buen método?
Los algoritmos basados en el teorema de Bayes en el aprendizaje automático proporcionan resultados comparables a otros algoritmos, y los clasificadores bayesianos generalmente se consideran métodos simples de alta precisión.
Sin embargo, se debe tener cuidado de recordar que los clasificadores bayesianos son particularmente apropiados cuando el supuesto de independencia condicional de clase es válido, y no en todos los casos. Otra preocupación práctica es que no siempre es posible adquirir todos los datos de probabilidad.
Ejemplos de aplicaciones de aprendizaje automático bayesiano
El aprendizaje automático bayesiano utiliza el teorema de Bayes para predecir ocurrencias. La inferencia bayesiana se basa en el teorema de Bayes, que permite una predicción precisa cuando se aplica a aplicaciones del mundo real. A continuación, se muestran algunos excelentes ejemplos de aplicaciones de la inferencia bayesiana en el mundo real:
Detección de fraude con tarjetas de crédito
La inferencia bayesiana puede identificar patrones o pistas para el fraude con tarjetas de crédito al analizar los datos e inferir probabilidades con el teorema de Bayes. La detección de fraudes con tarjetas de crédito puede tener falsos positivos debido a información incompleta.
Después de que se informa de una actividad inusual a la gestión de riesgos empresariales, se utilizan técnicas de red neuronal bayesiana en el conjunto de datos del perfil del cliente que incluye las transacciones financieras de cada cliente a lo largo del tiempo. Estos análisis confirman si existen indicios de actividades fraudulentas.
Filtrado de correo no deseado
La inferencia bayesiana permite la identificación de mensajes de correo no deseado mediante el teorema de Bayes para construir un modelo que pueda determinar si es probable que un correo electrónico sea correo no deseado o no.
El modelo bayesiano entrenado con el algoritmo bayesiano tomará en cuenta cada palabra del mensaje y le dará diferentes pesos según la frecuencia con la que aparecen tanto en los mensajes de spam como en los no spam. Las redes neuronales bayesianas también se utilizan para clasificar correos electrónicos no deseados al observar la probabilidad de que un correo electrónico sea spam o no en función de características como el número de palabras, la longitud de las palabras, la presencia / ausencia de caracteres particulares, etc.
Diagnóstico médico
El teorema de Bayes se aplica en los diagnósticos médicos para utilizar datos de casos anteriores y determinar la probabilidad de que un paciente tenga una determinada enfermedad. La inferencia bayesiana permite una mejor predicción que los métodos estadísticos tradicionales porque puede tener en cuenta todos los factores que pueden afectar un resultado y proporcionar probabilidades en lugar de solo resultados binarios.
El teorema de Bayes se utiliza para calcular probabilidades posteriores, que se combinan con el conocimiento clínico sobre enfermedades y síntomas para estimar la probabilidad de una afección. La inferencia bayesiana se utiliza en el diagnóstico de la enfermedad de Alzheimer mediante el análisis de datos de pacientes pasados y la búsqueda de un patrón que pueda indicar si una persona tiene esta afección.
Es especialmente útil para enfermedades raras que pueden ocurrir con poca frecuencia y requieren una gran cantidad de datos para hacer predicciones precisas.
Patrones en el rendimiento del conjunto de datos del cliente / campaña de marketing
La técnica de agrupamiento no paramétrico bayesiano se utiliza para encontrar patrones ocultos en los datos. La técnica de agrupación en clústeres no paramétrica bayesiana (BNC) es un método poderoso que se puede aplicar a varios conjuntos de datos, como conjuntos de datos de clientes o rendimiento de campañas de marketing. Ayuda a encontrar patrones ocultos en los datos porque el aprendizaje automático bayesiano no requiere suposiciones sobre la distribución de las variables de entrada.
BNC te permite encontrar clústeres que sean estadísticamente significativos y que también se puedan generalizar en otros conjuntos de datos.
Ayuda a los robots a tomar decisiones
La inferencia bayesiana se utiliza en robótica para ayudar a los robots a tomar decisiones. El teorema de Bayes se puede aplicar utilizando información del sensor en tiempo real del entorno del robot e infiriendo sobre su próximo movimiento o acción basándose en experiencias anteriores.
Los robots utilizarán el teorema de Bayes para extraer características relevantes como la velocidad, la dirección del movimiento, los obstáculos y otros objetos del entorno.
El aprendizaje por refuerzo bayesiano se puede aplicar al aprendizaje de robots. Aprendizaje por refuerzo bayesiano (BRL)utiliza el teorema de Bayes para calcular la probabilidad de realizar una determinada acción basándose en experiencias / conocimientos previamente aprendidos y observaciones recibidas de la información sensorial. Se ha demostrado que BRL supera a otros algoritmos de aprendizaje automático, como deep Q-learning, Monte Carlo Tree Search y Temporal Difference Learning.
Reconstrucción de imágenes limpias a partir de imágenes ruidosas
El teorema de Bayes se utiliza en problemas inversos bayesianos como la tomografía bayesiana. La inferencia bayesiana se puede aplicar al problema de reconstruir imágenes a partir de versiones ruidosas de esas imágenes utilizando el teorema de Bayes y los algoritmos de Markov Chain Monte Carlo (MCMC).
Predicción del tiempo
La inferencia bayesiana se puede utilizar en el aprendizaje automático bayesiano para predecir el tiempo con más precisión. El teorema de Bayes se puede aplicar para predecir patrones climáticos en tiempo real y probabilidades de lluvia basados en datos pasados como temperatura, humedad, etc. Los modelos bayesianos se comparan favorablemente con los enfoques clásicos porque toman en cuenta el comportamiento histórico del sistema que se está modelando y proporcionan una distribución de probabilidad sobre los posibles resultados del pronóstico.
Reconocimiento de emociones del habla
La red neuronal jerárquica no paramétrica (NHNN), un modelo ligero de red neuronal jerárquica basado en la agrupación no paramétrica bayesiana (BNC), se puede utilizar para reconocer las emociones en el habla con mayor precisión. Los modelos NHNN generalmente superan a los modelos con niveles similares de complejidad y modelos de vanguardia en pruebas dentro del corpus y entre corpus.
A través del análisis de agrupamiento, se muestra que los modelos NHNN son capaces de aprender características específicas del grupo y cerrar la brecha de desempeño entre grupos.
Estimación de las emisiones de gas
Los hallazgos recientes sugieren que una gran fracción de las emisiones antropogénicas de metano está representada por condiciones de funcionamiento anormales de los equipos de petróleo y gas. Como tal, la mitigación eficaz requiere una identificación rápida, así como la reparación de fuentes defectuosas controladas mediante tecnología de detección avanzada o algoritmos de detección automática de fallas basados en técnicas recursivas de Bayes.
Análisis forense
La inferencia bayesiana se puede utilizar en el aprendizaje automático bayesiano para inferir la identidad de un individuo en función de la evidencia de ADN. El teorema de Bayes se aplica al análisis forense, que implica razonar sobre probabilidades condicionales y hacer inferencias estadísticas a partir de datos observados (alelos de marcadores genéticos) con respecto a una o más poblaciones de posibles genotipos en estudio.
Reconocimiento óptico de caracteres (OCR)
La inferencia bayesiana se puede utilizar en el aprendizaje automático bayesiano para mejorar el rendimiento del reconocimiento óptico de caracteres (OCR). El teorema de Bayes se aplica al OCR, que implica la transformación de imágenes capturadas en medios impresos en papel en cadenas de texto legibles por computadora. Se ha demostrado que los enfoques bayesianos proporcionan resultados más precisos en comparación con los algoritmos convencionales de aprendizaje automático.