¿Qué son las redes neuronales artificiales y cómo funcionan?

Incluso aunque trabajes en el espacio de la ciencia de datos o la ingeniería de software, es difícil comprender el término redes neuronales artificiales.

Las redes neuronales artificiales (ANN) son ubicuas. Se utilizan en chatbots, imágenes médicas, planificación de medios y muchas otras áreas. Pero nos hemos preguntado con un sentido de profunda curiosidad: ¿qué es una red neuronal artificial y qué puede lograr realmente?

Todos nos hemos encontrado con la definición común de que las redes neuronales artificiales replican el funcionamiento del sistema neuronal humano. Eso explica el principio de funcionamiento, pero la mayoría de nosotros todavía no sabemos qué hace que una RNA sea tan especial o para qué conjuntos de problemas es ideal. Para aclarar las cosas, aquí está la guía más completa y accesible que encontrarás sobre redes neuronales artificiales.

¿Qué es una red neuronal artificial?

Cuando hay una docena de términos como inteligencia artificial , aprendizaje automático, aprendizaje profundo y redes neuronales, es fácil confundirse. La bifurcación real entre estas verticales no es tan complicada.

La IA es el conjunto universal que es el tema en cuestión. Es el estudio sistemático de cómo funcionan y se hacen los programas inteligentes. El aprendizaje automático es un subconjunto de la IA que se centra en cómo las máquinas pueden aprender por sí mismas. El aprendizaje profundo es un subconjunto adicional de ML que se centra en cómo se pueden utilizar capas de redes neuronales para generar resultados.

Entonces, ¿qué es una red neuronal artificial? Es un sistema de procesamiento de datos y generación de salida que replica el sistema neuronal para desentrañar relaciones no lineales en un gran conjunto de datos. Los datos pueden provenir de rutas sensoriales y pueden estar en forma de texto, imágenes o audio.

La mejor manera de comprender cómo funciona una red neuronal artificial es entendiendo cómo funciona una red neuronal natural dentro del cerebro y trazando un paralelo entre ellas.

Las neuronas son el componente fundamental del cerebro humano y son responsables del aprendizaje y la retención del conocimiento y la información tal como la conocemos. Pueden considerarse la unidad de procesamiento en el cerebro. Toman los datos sensoriales como entrada, los procesan y dan los datos de salida utilizados por otras neuronas. La información se procesa y se transmite hasta que se obtiene un resultado decisivo.

La red neuronal básica del cerebro está conectada por sinapsis. Estos son los nodos finales de un puente que conecta dos neuronas. Entonces, la sinapsis es el punto de encuentro de dos neuronas. Las sinapsis son una parte importante de este sistema porque la fuerza de una sinapsis determinaría la profundidad del entendimiento y la retención de información.

Cuando practicas una actividad, estás fortaleciendo estas relaciones sinápticas.

Todos los datos sensoriales que tu cerebro está recopilando en tiempo real se procesan a través de estas redes neuronales. Tienen un punto de origen en el sistema. Y a medida que son procesadas por las neuronas iniciales, la forma procesada de una señal eléctrica que sale de una neurona se convierte en la entrada de otra neurona. Este procesamiento de microinformación en cada capa de neuronas es lo que hace que esta red sea efectiva y eficiente. Al replicar este tema recurrente de procesar datos a través de la red neuronal, las ANN pueden producir resultados superiores.

En una RNA, todo está diseñado para replicar este mismo proceso. Todos los datos que ingresan con la etiqueta ‘X’ en el sistema tienen un peso de ‘W’ para generar una señal ponderada. Esto replica el papel de la fuerza de una señal sináptica en el cerebro. La variable de sesgo se adjunta para controlar los resultados de la salida de la función.

Entonces, todos estos datos se procesan en la función y termina con una salida. La idea de una red neuronal artificial gira en torno a conectar varias combinaciones de tales neuronas artificiales para obtener resultados más potentes.

Este mecanismo se utiliza para descifrar grandes conjuntos de datos. El resultado generalmente tiende a ser un establecimiento de causalidad entre las variables ingresadas como insumo que se puede usar para pronosticar.

Por tanto, la definición de una red neuronal artificial es: red inspirada en el cerebro humano mediante la creación de un sistema neuronal artificial mediante un algoritmo informático de reconocimiento de patrones que aprende, interpreta y clasifica datos sensoriales.

¿Cómo funcionan y aprenden las redes neuronales artificiales?

La magia ocurre primero en la función de activación. La función de activación realiza un procesamiento inicial para determinar si la neurona se activará o no. Si la neurona no está activada, su salida será la misma que su entrada. Entonces no pasa nada. Es fundamental tener esto en la red neuronal, de lo contrario, el sistema se verá obligado a procesar una tonelada de información que no tiene ningún impacto en la salida.

Una propiedad central común en todas las redes neuronales artificiales es el concepto de no linealidad. La mayoría de las variables que se estudian poseen una relación no lineal en la vida real.

Tomemos, por ejemplo, el precio del chocolate y la cantidad de chocolates. Supón que un chocolate cuesta 1 euro. ¿Cuánto costarían 100 chocolates? Probablemente 100 euros. ¿Cuánto costarían 10,000 chocolates? No 10,000 euros; porque el vendedor agregará el coste de usar un empaque adicional para juntar todos los chocolates o reducirá el coste ya que está vendiendo una gran cantidad de chocolates. Ese es el concepto de no linealidad.

Una función de activación utilizará principios matemáticos básicos para determinar si la información se procesará o no. Las formas más comunes de funciones de activación son la función de paso binario, la función logística, la función tangente hiperbólica y las unidades lineales rectificadas.

Aquí está la definición básica de cada uno de estos:

Función de paso binario

Esta función activa una neurona sobre la base de un umbral. Si la función tiene el resultado final que está por encima o por debajo de un valor de referencia, la neurona se activa.

Función logística

Esta función tiene un resultado final matemático en forma de curva ‘S’ y se utiliza cuando las probabilidades son el criterio clave para determinar si la neurona debe activarse. Entonces, en cualquier punto, puede calcular la pendiente de esta curva. El valor de esta función se encuentra entre 0 y 1. La pendiente se calcula mediante una función diferencial.

El concepto se usa cuando dos variables no tienen una relación lineal. La pendiente es el valor de una tangente que toca la curva en el punto exacto donde se activa la no linealidad. El problema con la función logística es que no es buena para procesar información con valores negativos.

Función tangente hiperbólica

Es bastante similar a la función logística, excepto que sus valores se encuentran entre -1 y +1. Entonces, el problema de que un valor negativo no se procese en la red desaparece.

Unidades lineales rectificadas (ReLu)

Los valores de esta función se encuentran entre 0 e infinito positivo. ReLu simplifica algunas cosas: si la entrada es positiva, dará el valor de ‘x’. Para todas las demás entradas, el valor sería ‘0’. Puede utilizarse un Leaky ReLu que tenga valores entre infinito negativo e infinito positivo. Se usa cuando la relación entre las variables que se procesan es realmente débil y la función de activación puede omitirla por completo.

Ahora puedes consultar los mismos dos diagramas de un perceptrón y una red neuronal. ¿Cuál es la diferencia, además del número de neuronas? La diferencia clave es la capa oculta. Una capa oculta se encuentra justo entre la capa de entrada y la capa de salida en una red neuronal. El trabajo de la capa oculta es refinar el procesamiento y eliminar variables que no tendrán un impacto fuerte en la salida.

Si el número de instancias en un conjunto de datos donde el impacto del cambio en el valor de una variable de entrada es notable en la variable de salida, la capa oculta mostrará esa relación. La capa oculta facilita que la ANN envíe señales más fuertes a la siguiente capa de procesamiento.

Incluso después de hacer todas estas matemáticas y comprender cómo funciona la capa oculta, es posible que te preguntes cómo aprende realmente una red neuronal artificial.

Comencemos con la pregunta básica de qué es aprender. Aprender, en los términos más simples, es establecer causalidad entre dos cosas (actividades, procesos, variables, etc.). Cuando ‘aprendes’ cómo lanzar una bola, estás estableciendo una causalidad entre la acción física de lanzar la pelota de cierta manera y hacer que la trayectoria de la pelota se curve de cierta manera.

Ahora bien, esta causalidad es muy difícil de establecer. Es muy difícil decir con absoluta certeza qué variable está provocando el movimiento en qué variable. Obviamente, a menudo podemos establecer esto intuitivamente; pero ¿cómo se logra que un algoritmo comprenda la intuición?

Utiliza una función de coste. Matemáticamente, es la diferencia al cuadrado entre el valor real del conjunto de datos y el valor de salida del conjunto de datos. También puede considerarse el grado de error. Lo cuadramos porque a veces la diferencia puede ser negativa.

Puede marcarse cada ciclo de procesamiento de entrada a salida con la función de coste. El trabajo de la ANN es minimizar la función de coste al valor más bajo posible. Se logra ajustando los pesos en el ANN. Hay varias formas de hacer esto.

Con cada ciclo, nuestro objetivo es minimizar la función de costes. El proceso de pasar de la entrada a la salida se llama propagación hacia adelante. Y el proceso de usar datos de salida para minimizar la función de coste ajustando el peso en orden inverso desde la última capa oculta a la capa de entrada se llama propagación hacia atrás.

Puedes seguir ajustando estos pesos utilizando el método de fuerza bruta, que se vuelve ineficaz cuando el conjunto de datos es demasiado grande, o el descenso de gradiente por lotes, que es un algoritmo de optimización. Ahora tienes una comprensión intuitiva de cómo aprende una red neuronal artificial.

Redes neuronales recurrentes (RNN) frente a redes neuronales convolucionales (CNN)

Comprender estas dos formas de redes neuronales también puede ser la introducción a dos facetas diferentes de la aplicación de IA: la visión por computadora y el procesamiento del lenguaje natural.

En la forma más simple, estas dos ramas de la IA ayudan a una máquina a identificar visualmente los objetos y comprender el contexto de los datos lingüísticos. Como podrás imaginar, ya se utilizan aplicaciones de estas ramas en coches autónomos y asistentes virtuales como Siri.

Ahora, cada una de estas ramas tiene su propia red neuronal establecida. La PNL depende en gran medida de las redes neuronales recurrentes.

La diferencia entre un RNN y un ANN es que en un ANN, cada señal de entrada se considera independiente de la siguiente señal de entrada. Entonces, los datos de entrada que existen entre dos nodos, en sí mismos, no tienen ninguna relación.

Cuando nos comunicamos, cada palabra despeja el camino contextual para la siguiente. Por lo tanto, la naturaleza fundamental del lenguaje es que crea interdependencias entre la información que se ingresa antes y la información que se ingresa más tarde. Los RNN son sensibles a esto al ejecutar una memoria paralela que establece la relación entre estas entradas para borrar el contexto.

Las redes neuronales convolucionales se utilizan idealmente para la visión por computadora. Además de las funciones de activación generalmente utilizadas, agregan una función de agrupación y una función de convolución.

Una función de convolución, en términos más simples, mostraría cómo la entrada de una imagen y la entrada de una segunda imagen (un filtro) darán como resultado una tercera imagen (el resultado).

Una función de agrupación tomará el valor máximo o mínimo, según la función agregada, para facilitar el procesamiento de este conjunto de información.

Aplicaciones de las redes neuronales artificiales

Hasta ahora hemos visto la teoría. Ahora veremos las RNA en acción para apreciar plenamente su vínculo con nuestro mundo en evolución:

1. Personalizar las recomendaciones en las plataformas de comercio electrónico.

Una de las primeras aplicaciones de las ANN ha sido la personalización de las experiencias de la plataforma de comercio electrónico para cada usuario. ¿Recuerdas las recomendaciones realmente efectivas en Netflix? ¿O las sugerencias de productos correctas de Amazon? Son el resultado de la ANN.

Aquí se utilizan una gran cantidad de datos: compras anteriores, datos demográficos, datos geográficos y los datos que muestran qué compraron las personas que compraron el mismo producto a continuación. Todos estos sirven como entradas para determinar qué podría funcionar para ti.

Al mismo tiempo, lo que realmente compras ayuda a optimizar el algoritmo. Con cada compra, estás enriqueciendo a la empresa y al algoritmo que empodera a la ANN. Cada nueva compra realizada en la plataforma también mejorará la destreza del algoritmo para recomendarte los productos adecuados.

2. Aprovechar el procesamiento del lenguaje natural para chatbots conversacionales

No hace mucho, las cajas de chat habían comenzado a ganar fuerza en los sitios web. Un agente se sentaría y te ayudaría con tus consultas escritas en el cuadro. Luego, se introdujo un fenómeno llamado procesamiento del lenguaje natural (PNL) en los chatbots y todo cambió.

La PNL generalmente usa reglas estadísticas para replicar las capacidades del lenguaje humano y, al igual que otras aplicaciones de ANN, mejora con el tiempo. Las puntuaciones, entonaciones y enunciaciones, elecciones gramaticales, opciones sintácticas, orden de palabras y oraciones, e incluso el idioma de su elección, pueden servir como entradas para entrenar el algoritmo de PNL.

El chatbot se vuelve conversacional al usar estas entradas para comprender el contexto de tus consultas y formular respuestas de la manera que mejor se adapte a tu estilo. El mismo NLP también se utiliza para la edición de audio con fines de verificación de seguridad y música.

3. Predecir los resultados de un evento de alto perfil

La mayoría de nosotros seguimos las predicciones de resultados que realizan los algoritmos impulsados ​​por la IA durante las elecciones presidenciales y la Copa Mundial de la FIFA. Dado que ambos eventos son por fases, ayuda al algoritmo a comprender rápidamente su eficacia y minimizar la función de coste a medida que los equipos y candidatos son eliminados.

El verdadero desafío en tales situaciones es el grado de variables de entrada. Desde candidatos hasta estadísticas de jugadores, datos demográficos y capacidades anatómicas, todo debe incorporarse.

En los mercados de valores, los algoritmos predictivos que utilizan ANN existen desde hace un tiempo. Las actualizaciones de noticias y las métricas financieras son las variables de entrada clave que se utilizan. Gracias a esto, la mayoría de las bolsas y los bancos pueden negociar activos con iniciativas de negociación de alta frecuencia a velocidades que superan con creces las capacidades humanas.

El problema con los mercados de valores es que los datos siempre son ruidosos. La aleatoriedad es muy alta debido al grado de juicio subjetivo que puede afectar el precio de un valor es muy alto. Sin embargo, todos los bancos líderes están utilizando las ANN en actividades de creación de mercado en estos días.

4. Sanciones crediticias

Ya se estaban utilizando tablas actuariales para determinar los factores de riesgo asociados con cada solicitante de seguro. Las ANN han llevado todos esos datos a un nivel más alto.

Todos los prestamistas pueden analizar las décadas de datos que poseen con los pesos fuertemente establecidos en el sistema y usar su información como entrada para determinar el perfil de riesgo apropiado asociado con la solicitud de préstamo. La edad, sexo, ciudad de residencia, escuela de graduación, industria de participación, salario y índice de ahorro se utilizan como datos para determinar los puntajes de riesgo crediticio.

Lo que antes dependía en gran medida del puntaje crediticio individual ahora se ha convertido en un mecanismo mucho más completo. Esa es la razón por la que varios jugadores privados de fintech se han lanzado al espacio de los préstamos personales para ejecutar las mismas ANN y prestar a personas cuyos perfiles son considerados demasiado riesgosos por los bancos.

5. Automóviles autónomos

Tesla, Waymo y Uber han estado usando ANN similares. Los insumos y la ingeniería del producto podrían haber diferido, pero estaban implementando computación visual sofisticada para hacer realidad los vehículos autónomos.

Gran parte de la conducción autónoma tiene que ver con el procesamiento de información que proviene del mundo real en forma de vehículos cercanos, señales de tráfico, luces naturales y artificiales, peatones, edificios, etc.

Obviamente, las redes neuronales que alimentan estos vehículos autónomos son más complicadas que las que discutimos aquí, pero operan con los mismos principios que exponemos.

Conclusión

Las RNA se vuelven cada vez más sofisticadas día a día. Los PNL ahora están ayudando en el diagnóstico temprano de problemas de salud mental, la visión por computadora se está utilizando en imágenes médicas y las ANN están impulsando la entrega de drones.

A medida que las RNA se vuelven más complejas y estratificadas, la necesidad de inteligencia humana en este sistema será menor. Incluso áreas como el diseño han comenzado a implementar soluciones de IA con diseño generativo.

La evolución eventual de todas las RNA juntas sería la Inteligencia General, una forma de inteligencia tan sofisticada que puede aprender y percibir toda la información conocida y desconocida para la humanidad. Si bien es una realidad muy lejana, si es posible, se ha convertido en un concepto concebible gracias a la amplia adopción de ANN.