Las redes neuronales son un subconjunto de técnicas de aprendizaje automático que utilizan neuronas y capas ocultas para aprender datos y patrones de una manera diferente. Las redes neuronales son mucho más poderosas debido a su estructura compleja y se pueden utilizar en aplicaciones donde los algoritmos tradicionales de aprendizaje automático no son suficientes.
Una breve historia de las redes neuronales
Desde la década de 1960, los investigadores han estado investigando y formulando formas de imitar el funcionamiento de las neuronas humanas y cómo funciona el cerebro. Aunque es extremadamente complejo de decodificar, se propuso una estructura similar que podría ser extremadamente eficiente para aprender patrones ocultos en los datos.
Durante la mayor parte del siglo XX, las redes neuronales se consideraban ineficientes. Eran complejas y su rendimiento era pobre. Además, requerían mucha potencia de cálculo que no estaba disponible en ese momento. Sin embargo, cuando el equipo de Sir Geoffrey Hinton, también conocido como el padre del aprendizaje profundo, publicó el documento de investigación sobre la retropropagación, las cosas cambiaron por completo. Las redes neuronales ahora podían lograr lo que no se pensaba.
¿Qué son las redes neuronales?
Las redes neuronales utilizan la arquitectura de las neuronas humanas, que tienen múltiples entradas, una unidad de procesamiento y una o varias salidas. Hay pesos asociados con cada conexión de las neuronas. Ajustando estos pesos, una red neuronal llega a una ecuación que se utiliza para predecir las salidas en nuevos datos no vistos. Este proceso se realiza mediante la retropropagación y la actualización de los pesos.
Tipos de redes neuronales
Existen diferentes tipos de redes neuronales que se utilizan para diferentes datos y aplicaciones. Las diferentes arquitecturas de las redes neuronales están diseñadas específicamente para trabajar en esos tipos particulares de datos o dominios. Comencemos desde los más básicos y avancemos hacia los más complejos.
Perceptrón
El Perceptrón es la forma más básica y antigua de redes neuronales. Consiste en solo una neurona que toma la entrada y aplica una función de activación para producir una salida binaria. No contiene capas ocultas y solo se puede utilizar para tareas de clasificación binaria.

La neurona realiza el procesamiento de la suma de los valores de entrada con sus pesos. La suma resultante se pasa luego a la función de activación para producir una salida binaria.
Red de avance de alimentación
Las redes de avance de alimentación (FF) consisten en múltiples neuronas y capas ocultas que están conectadas entre sí. Se llaman de avance porque los datos fluyen solo en dirección hacia adelante y no hay propagación hacia atrás. Las capas ocultas pueden no estar necesariamente presentes en la red dependiendo de la aplicación.
Cuanto más capas, más personalización de los pesos se puede lograr. Y por lo tanto, mayor será la capacidad de aprendizaje de la red. Los pesos no se actualizan ya que no hay retropropagación. La salida de la multiplicación de los pesos con las entradas se alimenta a la función de activación que actúa como un valor umbral.
Las redes FF se utilizan en:
- Clasificación
- Reconocimiento de voz
- Reconocimiento facial
- Reconocimiento de patrones
Perceptrón Multicapa
La principal limitación de las redes de avance de alimentación era su incapacidad para aprender con retropropagación. Los perceptrones multicapa son redes neuronales que incorporan múltiples capas ocultas y funciones de activación. El aprendizaje se realiza de manera supervisada, donde los pesos se actualizan mediante el método del descenso de gradiente.
El perceptrón multicapa es bidireccional, es decir, la propagación hacia adelante de las entradas y la propagación hacia atrás de las actualizaciones de los pesos. Las funciones de activación pueden cambiar según el tipo de objetivo. El softmax se utiliza generalmente para la clasificación multiclase, la sigmoid se utiliza para la clasificación binaria, etc. También se les llama redes densas porque todas las neuronas de una capa están conectadas a todas las neuronas de la siguiente capa.
Se utilizan en aplicaciones basadas en aprendizaje profundo pero generalmente son lentas debido a su estructura compleja.
Redes de Base Radial
Las redes de base radial (RBN) utilizan una forma completamente diferente de predecir los objetivos. Consisten en una capa de entrada, una capa con neuronas RBF y una salida. Las neuronas RBF almacenan las clases reales para cada una de las instancias de datos de entrenamiento. Las RBN son diferentes de los perceptrones multicapa habituales debido a la función radial utilizada como función de activación.
Cuando se introduce un nuevo dato en la red neuronal, las neuronas RBF comparan la distancia euclidiana de los valores de características con las clases reales almacenadas en las neuronas. Esto es similar a encontrar a qué clúster pertenece la instancia en particular. Se asigna como clase predicha la clase donde la distancia es mínima.
Las RBN se utilizan principalmente en aplicaciones de aproximación de funciones como los sistemas de restauración de potencia.
Redes Neuronales Convolucionales
Cuando se trata de clasificación de imágenes, las redes neuronales convolucionales (CNN) son las más utilizadas. Las CNN contienen múltiples capas de convolución que se encargan de extraer características importantes de la imagen. Las capas anteriores son responsables de los detalles de bajo nivel y las capas posteriores son responsables de características de alto nivel.
La operación de convolución utiliza una matriz personalizada, también llamada filtros, para convolucionar sobre la imagen de entrada y producir mapas. Estos filtros se inicializan aleatoriamente y luego se actualizan mediante retropropagación. Un ejemplo de dicho filtro es el detector de bordes Canny, que se utiliza para encontrar los bordes en cualquier imagen.
Después de la capa de convolución, hay una capa de agrupación que se encarga de la agregación de los mapas producidos a partir de la capa de convolución. Puede ser Max Pooling, Min Pooling, etc. Para la regularización, las CNN también incluyen la opción de agregar capas de dropout que desactivan o hacen que ciertas neuronas sean inactivas para reducir el sobreajuste y lograr una convergencia más rápida.
Las CNN utilizan ReLU (Rectified Linear Unit) como funciones de activación en las capas ocultas. Como última capa, las CNN tienen una capa densa completamente conectada y la función de activación generalmente es Softmax para la clasificación y generalmente ReLU para la regresión.
Redes Neuronales Recurrentes
Las redes neuronales recurrentes entran en juego cuando se necesita hacer predicciones utilizando datos secuenciales. Los datos secuenciales pueden ser una secuencia de imágenes, palabras, etc. Las RNN tienen una estructura similar a la de una red de avance de alimentación, excepto que las capas también reciben una entrada retrasada en el tiempo de la predicción de la instancia anterior. Esta predicción de instancia se almacena en la celda RNN, que es una segunda entrada para cada predicción.
Sin embargo, la principal desventaja de las RNN es el problema del gradiente desvaneciente, que hace que sea muy difícil recordar los pesos de las capas anteriores.
Redes de Memoria a Corto y Largo Plazo
Las redes neuronales LSTM superan el problema del gradiente desvaneciente en las RNN al agregar una memoria especial que puede almacenar información durante largos períodos de tiempo. LSTM utiliza compuertas para definir qué salida se debe utilizar u olvidar. Utiliza 3 compuertas: compuerta de entrada, compuerta de salida y compuerta de olvido. La compuerta de entrada controla qué datos deben mantenerse en la memoria. La compuerta de salida controla los datos que se envían a la siguiente capa y la compuerta de olvido controla cuándo desechar/olvidar los datos no necesarios.
Las LSTM se utilizan en diversas aplicaciones como:
- Reconocimiento de gestos
- Reconocimiento de voz
- Predicción de texto
Las redes neuronales pueden volverse muy complejas muy rápidamente a medida que se van agregando capas en la red. Hay momentos en los que podemos aprovechar la inmensa investigación en este campo utilizando redes pre-entrenadas para nuestro uso.
Esto se llama Transfer Learning. En este tutorial, hemos cubierto la mayoría de las redes neuronales básicas y su funcionamiento. Asegúrate de probarlas utilizando los frameworks de aprendizaje profundo como Keras y TensorFlow.
Si estás interesado en aprender más sobre redes neuronales, aprendizaje automático e inteligencia artificial, echa un vistazo al PG Diploma in Machine Learning & AI de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de caso y tareas, estado de exalumno de IIIT-B, más de 5 proyectos prácticos de aplicación final y asistencia laboral con las principales empresas.
Si quieres conocer otras notas parecidas a Tipos de redes neuronales en la ia: tutorial completa puedes visitar la categoría Inteligencia.
