El algoritmo “Despertar-Dormir” para redes neuronales no supervisadas

Original web-page: http://world.std.com/~swmcd/steven/stories/dream.html

Todo el mundo sueña. Nadie sabe por qué. Ciencia 26 de mayo 1995 tiene un artículo titulado El “sueño-vigilia” Algoritmo para no supervisadas redes neuronales, lo que sugiere tanto el propósito y el mecanismo de los sueños.

Aprendizaje sin supervisión

Una de las principales cuestiones pendientes sobre las redes neuronales biológicas es cómo logran aprendizaje no supervisado. En un supervisado esquema de aprendizaje, un experimentador compara la salida de corriente de la red con la salida deseada, y ajusta los pesos de conexión de la red para minimizar la diferencia.

Por supuesto, no existe un experimentador para proporcionar un resultado deseado cuando una red neuronal biológica aprende. De alguna manera, lo hace solo. El algoritmo de vigilia-sueño sugiere que el cerebro sueña para generar los resultados deseados. Estos resultados se utilizan para impulsar el proceso de aprendizaje.

La cuenta popular

NPR publicó una historia sobre el artículo cuando fue publicado. Describieron el algoritmo así:

Supongamos que un niño ve una taza. El niño no sabe nada de tazas, pero su cerebro almacena la imagen. Más tarde, el niño sueña. El cerebro toma la imagen de la copa y hace fantasías sobre ella: cómo se vería, cómo se sentiría, para qué podría usarse. Estas fantasías también se almacenan. La próxima vez que el niño ve una taza, su cerebro compara su experiencia actual con las fantasías almacenadas, y preferentemente mantiene las fantasías que concuerdan con la experiencia. De esta manera, el cerebro construye categorías que abstraen los elementos esenciales del mundo que lo rodea.

La primicia real

Esta cuenta me interesó lo suficiente como para leer el artículo. El artículo resulta ser altamente técnico y estar motivado por consideraciones además de los sueños. Puedo presentar aquí solo un boceto; Si desea comprenderlo más, deberá leerlo usted mismo.

Máquinas de Helmholtz

La premisa del artículo es que una red neural debe representar su estímulo con una descripción de longitud mínima. Para ello, la red mantiene dos conjuntos de conexiones: reconocimiento de conexiones, que van desde entradas a las salidas, y generadores conexiones, que van desde las salidas de nuevo a los insumos. Los autores llaman a este tipo de redes de Helmholtz máquinas.

Cuando un estímulo se aplica a la red, las conexiones de reconocimiento asignarlo a la categoría de salida que mejor lo describe. A continuación, las conexiones generativas que corren de que la producción especial de regreso a las entradas Create-generan-una imagen de esa categoría en las neuronas de entrada. La imagen de la categoría se resta del estímulo real. Por lo tanto, la red representa cualquier estímulo mediante la especificación de una categoría de salida, junto con las diferencias entre el estímulo real y el estímulo nominal para esa categoría. Esto concuerda con nuestra experiencia del mundo: vemos lo que es realmente por ahí, incluso si no coincide exactamente con una de nuestras categorías existentes.

Mejoramiento

Para minimizar la longitud esperada de la descripción, las categorías de salida deben estar cerca de los estímulos encontrados con frecuencia. De esa forma, el número de bits necesarios para representar las diferencias entre el estímulo real y el estímulo nominal será, en promedio, pequeño. Pero hay compensaciones. Aumentar el número de categorías de salida reduce el número de bits necesarios para representar las diferencias, pero aumenta el número de bits necesarios para especificar una categoría de salida particular. El óptimo real depende, por supuesto, de las estadísticas de los estímulos de entrada.

Neuronas estocásticas

Una cosa a entender es que todas las neuronas que se discuten aquí son neuronas estocásticas. Esto significa que las entradas a una neurona no determinan su salida. Más bien, se determinan la distribución de probabilidad de su salida. En una red de neuronas estocásticos, una salida significativa sólo puede obtenerse por un promedio de la actividad neuronal a través de muchas neuronas o muchos ciclos de cocción.

Energía gratis

El artículo afirma que las estadísticas involucradas en minimizar las longitudes de descripción son formalmente las mismas que las estadísticas involucradas en minimizar la energía libre de un sistema termodinámico. Esto no es completamente sorprendente, considerando la profunda conexión entre la entropía de la termodinámica y la entropía de la información.

Formación

Para entrenar una máquina Helmholtz, debe ajustar ambos conjuntos de pesos de conexión: los pesos de reconocimiento y los pesos generativos.

Los pesos generativos se pueden ajustar mientras la red está en uso (activa), utilizando una técnica simple de descenso de gradiente. En esencia, ajusta los pesos generativos para minimizar la diferencia entre la entrada real y la imagen de la entrada que crean. En este caso, la entrada real sirve como la salida deseada para ajustar los pesos.

Los pesos de reconocimiento no se pueden ajustar mientras la red está en uso. El problema no es que la red esté en uso, sino que no hay ninguna salida deseada para impulsar el ajuste. Sin embargo, mientras la red no está en uso (inactiva), las salidas deseadas pueden generarse activando aleatoriamente las neuronas de salida y luego utilizando los pesos generativos para crear entradas simuladas (sueños). Los pesos de reconocimiento luego asignan la entrada simulada a una categoría de salida.

Como se trata de neuronas estocásticas, la activación de una salida determinada conduce a una distribución de entradas simuladas. Esta distribución tiene las estadísticas requeridas para entrenar los pesos de reconocimiento. Para cada entrada simulada, los pesos de reconocimiento se ajustan para maximizar la probabilidad de mapear esa entrada de vuelta a la neurona de salida que se activó para generarla.

En resumen, mientras la red está despierta, los pesos generativos se ajustan para modelar mejor las entradas reales. Mientras la red está dormida, los pesos de reconocimiento se ajustan para reconocer mejor los sueños creados por los pesos generativos.

Frase pegadiza

Los sueños son imágenes aleatorias que el cerebro crea para que pueda practicar su reconocimiento.

Experimentar

Así se ejecuta la red en los ciclos de sueño-vigilia, y se aprende. Los autores consiguieron una gran colección de dígitos escritos a mano desde la oficina de correos. Se alimentaban los dígitos a la red, y que aprendieron a reconocerlos, sin que nadie le dice qué buscar.

También imprimieron los sueños de la red: los patrones de entrada simulados. Las imágenes de los 10 dígitos aparecieron en los sueños. Además, las imágenes no eran representaciones idealizadas de los dígitos. Más bien, todas eran variaciones del ideal, y las variaciones en los sueños se parecían mucho a las variaciones encontradas en los datos de entrada reales. Una muestra de la entrada y una muestra de los sueños parecían más o menos lo mismo.

Un último punto de concordancia entre esta teoría y la observación son las conexiones neuronales bidireccionales. Está bien observado que muchas partes del cerebro tienen conexiones que se ejecutan tanto de entradas a salidas como de salidas a entradas. El propósito de las conexiones de las entradas a las salidas parece obvio, pero no ha habido una buena explicación de las conexiones de las salidas a las entradas. El algoritmo despertar-dormir proporcionaría uno.

Especulación salvaje

En esta teoría, se podría empezar a entender por qué la gente alucinan cuando no se les permite soñar. Si no sueña, entonces su cerebro no puede mantener sus categorías perceptivas optimizadas para su realidad actual. Y una divergencia entre percepción y realidad es esencialmente la definición de una alucinación.

También podría comenzar a comprender la experiencia de soñar: un sueño parecería ser la experiencia subjetiva de su cerebro corriendo hacia atrás.


Notas

todos

Todos los mamíferos, en realidad

artículo

G. E. Hinton, P. Dayan, B. J. Frey, R. M. Neal, Ciencia 268, 1158 (1995)

Máquinas Helmholtz

Helmholtz fue uno de los primeros defensores de la idea de que el sistema perceptivo utiliza modelos generativos.

burla

Los estudiantes de filosofía, psicología, política y sociología pasan mucho tiempo demostrando que nuestras categorías perceptivas sí afectan nuestras percepciones. Esto bien puede ser cierto, especialmente para las categorías muy abstractas que estudian. Sin embargo, para la gran cantidad de estímulos ordinarios, segundo a segundo, con los que debemos luchar, nuestros cerebros hacen un trabajo admirable al presentarnos tanto los datos en bruto como las categorías en las que se encuentran. Por ejemplo, no importa en qué fuente represente este documento, verá la forma real de cada glifo, sin dejar de aprehender la letra que representa el glifo.

promediando

Como mínimo, puede imaginar que esto conduciría a un sistema muy robusto. Si toda la red está diseñada para ejecutarse promediando las neuronas, y una de ellas muere, o hay algún ruido en alguna parte, bueno, ¿quién se dará cuenta?

oficina postal

La oficina de correos está muy interesada en el reconocimiento de escritura a mano, porque quieren leer los códigos postales por máquina.

alucinar

Alguien me dijo una vez que se vuelven “psicóticos” cuando no han dormido lo suficiente.


Steven W. McDougall/1 de noviembre de 1997

About the Author