Secuencialidad
Redes de memoria de largo a corto plazo
Reconfigurando
En una red forward que decide que info pasa y cual no
$$ \begin{pmatrix} a_1\\ a_2\\ a_3\\ a_4\\ a_5\\ \ldots\\ a_n\\ \end{pmatrix} \bigotimes \begin{pmatrix} 0\\ 1\\ 1\\ 0\\ 1\\ \ldots\\ 1\\ \end{pmatrix}= \begin{pmatrix} 0\\ a_2\\ a_3\\ 0\\ a_5\\ \ldots\\ a_n\\ \end{pmatrix} $$En una red forward que decide que info pasa y cual no
$$ \begin{pmatrix} a_1\\ a_2\\ a_3\\ a_4\\ a_5\\ \ldots\\ a_n\\ \end{pmatrix} \bigotimes sigmod(Wx+b) = \begin{pmatrix} 0\\ a_2\\ a_3\\ 0\\ a_5\\ \ldots\\ a_n\\ \end{pmatrix} $$Preferimos una activación sigmoide por cada celda del contexto: 0 olvida, 1 recuerda
Qué tanto olvidar del contexto dada la nueva información
Qué tanto agregar al contexto dada la nueva información: identificar información ($i$) y crear información ($\tilde{C}$)
Crear contexto
Dada la entrada qué elementos de la salida y generamos la salida con el contexto
Se ve el contexto
Mecanismo recuerda/olvida
Mecanismo recuerda/olvida
Backpropagation through time
Cuando entrenamos por batch, las secuencias deben tener el mismo tamaño
Para casos categóticos