L'arquitectura de la xarxa neuronal utilitzada a l'exemple és una xarxa neuronal de feedforward amb tres capes: una capa d'entrada, una capa oculta i una capa de sortida. La capa d'entrada consta de 784 unitats, que correspon al nombre de píxels de la imatge d'entrada. Cada unitat de la capa d'entrada representa el valor d'intensitat d'un píxel de la imatge.
La capa oculta consta de 128 unitats, que estan completament connectades a la capa d'entrada. Cada unitat de la capa oculta calcula una suma ponderada de les entrades de la capa d'entrada i aplica una funció d'activació per produir una sortida. En aquest exemple, la funció d'activació utilitzada a la capa oculta és la funció d'unitat lineal rectificada (ReLU). La funció ReLU es defineix com f(x) = max(0, x), on x és la suma ponderada de les entrades a la unitat. La funció ReLU introdueix la no linealitat a la xarxa, la qual cosa li permet aprendre patrons i relacions complexes a les dades.
La capa de sortida consta de 10 unitats, cadascuna representant una de les classes possibles en el problema de classificació. Les unitats de la capa de sortida també estan completament connectades a les unitats de la capa oculta. De manera similar a la capa oculta, cada unitat de la capa de sortida calcula una suma ponderada de les entrades de la capa oculta i aplica una funció d'activació. En aquest exemple, la funció d'activació utilitzada a la capa de sortida és la funció softmax. La funció softmax converteix la suma ponderada de les entrades en una distribució de probabilitat sobre les classes, on la suma de les probabilitats és igual a 1. La unitat amb la probabilitat més alta representa la classe prevista de la imatge d'entrada.
En resum, l'arquitectura de xarxa neuronal utilitzada a l'exemple consta d'una capa d'entrada amb 784 unitats, una capa oculta amb 128 unitats amb la funció d'activació ReLU i una capa de sortida amb 10 unitats amb la funció d'activació softmax.
Altres preguntes i respostes recents sobre Construir una xarxa neuronal per realitzar la classificació:
- És necessari utilitzar una funció d'aprenentatge asíncrona per als models d'aprenentatge automàtic que s'executen a TensorFlow.js?
- Com es compila i s'entrena el model a TensorFlow.js i quin és el paper de la funció de pèrdua d'entropia creuada categòrica?
- Quina és la importància de la taxa d'aprenentatge i el nombre d'èpoques en el procés d'aprenentatge automàtic?
- Com es divideixen les dades d'entrenament en conjunts d'entrenament i de prova a TensorFlow.js?
- Quin és l'objectiu de TensorFlow.js per construir una xarxa neuronal per a tasques de classificació?