L'abandonament és una tècnica de regularització utilitzada en models d'aprenentatge automàtic, específicament en xarxes neuronals d'aprenentatge profund, per combatre el sobreajustament. El sobreajust es produeix quan un model funciona bé amb les dades d'entrenament, però no es pot generalitzar a dades no vistes. L'abandonament aborda aquest problema evitant les coadaptacions complexes de les neurones a la xarxa, obligant-les a aprendre característiques més robustes i generalitzables.
En l'abandonament, durant la fase d'entrenament, una fracció de les neurones d'una capa són seleccionades aleatòriament i temporalment "abandonades" o ignorades. Això vol dir que les seves sortides estan configurades a zero i que no contribueixen al pas cap endavant o cap enrere de la xarxa. La fracció de neurones a abandonar està determinada per un hiperparàmetre anomenat taxa d'abandonament, que normalment s'estableix entre 0.2 i 0.5.
En abandonar les neurones aleatòriament, l'abandonament impedeix que el model depengui massa en qualsevol conjunt de neurones en particular. Això anima la xarxa a aprendre representacions redundants de les dades, fent-la més robusta i menys sensible a la presència o absència de neurones específiques. També actua com una tècnica de conjunt, ja que durant l'entrenament es mostren múltiples arquitectures de xarxa diferents a causa de les màscares d'abandonament aleatòries.
Per entendre com l'abandonament ajuda a combatre el sobreajustament, considereu un escenari en què s'entrena una xarxa neuronal per classificar imatges de gats i gossos. Sense abandonament, la xarxa pot aprendre a confiar molt en determinades neurones que detecten característiques específiques de gats o gossos. Això pot provocar un sobreajustament, on la xarxa s'especialitza massa amb les dades d'entrenament i no es pot generalitzar a noves imatges.
Tanmateix, amb l'abandonament, la xarxa es veu obligada a distribuir el seu aprenentatge entre un conjunt més gran de neurones. Com a resultat, cap neurona única pot dominar el procés d'aprenentatge i la xarxa es fa més resistent a l'excés d'adaptació. La xarxa aprèn a fer prediccions basades en una combinació de diferents conjunts de neurones, cosa que l'ajuda a generalitzar millor les dades no vistes.
Durant la fase de prova o d'inferència, l'abandonament normalment s'apaga i s'utilitza la xarxa completa. Tanmateix, els pesos de les neurones s'ajusten a la taxa d'abandonament per tenir en compte el fet que hi ha més neurones actives durant les proves en comparació amb l'entrenament.
L'abandonament és una tècnica de regularització que ajuda a combatre el sobreajust en els models d'aprenentatge automàtic deixant de manera aleatòria les neurones durant l'entrenament. Evita que la xarxa depengui massa de neurones específiques, fomenta l'aprenentatge de funcions més robustes i actua com una tècnica de conjunt. En fer-ho, l'abandonament millora la capacitat de generalització del model, permetent-li un millor rendiment en dades no vistes.
Altres preguntes i respostes recents sobre Fonaments de TensorFlow de l’EITC/AI/TFF:
- Com determinar el nombre d'imatges utilitzades per entrenar un model de visió d'IA?
- Quan s'entrena un model de visió d'IA, és necessari utilitzar un conjunt d'imatges diferent per a cada època d'entrenament?
- Quin és el nombre màxim de passos que pot memoritzar un RNN evitant el problema del gradient de desaparició i els passos màxims que pot memoritzar LSTM?
- Una xarxa neuronal de retropropagació és similar a una xarxa neuronal recurrent?
- Com es pot utilitzar una capa d'incrustació per assignar automàticament eixos adequats per a una trama de representació de paraules com a vectors?
- Quin és l'objectiu de la agrupació màxima en una CNN?
- Com s'aplica el procés d'extracció de característiques en una xarxa neuronal convolucional (CNN) al reconeixement d'imatges?
- És necessari utilitzar una funció d'aprenentatge asíncrona per als models d'aprenentatge automàtic que s'executen a TensorFlow.js?
- Quin és el paràmetre del nombre màxim de paraules de l'API TensorFlow Keras Tokenizer?
- Es pot utilitzar l'API TensorFlow Keras Tokenizer per trobar les paraules més freqüents?
Vegeu més preguntes i respostes a EITC/AI/TFF TensorFlow Fundamentals
Més preguntes i respostes:
- Camp: Intel·ligència Artificial
- programa: Fonaments de TensorFlow de l’EITC/AI/TFF (anar al programa de certificació)
- Lliçó: Problemes d’excés i insuficiència (anar a la lliçó relacionada)
- Tema: Resolució dels problemes de sobreadaptació i subadaptació del model - part 2 (anar al tema relacionat)
- Revisió de l'examen