Quin és el problema del gradient de desaparició?

by Brian Buckley / Dilluns, 14 agost 2023 / Publicat a Intel·ligència Artificial, EITC/AI/GCML Google Cloud Machine Learning, Primers passos de l'aprenentatge automàtic, Xarxes neuronals profundes i estimadors

El problema del gradient de desaparició és un repte que sorgeix en l'entrenament de xarxes neuronals profundes, concretament en el context dels algorismes d'optimització basats en gradients. Es refereix al problema dels gradients que disminueixen exponencialment a mesura que es propaguen cap enrere a través de les capes d'una xarxa profunda durant el procés d'aprenentatge. Aquest fenomen pot dificultar significativament la convergència de la xarxa i impedir la seva capacitat per aprendre patrons i representacions complexes.

Per entendre el problema del gradient de desaparició, primer parlem de l'algoritme de retropropagació, que s'utilitza habitualment per entrenar xarxes neuronals profundes. Durant el pas endavant, les dades d'entrada s'alimenten a través de la xarxa i les activacions es calculen successivament a cada capa. A continuació, es compara la sortida resultant amb la sortida desitjada i es calcula un error. En el pas posterior cap enrere, l'error es propaga a través de les capes i es calculen els gradients respecte als paràmetres de la xarxa mitjançant la regla de càlcul de la cadena.

Els gradients representen la direcció i la magnitud dels canvis que cal fer als paràmetres de la xarxa per tal de reduir l'error. S'utilitzen per actualitzar els paràmetres mitjançant un algorisme d'optimització com ara el descens de gradient estocàstic (SGD). Tanmateix, a les xarxes profundes, els gradients poden arribar a ser molt petits ja que es multipliquen pels pesos i es passen per les funcions d'activació de cada capa durant el procés de retropropagació.

El problema del gradient de desaparició es produeix quan els gradients es tornen extremadament petits, apropant-se a zero, ja que es propaguen cap enrere a través de la xarxa. Això passa perquè els gradients es multipliquen pels pesos de cada capa, i si aquests pesos són inferiors a un, els gradients es redueixen exponencialment amb cada capa. En conseqüència, les actualitzacions dels paràmetres es tornen insignificants i la xarxa no aconsegueix aprendre representacions significatives.

Per il·lustrar aquest problema, considereu una xarxa neuronal profunda amb moltes capes. A mesura que els gradients es propaguen cap enrere, poden arribar a ser tan petits que desapareixen efectivament abans d'arribar a les capes anteriors. Com a resultat, les capes anteriors reben poca o cap informació sobre l'error i els seus paràmetres romanen pràcticament sense canvis. Això limita la capacitat de la xarxa per capturar dependències complexes i jerarquies a les dades.

El problema del gradient de desaparició és particularment problemàtic a les xarxes neuronals profundes amb connexions recurrents, com ara xarxes neuronals recurrents (RNN) o xarxes de memòria a curt termini (LSTM). Aquestes xarxes tenen connexions de retroalimentació que permeten emmagatzemar i propagar informació al llarg del temps. Tanmateix, els gradients que desapareixen poden fer que les xarxes lluitin amb l'aprenentatge de dependències a llarg termini, ja que els gradients disminueixen ràpidament amb el pas del temps.

S'han desenvolupat diverses tècniques per mitigar el problema del gradient de desaparició. Un enfocament és utilitzar funcions d'activació que no pateixen saturació, com ara la unitat lineal rectificada (ReLU). ReLU té un gradient constant per a les entrades positives, que ajuda a alleujar el problema del gradient de desaparició. Una altra tècnica és utilitzar connexions de salt, com en xarxes residuals (ResNets), que permeten que els gradients passin per alt determinades capes i flueixin més fàcilment per la xarxa.

A més, es pot aplicar el retall de degradats per evitar que els degradats es facin massa grans o massa petits. Això implica establir un llindar i tornar a escalar els gradients si superen aquest llindar. En limitar la magnitud dels gradients, el tall de gradient pot ajudar a alleujar el problema del gradient que desapareix.

El problema del gradient de desaparició és un repte que sorgeix en l'entrenament de xarxes neuronals profundes. Es produeix quan els gradients disminueixen exponencialment a mesura que es propaguen cap enrere a través de les capes de la xarxa, provocant una convergència lenta i dificultats per aprendre patrons i representacions complexes. Per mitigar aquest problema, es poden utilitzar diverses tècniques, com ara l'ús de funcions d'activació no saturants, connexions de salt i retall de gradient.

Altres preguntes i respostes recents sobre Xarxes neuronals profundes i estimadors:

Veure més preguntes i respostes a Xarxes neuronals profundes i estimadors

Més preguntes i respostes:

Camp: Intel·ligència Artificial
programa: EITC/AI/GCML Google Cloud Machine Learning (anar al programa de certificació)
Lliçó: Primers passos de l'aprenentatge automàtic (anar a la lliçó relacionada)
Tema: Xarxes neuronals profundes i estimadors (anar al tema relacionat)

Etiquetat sota: Funcions d'activació, Intel·ligència Artificial, Retropropagació, Aprenentatge profund, Descens Gradient, Problema del gradient de desaparició

Acadèmia EITCA

Quin és el problema del gradient de desaparició?

Altres preguntes i respostes recents sobre Xarxes neuronals profundes i estimadors:

Més preguntes i respostes:

EITCA Academy forma part del marc europeu de certificació informàtica

Elegibilitat per a la subvenció EITCA Academy 80% EITCI DSJC

Acadèmia EITCA

INICIU LA sessió del vostre compte mitjançant el vostre nom d’USUARI O L’ADREÇA DE CORREU E-MAIL

He oblidat els vostres detalls?

CREAR UN COMPTE

Quin és el problema del gradient de desaparició?

Altres preguntes i respostes recents sobre Xarxes neuronals profundes i estimadors:

Més preguntes i respostes:

Elegibilitat per a la subvenció EITCA Academy 80% EITCI DSJC