Les tècniques de regularització com l'abandonament, la regularització L2 i l'aturada precoç són fonamentals per mitigar el sobreajustament a les xarxes neuronals. El sobreajust es produeix quan un model aprèn el soroll de les dades d'entrenament en lloc del patró subjacent, la qual cosa comporta una mala generalització a dades noves i no vistes. Cadascun d'aquests mètodes de regularització aborda el sobreajustament mitjançant diferents mecanismes, contribuint a la robustesa i la capacitat de generalització de les xarxes neuronals.
L’abandonament
L'abandonament és una tècnica de regularització que té com a objectiu evitar l'excés d'adaptació "abandonant" aleatòriament unitats (neurones) en una xarxa neuronal durant el procés d'entrenament. Això s'aconsegueix posant la sortida de cada neurona a zero amb una certa probabilitat (p) a cada pas d'entrenament. La idea clau darrere de l'abandonament és prevenir la coadaptació de les neurones, on les neurones depenen de la presència d'altres neurones específiques per funcionar bé.
Mecanisme
Durant cada passada endavant en la fase d'entrenament, l'abandonament selecciona aleatòriament un subconjunt de neurones que s'ignorarà per a la passada actual. Això significa que la xarxa mostra eficaçment una arquitectura diferent a cada iteració d'entrenament. Durant el pas cap enrere, només s'actualitzen els pesos de les neurones actives. En el moment de la prova, s'utilitzen totes les neurones, però les seves sortides s'escalen en un factor de (1-p) per tenir en compte la capacitat reduïda durant l'entrenament.
exemple
Penseu en una xarxa neuronal simple amb una capa d'entrada, una capa oculta i una capa de sortida. Suposem que la capa oculta té 100 neurones. Si apliquem l'abandonament amb una probabilitat (p = 0.5), de mitjana, 50 de les neurones de la capa oculta s'abandonaran durant cada iteració d'entrenament. Això obliga la xarxa a aprendre característiques més robustes que no es basen en cap subconjunt particular de neurones.
L2 Regularització
La regularització de L2, també coneguda com a decadència de pes, implica afegir un terme de penalització a la funció de pèrdua que és proporcional a la suma dels pesos quadrats de la xarxa. Aquesta penalització descoratja la xarxa d'assignar massa importància a qualsevol característica única, promovent així models més simples i generalitzables.
Mecanisme
La funció de pèrdua modificada amb regularització L2 es pot expressar com:
[ L = L_0 + suma lambda_{i} w_i^2 ]on ( L_0 ) és la funció de pèrdua original (per exemple, error quadrat mitjà o entropia creuada), ( lambda ) és el paràmetre de regularització i ( w_i ) són els pesos de la xarxa. El terme ( lambda sum_{i} w_i^2 ) és la penalització L2, que creix amb la magnitud dels pesos. La regla d'actualització de descens del gradient per als pesos s'ajusta per incloure aquesta penalització:
[ w_i leftarrow w_i – eta left(frac{parcial L_0}{parcial w_i} + lambda w_i dreta)]on (eta) és la taxa d'aprenentatge.
exemple
Suposem que tenim una xarxa neuronal entrenada en un conjunt de dades amb moltes característiques. Sense regularització, la xarxa podria assignar grans pesos a algunes funcions, fent que el model sigui sensible al soroll de les dades d'entrenament. Mitjançant l'aplicació de la regularització L2 amb un adequat ( lambda ), la xarxa s'anima a mantenir els pesos petits, donant lloc a un model més generalitzable.
Parada anticipada
L'aturada anticipada és una tècnica de regularització que consisteix a controlar el rendiment del model en un conjunt de validació durant l'entrenament i aturar el procés d'entrenament quan el rendiment del conjunt de validació comença a degradar-se. Aquest mètode aprofita l'observació que el sobreajust es produeix normalment després d'un cert nombre d'iteracions d'entrenament, fins i tot si l'error d'entrenament continua disminuint.
Mecanisme
El procés d'entrenament s'interromp periòdicament per avaluar el rendiment del model en un conjunt de validació independent. Si l'error de validació deixa de millorar i comença a augmentar, indica que el model està començant a sobreajustar les dades d'entrenament. Aleshores s'atura l'entrenament i es conserven els pesos de l'època amb el millor rendiment de validació.
exemple
Penseu en entrenar una xarxa neuronal en un conjunt de dades amb un conjunt d'entrenament i un conjunt de validació. Durant l'entrenament, el rendiment del model al conjunt d'entrenament millora contínuament, però en algun moment, l'error de validació comença a augmentar. Amb la implementació de l'aturada anticipada, podem aturar el procés d'entrenament quan l'error de validació comença a augmentar, evitant el sobreajust i garantint que el model conservi els millors pesos observats durant l'entrenament.
Efecte combinat
Aquestes tècniques de regularització es poden utilitzar conjuntament per proporcionar una defensa més completa contra el sobreajustament. Per exemple, una xarxa neuronal pot utilitzar l'abandonament a les capes ocultes, la regularització L2 en els pesos i l'aturada anticipada basada en el rendiment de la validació. Aquest enfocament polifacètic aprofita els punts forts de cada mètode per produir un model que es generalitzi bé amb dades noves.
Consideracions pràctiques
Quan s'apliquen aquestes tècniques de regularització, és important seleccionar acuradament els hiperparàmetres. Per a l'abandonament, la probabilitat (p) s'ha de triar adequadament, normalment entre 0.2 i 0.5. Per a la regularització L2, el paràmetre de regularització ( lambda ) s'ha d'ajustar, sovint utilitzant validació creuada. L'aturada anticipada requereix establir un paràmetre de paciència, que determina quantes èpoques cal esperar per millorar el rendiment de la validació abans d'aturar-se.
Conclusió
L'abandonament, la regularització de la L2 i l'aturada primerenca són eines poderoses en l'arsenal de tècniques utilitzades per combatre el sobreajust a les xarxes neuronals. En abordar el sobreajustament mitjançant diferents mecanismes: deixar caure neurones aleatòriament, penalitzar grans pesos i aturar l'entrenament basat en el rendiment de la validació, aquests mètodes ajuden a garantir que les xarxes neuronals es generalitzin bé a dades noves i no vistes.
Altres preguntes i respostes recents sobre EITC/AI/ADL Advanced Deep Learning:
- Cal inicialitzar una xarxa neuronal per definir-la a PyTorch?
- Una classe torch.Tensor que especifica matrius rectangulars multidimensionals té elements de diferents tipus de dades?
- Es crida la funció d'activació de la unitat lineal rectificada amb la funció rely() a PyTorch?
- Quins són els principals reptes ètics per al desenvolupament de models d'IA i ML?
- Com es poden integrar els principis d'innovació responsable en el desenvolupament de tecnologies d'IA per garantir que es despleguen d'una manera que beneficiï la societat i minimitzi el dany?
- Quin paper té l'aprenentatge automàtic basat en especificacions per garantir que les xarxes neuronals compleixin els requisits essencials de seguretat i robustesa, i com es poden fer complir aquestes especificacions?
- De quina manera els biaixos en els models d'aprenentatge automàtic, com els que es troben en sistemes de generació de llengües com el GPT-2, poden perpetuar els prejudicis socials i quines mesures es poden prendre per mitigar aquests biaixos?
- Com poden l'entrenament adversari i els mètodes d'avaluació sòlids millorar la seguretat i la fiabilitat de les xarxes neuronals, especialment en aplicacions crítiques com la conducció autònoma?
- Quines són les consideracions ètiques clau i els riscos potencials associats amb el desplegament de models avançats d'aprenentatge automàtic en aplicacions del món real?
- Quins són els principals avantatges i limitacions de l'ús de xarxes generatives adversàries (GAN) en comparació amb altres models generatius?
Consulteu més preguntes i respostes a EITC/AI/ADL Advanced Deep Learning