En el domini de l'aprenentatge automàtic, especialment quan s'utilitzen plataformes com Google Cloud Machine Learning, la comprensió dels hiperparàmetres és important per al desenvolupament i l'optimització de models. Els hiperparàmetres són paràmetres o configuracions externes al model que dicten el procés d'aprenentatge i influeixen en el rendiment dels algorismes d'aprenentatge automàtic. A diferència dels paràmetres del model, que s'aprenen de les dades durant el procés d'entrenament, els hiperparàmetres s'estableixen abans de l'inici de l'entrenament i es mantenen constants durant tot el procés.
Els hiperparàmetres es poden classificar àmpliament en diversos tipus en funció del seu paper i funció en el pipeline d'aprenentatge automàtic. Aquestes categories inclouen hiperparàmetres de model, hiperparàmetres d'optimització i hiperparàmetres de processament de dades. Cada tipus té un paper diferent a l'hora de configurar com un model aprèn de les dades i es generalitza a dades noves i no vistes.
Hiperparàmetres del model
1. Hiperparàmetres de l'arquitectura: defineixen l'estructura del model. A les xarxes neuronals, per exemple, els hiperparàmetres de l'arquitectura inclouen el nombre de capes, el nombre de nodes per capa i el tipus de funcions d'activació utilitzades. Per exemple, una xarxa neuronal profunda pot tenir hiperparàmetres que especifiquen tres capes ocultes amb 128, 64 i 32 nodes respectivament, i ReLU (Unitat lineal rectificada) com a funció d'activació.
2. Hiperparàmetres de regularització: s'utilitzen tècniques de regularització per evitar el sobreajustament, que es produeix quan un model aprèn soroll a les dades d'entrenament en lloc del patró subjacent. Els hiperparàmetres de regularització comuns inclouen els coeficients de regularització L1 i L2. Aquests coeficients controlen la penalització aplicada a pesos grans en el model. Per exemple, establir un coeficient de regularització L2 més alt penalitzarà més els pesos grans, animant així el model a mantenir pesos més petits i potencialment millorar la generalització.
3. Taxa d'abandonament: A les xarxes neuronals, l'abandonament és una tècnica de regularització on les neurones seleccionades aleatòriament s'ignoren durant l'entrenament. La taxa d'abandonament és un hiperparàmetre que especifica la fracció de neurones a deixar caure durant cada iteració d'entrenament. Una taxa d'abandonament de 0.5 significa que el 50% de les neurones es deixen caure aleatòriament en cada iteració, la qual cosa ajuda a reduir el sobreajust.
Hiperparàmetres d'optimització
1. Taxa d'aprenentatge: Aquest és potser un dels hiperparàmetres més crítics en l'entrenament de xarxes neuronals. La taxa d'aprenentatge determina la mida dels passos realitzats cap al mínim de la funció de pèrdua. Una taxa d'aprenentatge alta pot fer que el model convergi massa ràpidament cap a una solució subòptima, mentre que una taxa d'aprenentatge baixa pot fer que el procés d'entrenament sigui excessivament lent o que quedi encallat en els mínims locals.
2. Mida del lot: Aquest hiperparàmetre defineix el nombre de mostres d'entrenament utilitzades en una iteració del procés d'entrenament. Les mides de lots més petites poden conduir a una estimació més precisa del gradient, però poden augmentar el temps necessari per completar una època. Per contra, les mides de lots més grans poden accelerar l'entrenament, però poden conduir a models menys precisos.
3. impuls: s'utilitza en algorismes d'optimització com ara el descens del gradient estocàstic amb impuls, aquest hiperparàmetre ajuda a accelerar els vectors del gradient en la direcció correcta, donant lloc a una convergència més ràpida. Ajuda a suavitzar les oscil·lacions en el camí d'optimització.
4. Nombre d'Èpoques: aquest hiperparàmetre defineix el nombre de passades completes pel conjunt de dades d'entrenament. Un nombre més elevat d'èpoques sol permetre al model més oportunitat d'aprendre de les dades, però també pot augmentar el risc de sobreajustament.
Hiperparàmetres de tractament de dades
1. Escala de funcions: abans d'entrenar un model, sovint s'han d'escalar les funcions. Els hiperparàmetres relacionats amb l'escala de característiques inclouen l'elecció del mètode d'escalat, com ara l'escalat min-max o l'estandardització. Aquesta elecció pot afectar significativament el rendiment del model, especialment per als algorismes sensibles a l'escala de característiques com les màquines de vectors de suport i l'agrupació K-Means.
2. Paràmetres d'augment de dades: A les tasques de processament d'imatges, l'augment de dades s'utilitza per ampliar artificialment la mida d'un conjunt de dades d'entrenament mitjançant la creació de versions modificades d'imatges al conjunt de dades. Els hiperparàmetres aquí inclouen els tipus de transformacions aplicades, com ara la rotació, la translació, el capgirament i el zoom, i la probabilitat que cada transformació s'apliqui.
3. Mètodes de mostreig: En els casos en què les dades estan desequilibrades, es poden utilitzar tècniques com ara el sobremostreig de la classe minoritària o la submostreig de la classe majoritària. Els hiperparàmetres aquí inclouen la proporció de mostres de classe minoritària i majoritària.
Afinació d'hiperparàmetres
El procés de selecció dels hiperparàmetres òptims es coneix com a sintonització d'hiperparàmetres. Aquest és un pas crític, ja que l'elecció dels hiperparàmetres pot afectar significativament el rendiment del model. Els mètodes comuns per a l'ajustament dels hiperparàmetres inclouen:
1. Cerca de quadrícula: Aquest mètode implica definir una graella de valors d'hiperparàmetres i provar exhaustivament cada combinació. Tot i que és senzilla, la cerca en quadrícula pot ser costosa computacionalment, especialment amb un gran nombre d'hiperparàmetres.
2. Cerca aleatòria: en lloc de provar totes les combinacions possibles, la cerca aleatòria selecciona combinacions aleatòries d'hiperparàmetres. Aquest enfocament és sovint més eficient que la cerca en quadrícula i pot conduir a millors resultats, sobretot quan només influeixen uns quants hiperparàmetres.
3. Optimització Bayesiana: Aquest és un enfocament més sofisticat que modela el rendiment dels hiperparàmetres com a funció probabilística i busca trobar el millor conjunt d'hiperparàmetres equilibrant l'exploració i l'explotació.
4. Aprenentatge automàtic automàtic (AutoML): plataformes com Google Cloud AutoML utilitzen algorismes avançats per cercar automàticament els millors hiperparàmetres. Això pot estalviar temps i recursos, especialment per als professionals que potser no tenen una gran experiència en aprenentatge automàtic.
Exemples pràctics
Penseu en un escenari en què s'està entrenant una xarxa neuronal convolucional (CNN) per a la classificació d'imatges mitjançant Google Cloud Machine Learning. Els hiperparàmetres poden incloure:
– Nombre de capes convolucionals i les seves respectives mides de filtre, que són hiperparàmetres de l'arquitectura.
– Taxa d'aprenentatge i mida del lot, que són hiperparàmetres d'optimització.
– Tècniques d'augment de dades com la rotació i el flipping, que són hiperparàmetres de processament de dades.
Ajustant sistemàticament aquests hiperparàmetres, es pot millorar significativament la precisió i les capacitats de generalització del model.
En un altre exemple, quan s'utilitza un classificador d'arbre de decisió, els hiperparàmetres poden incloure la profunditat màxima de l'arbre, el nombre mínim de mostres necessàries per dividir un node i el criteri utilitzat per dividir-lo. Cadascun d'aquests hiperparàmetres pot afectar la complexitat del model i la seva capacitat de generalització.
En essència, els hiperparàmetres són fonamentals per al procés d'aprenentatge automàtic, i influeixen tant en l'eficiència com en l'eficàcia de l'entrenament del model. La seva selecció i ajustament acurada poden conduir a models que no només funcionen bé en les dades d'entrenament, sinó que també es generalitzen eficaçment a dades noves i no vistes.
Altres preguntes i respostes recents sobre EITC/AI/GCML Google Cloud Machine Learning:
- Quins són els criteris per seleccionar l'algorisme adequat per a un problema determinat?
- Si un està utilitzant un model de Google i l'entrena a la seva pròpia instància, Google conserva les millores fetes a partir de les dades d'entrenament?
- Com es pot saber quin model ML utilitzar, abans d'entrenar-lo?
- Què és una tasca de regressió?
- Com es pot fer la transició entre les taules Vertex AI i AutoML?
- És possible utilitzar Kaggle per carregar dades financeres i realitzar anàlisis i prediccions estadístiques mitjançant models economètrics com R-quadrat, ARIMA o GARCH?
- Es pot utilitzar l'aprenentatge automàtic per predir el risc de malaltia coronària?
- Quins són els canvis reals a causa del canvi de marca de Google Cloud Machine Learning com a Vertex AI?
- Quines són les mètriques d'avaluació del rendiment d'un model?
- Què és la regressió lineal?
Consulta més preguntes i respostes a EITC/AI/GCML Google Cloud Machine Learning