El camp de l'aprenentatge automàtic abasta una varietat de metodologies i paradigmes, cadascun adequat per a diferents tipus de dades i problemes. Entre aquests paradigmes, l'aprenentatge supervisat i no supervisat són dos dels més fonamentals.
L'aprenentatge supervisat implica entrenar un model en un conjunt de dades etiquetat, on les dades d'entrada es combinen amb la sortida correcta. El model aprèn a mapejar les entrades a les sortides minimitzant l'error entre les seves prediccions i les sortides reals. L'aprenentatge no supervisat, d'altra banda, tracta dades sense etiquetar, on l'objectiu és inferir l'estructura natural present dins d'un conjunt de punts de dades.
Hi ha un tipus d'aprenentatge que integra tant tècniques d'aprenentatge supervisat com no supervisat, sovint anomenades aprenentatge semi-supervisat. Aquest enfocament aprofita tant les dades etiquetades com les no etiquetades durant el procés d'entrenament. La raó de l'aprenentatge semi-supervisat és que les dades no etiquetades, quan s'utilitzen juntament amb una petita quantitat de dades etiquetades, poden produir una millora considerable en la precisió de l'aprenentatge. Això és especialment útil en escenaris on les dades etiquetades són escasses o costoses d'obtenir, però les dades sense etiqueta són abundants i fàcils de recollir.
L'aprenentatge semi-supervisat es basa en el supòsit que l'estructura subjacent de les dades no etiquetades pot proporcionar informació valuosa que sigui complementària a les dades etiquetades. Aquest supòsit pot adoptar diverses formes, com ara el supòsit de clúster, el supòsit de varietat o el supòsit de separació de baixa densitat. El supòsit del clúster suposa que és probable que els punts de dades del mateix clúster tinguin la mateixa etiqueta. La suposició de la varietat suggereix que les dades d'alta dimensionalitat es troben en una varietat de dimensionalitat molt inferior, i la tasca és aprendre aquesta varietat. El supòsit de separació de baixa densitat es basa en la idea que el límit de decisió hauria de situar-se en una regió de baixa densitat de dades.
Una de les tècniques habituals que s'utilitzen en l'aprenentatge semitutelat és l'autoformació. En l'autoformació, un model s'entrena inicialment sobre les dades etiquetades. A continuació, utilitza les seves pròpies prediccions sobre les dades sense etiquetar com a pseudoetiquetes. El model s'entrena encara més en aquest conjunt de dades augmentat, perfeccionant iterativament les seves prediccions. Una altra tècnica és la formació conjunta, on dos o més models s'entrenen simultàniament en diferents vistes de les dades. Cada model és responsable d'etiquetar una part de les dades sense etiquetar, que després s'utilitza per entrenar els altres models. Aquest mètode aprofita la redundància en múltiples vistes de les dades per millorar el rendiment de l'aprenentatge.
Els mètodes basats en gràfics també prevalen en l'aprenentatge semisupervisat. Aquests mètodes construeixen un gràfic on els nodes representen punts de dades i les vores representen similituds entre ells. A continuació, la tasca d'aprenentatge es reformula com un problema d'optimització basat en gràfics, on l'objectiu és propagar les etiquetes dels nodes etiquetats als no etiquetats mentre es preserva l'estructura del gràfic. Aquestes tècniques són especialment efectives en dominis on les dades formen de manera natural una xarxa, com ara xarxes socials o xarxes biològiques.
Un altre enfocament per combinar l'aprenentatge supervisat i no supervisat és mitjançant l'aprenentatge multitasques. En l'aprenentatge multitasca, es resolen múltiples tasques d'aprenentatge simultàniament, alhora que s'aprofiten els punts comuns i les diferències entre les tasques. Això es pot veure com una forma de transferència inductiva, on el coneixement obtingut d'una tasca ajuda a millorar l'aprenentatge d'una altra. L'aprenentatge multitasques pot ser especialment beneficiós quan hi ha una representació compartida o un espai de funcions entre les tasques, que permeten la transferència d'informació.
Un exemple pràctic d'aprenentatge semi-supervisat es troba en l'àmbit del processament del llenguatge natural (PNL). Considereu la tasca d'anàlisi de sentiments, on l'objectiu és classificar un text determinat com a positiu o negatiu. Les dades etiquetades, com ara les ressenyes amb etiquetes de sentiment, poden ser limitades. Tanmateix, hi ha una gran quantitat de text sense etiquetar disponible. Un enfocament d'aprenentatge semi-supervisat podria implicar entrenar un classificador de sentiments sobre les dades etiquetades i utilitzar-lo per predir el sentiment de les dades sense etiquetar. Aquestes prediccions es poden utilitzar com a dades d'entrenament addicionals, millorant el rendiment del classificador.
Un altre exemple es pot trobar a la classificació d'imatges. En molts casos, l'obtenció d'imatges etiquetades és laboriosa i costosa, mentre que les imatges sense etiqueta són abundants. Un enfocament semi-supervisat podria implicar l'ús d'un petit conjunt d'imatges etiquetades per entrenar un model inicial. Aquest model es podria aplicar a les imatges sense etiquetar per generar pseudoetiquetes, que posteriorment s'utilitzen per tornar a entrenar el model.
La integració de l'aprenentatge supervisat i no supervisat mitjançant l'aprenentatge semisupervisat i metodologies relacionades representa un enfocament potent en l'aprenentatge automàtic. Aprofitant els punts forts d'ambdós paradigmes, és possible aconseguir millores significatives en el rendiment del model, especialment en dominis on les dades etiquetades són limitades però les dades no etiquetades són abundants. Aquest enfocament no només millora la capacitat dels models per generalitzar-se a partir de dades limitades, sinó que també proporciona un marc més sòlid per entendre l'estructura subjacent dels conjunts de dades complexos.
Altres preguntes i respostes recents sobre EITC/AI/GCML Google Cloud Machine Learning:
- Com decidiu quin algorisme d'aprenentatge automàtic utilitzareu i com el trobeu?
- Quina diferència hi ha entre l'aprenentatge federat i la informàtica perifèrica i l'aprenentatge automàtic al dispositiu?
- Com preparar i netejar les dades abans de l'entrenament?
- Em referia a activitats com classificació, identificació, etc. M'agradaria una llista de totes les activitats possibles i una explicació del que s'entén per cadascuna.
- Quines són les activitats que es poden fer amb ML i com es poden utilitzar?
- Quines són les regles generals per adoptar una estratègia específica? Podries indicar quins paràmetres concrets em fan adonar si val la pena utilitzar un model més complex?
- Amb quin paràmetre entenc si és hora de canviar d'un model lineal a un aprenentatge profund?
- Quina versió de Python seria millor per instal·lar TensorFlow per evitar problemes amb les distribucions TF disponibles?
- Què és una xarxa neuronal profunda?
- Quant de temps es triga normalment a aprendre els conceptes bàsics de l'aprenentatge automàtic?
Consulta més preguntes i respostes a EITC/AI/GCML Google Cloud Machine Learning