En el context de l'aprenentatge automàtic, especialment quan es discuteixen els passos inicials implicats en un projecte d'aprenentatge automàtic, és important entendre la varietat d'activitats en què es pot participar. Aquestes activitats formen la columna vertebral del desenvolupament, formació i desplegament de models d'aprenentatge automàtic. , i cadascun té un propòsit únic en el procés de transformació de dades en brut en coneixements útils. A continuació es mostra una llista completa d'aquestes activitats, acompanyada d'explicacions per dilucidar els seus rols dins del pipeline d'aprenentatge automàtic.
1. Recopilació de dades: Aquest és el pas fonamental en qualsevol projecte d'aprenentatge automàtic. La recollida de dades consisteix a recopilar dades en brut de diverses fonts, que podrien incloure bases de dades, web scraping, dades de sensors o contingut generat per l'usuari. La qualitat i la quantitat de dades recollides influeixen directament en el rendiment del model d'aprenentatge automàtic. Per exemple, si s'està construint un model per predir els preus de l'habitatge, es podrien recopilar dades de llistes de béns immobles, registres històrics de vendes i indicadors econòmics.
2. Preparació de dades: Un cop recollides les dades, s'han de preparar per a l'anàlisi. Aquest pas implica netejar les dades per eliminar el soroll i els errors, gestionar els valors que falten i transformar les dades en un format adequat. La preparació de dades també inclou l'enginyeria de funcions, on es creen noves funcions a partir de dades existents per millorar el rendiment del model. Per exemple, en un conjunt de dades de transaccions de clients, es pot crear una característica que representi el valor mitjà de transacció per client.
3. Exploració de dades: També conegut com a anàlisi exploratòria de dades (EDA), aquest pas consisteix a analitzar les dades per descobrir patrons, relacions i coneixements. S'utilitzen eines de visualització de dades i tècniques estadístiques per entendre la distribució de les dades, detectar anomalies i identificar correlacions. Aquesta activitat ajuda a prendre decisions informades sobre el preprocessament de dades i la selecció de funcions. Per exemple, traçar histogrames o diagrames de dispersió pot revelar la distribució de dades i possibles valors atípics.
4. Selecció del model: En aquest pas, es trien els algorismes d'aprenentatge automàtic adequats en funció del problema en qüestió i de la naturalesa de les dades. L'elecció del model és fonamental, ja que els diferents algorismes tenen diferents punts forts i febles. Per als problemes de classificació, es poden considerar arbres de decisió, màquines de vectors de suport o xarxes neuronals. Per a tasques de regressió, la regressió lineal o els boscos aleatoris poden ser adequats. El procés de selecció de models sovint implica comparar diversos models per trobar el que millor s'ajusta a les dades.
5. Formació de models: Un cop seleccionat un model, s'ha d'entrenar amb les dades preparades. L'entrenament del model implica ajustar els paràmetres del model per minimitzar l'error entre els resultats previstos i reals. Això s'aconsegueix normalment mitjançant tècniques d'optimització com ara el descens de gradients. Durant l'entrenament, el model aprèn patrons i relacions dins de les dades. Per exemple, entrenar una xarxa neuronal implica ajustar els pesos i els biaixos de la xarxa per minimitzar la funció de pèrdua.
6. Avaluació del model: Després de l'entrenament, s'ha d'avaluar el rendiment del model per assegurar-se que es generalitza bé a les dades no vistes. Això es fa mitjançant un conjunt de dades de prova o validació independent que no s'ha utilitzat durant la formació. Les mètriques d'avaluació habituals inclouen precisió, precisió, record, puntuació F1 per a les tasques de classificació i error quadrat mitjà o R quadrat per a tasques de regressió. L'avaluació del model ajuda a identificar problemes com ara l'ajustament excessiu o insuficient, on el model funciona massa bé amb les dades d'entrenament però malament amb dades noves, o no captura les tendències subjacents de les dades, respectivament.
7. Model de desplegament: El pas final consisteix a desplegar el model entrenat i avaluat en un entorn de producció on pugui fer prediccions sobre dades noves. El desplegament es pot fer de diverses maneres, com ara integrar el model en una aplicació web, desplegar-lo com a API REST o incrustar-lo en una aplicació mòbil. El seguiment continu és essencial per garantir que el model es mantingui precís al llarg del temps, ja que les dades del món real poden canviar, provocant una deriva del model.
Més enllà d'aquestes activitats bàsiques, hi ha diverses tasques especialitzades en aprenentatge automàtic que val la pena esmentar:
- Classificació: Aquesta activitat consisteix a assignar etiquetes a les dades d'entrada basades en patrons apresos. Les tasques de classificació són freqüents en diverses aplicacions, com ara la detecció de correu brossa, l'anàlisi de sentiments i el reconeixement d'imatges. Per exemple, un sistema de detecció de correu brossa classifica els correus electrònics com a correu brossa o no com a correu brossa en funció de funcions com l'adreça del remitent, el contingut del correu electrònic i les metadades.
- Regressió: Les tasques de regressió impliquen predir una variable de sortida contínua basada en les característiques d'entrada. Això s'utilitza habitualment en aplicacions com la predicció dels preus de l'habitatge, les tendències de la borsa o la previsió de vendes. L'objectiu és modelar la relació entre les variables independents i la variable dependent contínua.
- Clustering: L'agrupament és una tècnica d'aprenentatge no supervisat que s'utilitza per agrupar punts de dades similars. És útil per descobrir patrons o estructures subjacents en dades sense etiquetes predefinides. Les aplicacions de clustering inclouen la segmentació de clients, la compressió d'imatges i la detecció d'anomalies. Els K-means i la agrupació jeràrquica són algorismes populars per a aquesta tasca.
- Reducció de la dimensionalitat: Aquesta activitat consisteix a reduir el nombre de variables o característiques d'entrada d'un conjunt de dades alhora que es conserven les característiques essencials. Les tècniques de reducció de la dimensionalitat, com l'anàlisi de components principals (PCA) i l'incorporació de veïns estocàstics distribuïts en t (t-SNE), s'utilitzen per simplificar models, reduir el temps de càlcul i mitigar la maledicció de la dimensionalitat.
- Detecció d’anomalies: La detecció d'anomalies és el procés d'identificar patrons rars o inusuals en dades que no s'ajusten al comportament esperat. Això és especialment útil en la detecció de fraus, la seguretat de la xarxa i la detecció d'errors. Sovint s'utilitzen tècniques com boscos d'aïllament i codificadors automàtics per a tasques de detecció d'anomalies.
- Aprenentatge de reforç: A diferència de l'aprenentatge supervisat i no supervisat, l'aprenentatge de reforç implica models d'entrenament per prendre seqüències de decisions mitjançant la interacció amb un entorn. El model, o agent, aprèn a assolir un objectiu rebent feedback en forma de recompenses o penalitzacions. Les aplicacions de l'aprenentatge de reforç inclouen jocs, robòtica i conducció autònoma.
- Processament del llenguatge natural (PNL): La PNL engloba una sèrie d'activitats relacionades amb la interacció entre els ordinadors i el llenguatge humà. Això inclou tasques com la classificació de text, l'anàlisi de sentiments, la traducció d'idiomes i el reconeixement d'entitats amb nom. Els models de PNL sovint aprofiten tècniques com ara la tokenització, la derivació i l'ús de models de llenguatge pre-entrenats com ara BERT o GPT.
Aquestes activitats representen la diversa gamma de tasques que realitzen els professionals quan treballen amb l'aprenentatge automàtic. Cada activitat requereix una comprensió profunda dels principis i tècniques subjacents per dissenyar, implementar i desplegar de manera eficaç solucions d'aprenentatge automàtic. Dominant aquestes activitats, es pot aprofitar el poder de l'aprenentatge automàtic per resoldre problemes complexos i impulsar la innovació en diversos dominis.
Altres preguntes i respostes recents sobre EITC/AI/GCML Google Cloud Machine Learning:
- Heu esmentat molts tipus d'algorismes com ara regressió lineal, arbres de decisió. Tot això són xarxes neuronals?
- Quines són les mètriques d'avaluació del rendiment d'un model?
- Què és la regressió lineal?
- És possible combinar diferents models de ML i crear una IA mestra?
- Quins són alguns dels algorismes més comuns utilitzats en l'aprenentatge automàtic?
- Com crear una versió del model?
- Com aplicar els 7 passos de ML en un context d'exemple?
- Com es pot aplicar l'aprenentatge automàtic a les dades de permisos de construcció?
- Per què es van suspendre les taules AutoML i què les succeeix?
- Quina és la tasca d'interpretar els doodles dibuixats pels jugadors en el context de la IA?
Consulta més preguntes i respostes a EITC/AI/GCML Google Cloud Machine Learning