L'aplicació dels set passos de l'aprenentatge automàtic proporciona un enfocament estructurat per desenvolupar models d'aprenentatge automàtic, garantint un procés sistemàtic que es pot seguir des de la definició del problema fins al desplegament. Aquest marc és beneficiós tant per als principiants com per als professionals experimentats, ja que ajuda a organitzar el flux de treball i a garantir que no es passi per alt cap pas crític. Aquí, dilucidaré aquests passos en el context d'un exemple pràctic: predir els preus de l'habitatge mitjançant les eines d'aprenentatge automàtic de Google Cloud.
Pas 1: Definiu el problema
El pas inicial de qualsevol projecte d'aprenentatge automàtic és definir clarament el problema que esteu intentant resoldre. Això implica entendre el problema empresarial o pràctic que es tracta i traduir-lo en un problema d'aprenentatge automàtic. En el nostre exemple, el problema empresarial és predir els preus de les cases en una regió específica per ajudar els agents immobiliaris i els compradors potencials a prendre decisions informades. El problema d'aprenentatge automàtic es pot emmarcar com un problema de regressió supervisada on l'objectiu és predir una variable objectiu contínua, el preu de l'habitatge, en funció de diverses característiques com ara la ubicació, la mida, el nombre d'habitacions i altres atributs rellevants.
Pas 2: recopilar i preparar dades
La recollida i preparació de dades és una fase crítica que implica la recollida de dades rellevants que es poden utilitzar per entrenar el model. En el nostre exemple de predicció del preu de l'habitatge, es podrien recopilar dades de llistes de béns immobles, registres públics o bases de dades d'habitatges. El conjunt de dades hauria d'incloure una sèrie de funcions que es creu que influeixen en els preus de l'habitatge, com ara metres quadrats, nombre de dormitoris i banys, classificacions del barri, proximitat als serveis i dades històriques de vendes.
Un cop recollides, les dades han de ser preprocessades. Això implica netejar les dades mitjançant la gestió dels valors que falten, l'eliminació de duplicats i la correcció de qualsevol incoherència. Per exemple, els valors que falten al conjunt de dades es podrien imputar mitjançant mètodes estadístics o coneixement del domini. A més, és possible que les variables categòriques, com ara els noms dels barris, s'hagin de codificar en formats numèrics mitjançant tècniques com ara la codificació única.
Pas 3: trieu un model
L'elecció del model està influenciada pel tipus de problema i la naturalesa de les dades. Per a un problema de regressió com la predicció del preu de l'habitatge, es podrien considerar models com ara la regressió lineal, els arbres de decisió o algorismes més complexos com els boscos aleatoris i les màquines que augmenten el gradient. A Google Cloud Machine Learning, teniu accés a TensorFlow i altres biblioteques que faciliten la implementació d'aquests models.
Un model de regressió lineal simple podria servir com a línia de base. Tanmateix, donada la complexitat i la no linealitat que sovint es presenten a les dades del món real, els models més sofisticats com XGBoost o el DNNRegressor de TensorFlow podrien ser més apropiats. L'elecció del model s'ha de guiar pel rendiment dels conjunts de dades de validació i la capacitat de generalitzar bé les dades no vistes.
Pas 4: Entrenar el model
Entrenar el model implica introduir les dades preparades a l'algorisme escollit per aprendre els patrons subjacents. Aquest pas requereix dividir les dades en conjunts de formació i validació, la qual cosa permet que el model aprengui d'un subconjunt i s'avaluï en un altre. A Google Cloud, això es pot gestionar de manera eficient mitjançant serveis com Google Cloud AI Platform, que proporciona recursos escalables per a la formació de models.
Durant l'entrenament, és possible que s'hagin d'ajustar els hiperparàmetres del model per optimitzar el rendiment. Per exemple, en un model d'arbre de decisió, paràmetres com ara la profunditat de l'arbre i el nombre mínim de mostres necessàries per dividir un node poden afectar significativament la precisió i la capacitat de generalització del model. Es poden utilitzar tècniques com la cerca en quadrícula o la cerca aleatòria per trobar la configuració òptima dels hiperparàmetres.
Pas 5: avalueu el model
L'avaluació és un pas important per avaluar el rendiment del model entrenat. Això implica utilitzar mètriques adequades al tipus de problema. Per als problemes de regressió, les mètriques habituals inclouen l'error mitjà absolut (MAE), l'error quadrat mitjà (MSE) i l'error quadrat mitjà arrel (RMSE). Aquestes mètriques proporcionen informació sobre la precisió del model i l'abast dels errors en les prediccions.
En el nostre exemple de predicció del preu de l'habitatge, després d'entrenar el model, s'avaluaria en un conjunt de validació per assegurar-se que funciona bé en dades no vistes. La plataforma AI de Google Cloud ofereix eines per fer el seguiment d'aquestes mètriques i visualitzar el rendiment del model, cosa que ajuda a entendre el rendiment del model en escenaris del món real.
Pas 6: afineu el model
L'ajustament del model és un procés iteratiu destinat a millorar el rendiment del model. Aquest pas pot implicar ajustar hiperparàmetres, provar diferents algorismes o modificar el conjunt de funcions. Per exemple, si el model inicial no funciona de manera satisfactòria, es podria revisar l'enginyeria de característiques per incloure termes d'interacció o característiques polinomials que capturen relacions no lineals.
A Google Cloud, l'ajust d'hiperparàmetres es pot automatitzar mitjançant la funció de sintonització d'hiperparàmetres de Cloud AI Platform, que cerca de manera eficient l'espai d'hiperparàmetres per trobar la millor combinació per al model. Això pot millorar significativament el rendiment del model sense intervenció manual.
Pas 7: desplega el model
El desplegament fa que el model entrenat estigui disponible per utilitzar-lo en aplicacions del món real. Aquest pas implica configurar un entorn on el model pugui rebre dades d'entrada, fer prediccions i retornar resultats als usuaris o sistemes. Google Cloud ofereix diverses opcions de desplegament, inclosa AI Platform Prediction, que permet desplegar models com a API RESTful.
En l'exemple de predicció del preu de l'habitatge, el model desplegat es podria integrar en una aplicació immobiliària on els usuaris introdueixen les característiques de l'habitatge i reben prediccions de preus. El desplegament també implica supervisar el rendiment del model en producció per assegurar-se que segueix oferint prediccions precises i actualitzar el model segons sigui necessari quan hi hagi noves dades disponibles.
Context d'exemple
Penseu en una empresa immobiliària que pretén millorar el seu procés de valoració de propietats mitjançant l'aprenentatge automàtic. Seguint els set passos descrits, l'empresa pot desenvolupar sistemàticament un model d'aprenentatge automàtic robust per predir els preus de l'habitatge. Inicialment, defineixen el problema identificant la necessitat de valoracions de propietats precises. A continuació, recullen dades de diverses fonts, inclosos els registres històrics de vendes i les llistes de propietats, garantint un conjunt de dades complet que reflecteixi les tendències del mercat.
Després de preprocessar les dades per gestionar els valors que falten i codificar variables categòriques, l'empresa tria un model d'augment del gradient a causa de la seva capacitat per gestionar relacions i interaccions complexes entre característiques. Entrenen el model mitjançant la plataforma AI de Google Cloud, aprofitant la seva infraestructura escalable per gestionar grans conjunts de dades de manera eficient.
El model s'avalua mitjançant RMSE, revelant àrees de millora. Mitjançant l'ajustament dels hiperparàmetres i l'experimentació amb funcions addicionals derivades del coneixement del domini, l'empresa millora la precisió predictiva del model. Finalment, el model es desplega com a API, permetent la integració en els sistemes existents de l'empresa, on proporciona estimacions de preus en temps real als usuaris, millorant així els processos de presa de decisions i la satisfacció del client.
Altres preguntes i respostes recents sobre EITC/AI/GCML Google Cloud Machine Learning:
- Si estic fent servir un model de Google i l'entreno a la meva pròpia instància, Google conserva les millores fetes amb les meves dades d'entrenament?
- Com sé quin model de ML he d'utilitzar abans d'entrenar-lo?
- Què és una tasca de regressió?
- Com es pot fer la transició entre les taules Vertex AI i AutoML?
- És possible utilitzar Kaggle per carregar dades financeres i realitzar anàlisis i prediccions estadístiques mitjançant models economètrics com R-quadrat, ARIMA o GARCH?
- Es pot utilitzar l'aprenentatge automàtic per predir el risc de malaltia coronària?
- Quins són els canvis reals a causa del canvi de marca de Google Cloud Machine Learning com a Vertex AI?
- Quines són les mètriques d'avaluació del rendiment d'un model?
- Què és la regressió lineal?
- És possible combinar diferents models de ML i crear una IA mestra?
Consulta més preguntes i respostes a EITC/AI/GCML Google Cloud Machine Learning