L'aprenentatge automàtic no supervisat és un subcamp crític de l'aprenentatge automàtic que implica entrenar algorismes sobre dades sense respostes etiquetades. A diferència de l'aprenentatge supervisat, on el model aprèn d'un conjunt de dades que conté parells d'entrada-sortida, l'aprenentatge no supervisat funciona amb dades que no tenen instruccions explícites sobre el resultat desitjat. L'objectiu principal de l'aprenentatge no supervisat és identificar patrons, estructures o relacions ocults dins de les dades. Aquest enfocament és especialment útil en escenaris on les dades són abundants però no tenen les etiquetes necessàries o quan el procés d'etiquetatge és car o requereix molt de temps.
Conceptes bàsics de l'aprenentatge no supervisat
1. Clustering: El clúster és una de les tècniques més habituals en l'aprenentatge no supervisat. Consisteix a agrupar un conjunt d'objectes de manera que els objectes del mateix grup (o clúster) siguin més semblants entre si que als d'altres grups. La similitud sovint es defineix a partir d'una mètrica de distància. Els algorismes de clúster populars inclouen K-Means, Hierarchical Clustering i DBSCAN (Agrupació espacial d'aplicacions amb soroll basada en densitat).
- K-Means Clustering: Aquest algorisme divideix les dades en K clústers, on cada punt de dades pertany al clúster amb la mitjana més propera, i serveix com a prototip del clúster. El procés consisteix a seleccionar els centroides inicials, assignar punts al centroide més proper i recalcular els centroides en funció dels membres actuals del clúster. Aquest procés iteratiu continua fins a la convergència, on els centroides ja no canvien significativament.
- Clúster jeràrquic: Aquest mètode construeix una jerarquia de clústers ja sigui de manera aglomerativa (de baix a dalt) o divisió (de dalt a baix). La agrupació aglomerativa comença amb cada punt de dades com un únic clúster i els fusiona iterativament en funció d'un criteri d'enllaç, com ara l'enllaç únic o l'enllaç complet, fins que es forma un únic clúster. L'agrupament divisiu funciona en la direcció oposada, començant amb tots els punts de dades en un clúster i dividint-los de manera recursiva.
- DBSCAN: Aquest algorisme d'agrupació basat en la densitat agrupa punts que estan estretament empaquetats, marcant com a valors atípics els punts que es troben sols a les regions de baixa densitat. Requereix dos paràmetres: èpsilon (ε), que especifica la distància màxima entre dues mostres perquè una es consideri al voltant de l'altra, i el nombre mínim de punts necessaris per formar una regió densa.
2. Reducció de la dimensionalitat: Aquesta tècnica redueix el nombre de variables aleatòries considerades obtenint un conjunt de variables principals. És essencial en el maneig de dades d'alta dimensió i ajuda a visualitzar dades, reduir el temps d'emmagatzematge i càlcul i eliminar el soroll. L'anàlisi de components principals (PCA) i la incorporació de veïns estocàstics distribuïts en t (t-SNE) són tècniques de reducció de dimensionalitat àmpliament utilitzades.
- Anàlisi de components principals (PCA): PCA transforma les dades originals en un nou sistema de coordenades on la major variància per qualsevol projecció de les dades arriba a situar-se en el primer eix (anomenat primer component principal), la segona major variància en el segon eix, etc. Aquesta transformació s'aconsegueix mitjançant una combinació lineal de les variables originals.
- t-SNE: A diferència de la PCA, que és un mètode lineal, t-SNE és una tècnica de reducció de dimensionalitat no lineal especialment adequada per incrustar dades d'alta dimensió en un espai de dues o tres dimensions, que després es poden visualitzar. Minimiza la divergència entre dues distribucions: una distribució que mesura les similituds per parelles dels objectes d'entrada a l'espai d'alta dimensió i una distribució que mesura les similituds per parelles dels punts de dimensions baixa corresponents.
3. Aprenentatge de normes d'associació: Aquesta tècnica s'utilitza per descobrir relacions interessants entre variables en grans bases de dades. S'utilitza amb freqüència en l'anàlisi de cistella de mercat, on l'objectiu és identificar elements que sovint es produeixen conjuntament en les transaccions. L'algoritme d'Apriori és un algorisme clàssic utilitzat per extreure conjunts d'elements freqüents i aprendre regles d'associació.
- Algorisme a priori: aquest algorisme funciona en una base de dades que conté transaccions, com ara articles comprats pels clients. Identifica els elements individuals freqüents a la base de dades i els amplia a conjunts d'elements més grans sempre que aquests conjunts apareguin amb prou freqüència a la base de dades. La visió clau de l'algoritme és l'antimonotonia de la mesura de suport, que garanteix que si un conjunt d'elements és poc freqüent, tots els seus superconjunts també ho seran poc freqüents.
Com es produeix l'aprenentatge en sistemes no supervisats
Els sistemes d'aprenentatge no supervisat funcionen explorant l'estructura inherent de les dades. El procés d'aprenentatge es pot descriure en diverses etapes:
1. Exploració de dades: Inicialment, s'exploren les dades per entendre la seva distribució, patrons i possibles anomalies. Aquest pas sovint implica visualitzar les dades i calcular estadístiques de resum, que poden proporcionar informació sobre les característiques de les dades i guiar la selecció de tècniques d'aprenentatge no supervisades adequades.
2. Selecció del model: A partir de l'exploració de dades, es selecciona un model d'aprenentatge no supervisat adequat. L'elecció del model depèn de la naturalesa de les dades i del problema específic en qüestió. Per exemple, si l'objectiu és agrupar punts de dades similars, els algorismes de clustering serien adequats. Si l'objectiu és reduir la dimensionalitat, tècniques com PCA o t-SNE podrien ser més adequades.
3. Descobriment de patrons: el model seleccionat s'aplica a les dades per descobrir patrons. En l'agrupació, això implica dividir les dades en grups basats en la similitud. En la reducció de la dimensionalitat, això implica transformar les dades en un espai de dimensions inferiors alhora que es preserva la major part possible de la variància original.
4. Avaluació i Interpretació: A diferència de l'aprenentatge supervisat, on el rendiment del model es pot avaluar mitjançant dades etiquetades, l'aprenentatge no supervisat requereix diferents estratègies d'avaluació. Per a l'agrupació, s'utilitzen mètriques d'avaluació com ara la puntuació de la silueta, l'índex de Davies-Bouldin o la suma de quadrats dins del clúster per avaluar la qualitat dels clústers. Per a la reducció de la dimensionalitat, sovint s'utilitzen tècniques de visualització per interpretar els resultats.
5. Refinament iteratiu: L'aprenentatge no supervisat és sovint un procés iteratiu. A partir de l'avaluació i la interpretació, el model es pot perfeccionar ajustant paràmetres, seleccionant diferents característiques o fins i tot escollint un algorisme diferent. Aquest procés iteratiu continua fins que es descobreixen patrons o estructures satisfactòries.
Aplicacions pràctiques de l'aprenentatge no supervisat
L'aprenentatge no supervisat té una àmplia gamma d'aplicacions en diversos dominis:
- Segmentació del client: les empreses utilitzen tècniques d'agrupació per segmentar la seva base de clients en grups diferents segons el comportament de compra, la demografia o altres atributs. Aquesta segmentació permet estratègies de màrqueting més específiques i experiències de client personalitzades.
- Detecció d’anomalies: s'utilitza l'aprenentatge no supervisat per detectar anomalies o anomalies a les dades, que poden indicar activitat fraudulenta, intrusions a la xarxa o altres esdeveniments anormals. Tècniques com l'agrupació o l'estimació de la densitat s'utilitzen per identificar punts de dades que s'allunyen significativament de la norma.
- Compressió d’imatges: Les tècniques de reducció de la dimensionalitat com la PCA s'utilitzen per comprimir les dades d'imatge reduint el nombre de funcions i conservant la informació essencial. Aquesta compressió és important per a l'emmagatzematge i la transmissió eficients de dades d'imatge.
- Anàlisi d’expressió gènica: En bioinformàtica, l'aprenentatge no supervisat s'utilitza per analitzar les dades d'expressió gènica per identificar patrons i agrupar gens o mostres similars. Aquesta anàlisi pot revelar informació sobre la funció i la regulació dels gens.
- Agrupació de documents: En el processament del llenguatge natural, l'aprenentatge no supervisat s'utilitza per agrupar documents basats en la similitud de contingut. Aquesta agrupació es pot utilitzar per organitzar grans col·leccions de documents, millorar la cerca i la recuperació o resumir contingut.
Reptes i limitacions
Tot i que l'aprenentatge no supervisat ofereix avantatges significatius, també presenta diversos reptes:
- Manca de veritat bàsica: L'absència de dades etiquetades fa que sigui difícil avaluar el rendiment dels models d'aprenentatge no supervisat. Aquesta manca de veritat bàsica requereix el desenvolupament de mètriques i tècniques d'avaluació alternatives.
- Escalabilitat: els algorismes d'aprenentatge no supervisat poden ser computacionalment intensius, especialment amb grans conjunts de dades. L'escalabilitat es converteix en una preocupació quan es tracta de dades d'alta dimensió o quan el nombre de punts de dades és gran.
- Interpretabilitat: els patrons descoberts pels models d'aprenentatge no supervisats poden ser difícils d'interpretar, especialment amb models complexos o dades d'alta dimensió. Garantir que els resultats siguin significatius i accionables requereix una anàlisi acurada i experiència en el domini.
- Sensibilitat dels paràmetres: Molts algorismes d'aprenentatge no supervisat requereixen la selecció de paràmetres, com ara el nombre de clústers en K-Means o la perplexitat en t-SNE. L'elecció d'aquests paràmetres pot afectar significativament els resultats, i la selecció de valors òptims sovint implica assaig i error.
Malgrat aquests reptes, l'aprenentatge no supervisat segueix sent una eina poderosa a l'arsenal d'aprenentatge automàtic, que permet descobrir patrons i estructures ocults a les dades sense necessitat d'exemples etiquetats. Les seves aplicacions continuen expandint-se a mesura que hi ha més dades disponibles i a mesura que avancen les capacitats computacionals.
Altres preguntes i respostes recents sobre EITC/AI/GCML Google Cloud Machine Learning:
- Com decidiu quin algorisme d'aprenentatge automàtic utilitzareu i com el trobeu?
- Quina diferència hi ha entre l'aprenentatge federat i la informàtica perifèrica i l'aprenentatge automàtic al dispositiu?
- Com preparar i netejar les dades abans de l'entrenament?
- Em referia a activitats com classificació, identificació, etc. M'agradaria una llista de totes les activitats possibles i una explicació del que s'entén per cadascuna.
- Quines són les activitats que es poden fer amb ML i com es poden utilitzar?
- Quines són les regles generals per adoptar una estratègia específica? Podries indicar quins paràmetres concrets em fan adonar si val la pena utilitzar un model més complex?
- Amb quin paràmetre entenc si és hora de canviar d'un model lineal a un aprenentatge profund?
- Quina versió de Python seria millor per instal·lar TensorFlow per evitar problemes amb les distribucions TF disponibles?
- Què és una xarxa neuronal profunda?
- Quant de temps es triga normalment a aprendre els conceptes bàsics de l'aprenentatge automàtic?
Consulta més preguntes i respostes a EITC/AI/GCML Google Cloud Machine Learning