Les xarxes neuronals convolucionals (CNN) es van dissenyar per primera vegada amb el propòsit del reconeixement d'imatges en el camp de la visió per ordinador. Aquestes xarxes són un tipus especialitzat de xarxa neuronal artificial que ha demostrat ser molt eficaç a l'hora d'analitzar dades visuals. El desenvolupament de les CNN va ser impulsat per la necessitat de crear models que poguessin classificar i categoritzar amb precisió les imatges, i el seu èxit en aquest domini ha portat al seu ús generalitzat en diverses altres aplicacions com ara la detecció d'objectes, la segmentació d'imatges i fins i tot el processament del llenguatge natural.
Les CNN s'inspiren en l'estructura i la funcionalitat de l'escorça visual del cervell humà. Igual que l'escorça visual, les CNN consisteixen en múltiples capes de neurones interconnectades que processen diferents aspectes de les dades d'entrada. La innovació clau de les CNN rau en la seva capacitat per aprendre i extreure automàticament característiques rellevants de les imatges, eliminant la necessitat d'enginyeria manual de funcions. Això s'aconsegueix mitjançant l'ús de capes convolucionals, que apliquen filtres a la imatge d'entrada per detectar diversos patrons i característiques visuals, com ara vores, cantonades i textures.
El primer avenç a les CNN va arribar amb la introducció de l'arquitectura LeNet-5 per Yann LeCun et al. el 1998. LeNet-5 va ser dissenyat específicament per al reconeixement de dígits escrits a mà i va aconseguir un rendiment notable en el conjunt de dades MNIST, un conjunt de dades de referència àmpliament utilitzat per avaluar algorismes de reconeixement d'imatges. LeNet-5 va demostrar el poder de les CNN per capturar característiques jeràrquiques d'imatges, permetent una classificació precisa fins i tot en presència de variacions d'escala, rotació i traducció.
Des de llavors, les CNN han evolucionat significativament, amb arquitectures més profundes i complexes que s'han desenvolupat. Un avenç notable va ser la introducció de l'arquitectura AlexNet per Alex Krizhevsky et al. el 2012. AlexNet va aconseguir un avenç en la classificació d'imatges en guanyar el repte de reconeixement visual a gran escala ImageNet (ILSVRC) amb una taxa d'error significativament més baixa en comparació amb els enfocaments anteriors. Aquest èxit va obrir el camí per a l'adopció generalitzada de CNN en tasques de reconeixement d'imatges.
Les CNN també s'han aplicat amb èxit a altres tasques de visió per ordinador. Per exemple, en la detecció d'objectes, les CNN es poden combinar amb capes addicionals per localitzar i classificar objectes dins d'una imatge. La famosa xarxa neuronal convolucional basada en regions (R-CNN) presentada per Ross Girshick et al. el 2014 és un exemple d'aquesta arquitectura. R-CNN va aconseguir resultats d'última generació en els punts de referència de detecció d'objectes aprofitant el poder de les CNN per a l'extracció de característiques i combinant-lo amb mètodes de proposta de regió.
Les xarxes neuronals convolucionals es van dissenyar per primera vegada per a tasques de reconeixement d'imatges en el camp de la visió per ordinador. Han revolucionat el camp aprenent automàticament les característiques rellevants de les imatges, eliminant la necessitat d'enginyeria manual de funcions. El desenvolupament de les CNN ha donat lloc a avenços significatius en la classificació d'imatges, la detecció d'objectes i diverses altres tasques de visió per ordinador.
Altres preguntes i respostes recents sobre EITC/AI/ADL Advanced Deep Learning:
- Per què hem d'aplicar optimitzacions en l'aprenentatge automàtic?
- Quan es produeix el sobreajustament?
- Les xarxes neuronals convolucionals poden gestionar dades seqüencials incorporant convolucions al llarg del temps, tal com s'utilitza en els models de seqüència convolucional a seqüència?
- Les xarxes adversàries generatives (GAN) es basen en la idea d'un generador i d'un discriminador?