Una xarxa neuronal convolucional 3D (CNN) difereix d'una xarxa 2D pel que fa a les dimensions i els passos. Per entendre aquestes diferències, és important tenir una comprensió bàsica de les CNN i la seva aplicació en l'aprenentatge profund.
Una CNN és un tipus de xarxa neuronal que s'utilitza habitualment per analitzar dades visuals com ara imatges o vídeos. Consta de diverses capes, incloses les capes convolucionals, les capes d'agrupació i les capes totalment connectades. Les capes convolucionals són les responsables d'extreure les característiques de les dades d'entrada, mentre que les capes d'agrupació redueixen les dimensions espacials de les característiques extretes. Les capes completament connectades s'utilitzen per a tasques de classificació o regressió.
En una CNN 2D, les dades d'entrada solen ser una imatge 2D representada per una matriu de valors de píxels. Les capes convolucionals d'una CNN 2D realitzen convolucions 2D a la imatge d'entrada. Cada capa convolucional té un conjunt de filtres aprendre (també coneguts com a nuclis) que llisquen per sobre de la imatge, extreint característiques locals mitjançant operacions de multiplicació i suma per elements. La sortida d'una capa convolucional és un mapa de característiques, que representa la presència de característiques específiques a la imatge d'entrada.
D'altra banda, una CNN 3D està dissenyada per gestionar dades volumètriques, com ara seqüències de vídeo o dades d'imatges mèdiques. L'entrada a una CNN 3D és un volum 3D, representat per una pila d'imatges en 2D al llarg del temps (o qualsevol altra dimensió). Les capes convolucionals d'una CNN 3D realitzen convolucions 3D al volum d'entrada. Això vol dir que els filtres utilitzats a les capes convolucionals tenen tres dimensions (amplada, alçada i profunditat), cosa que els permet capturar patrons espai-temporals a les dades d'entrada.
La principal diferència entre una CNN 2D i 3D rau en les dimensions dels filtres convolucionals i les dades d'entrada. En una CNN 2D, els filtres són matrius 2D que llisquen sobre la imatge d'entrada 2D. En una CNN 3D, els filtres són tensors 3D que llisquen sobre el volum d'entrada 3D. El nombre de dimensions als filtres i les dades d'entrada determina el nombre de dimensions als mapes de característiques de sortida.
Els passos, d'altra banda, determinen la mida del pas del filtre durant l'operació de convolució. En una CNN 2D, el valor de la gambada determina quant es mou el filtre horitzontalment i verticalment després de cada operació. En una CNN 3D, el valor de la gambada determina el moviment del filtre en les tres dimensions (amplada, alçada i profunditat). Un valor de pas més gran condueix a una reducció de les dimensions espacials dels mapes de característiques de sortida.
Per il·lustrar aquestes diferències, considereu una CNN 2D aplicada a una imatge amb dimensions de 256 × 256 píxels i una CNN 3D aplicada a una seqüència de vídeo amb dimensions de 256 × 256 píxels i 100 fotogrames. A la CNN 2D, els filtres serien matrius 2D de mida, per exemple, 3×3. L'operació de convolució lliscaria aquests filtres sobre la imatge 2D, donant lloc a un mapa de característiques amb dimensions, per exemple, de 254 × 254 píxels.
A la CNN 3D, els filtres serien tensors de mida 3D, per exemple, 3x3x3. L'operació de convolució lliscaria aquests filtres sobre el volum 3D, donant lloc a un mapa de característiques amb dimensions, per exemple, de 254 × 254 píxels i 98 fotogrames. La dimensió de profunditat al mapa de característiques de sortida representa l'aspecte temporal de la seqüència de vídeo d'entrada.
Una xarxa neuronal convolucional 3D difereix d'una xarxa 2D pel que fa a les dimensions dels filtres convolucionals i les dades d'entrada. L'ús de filtres 3D permet a la xarxa capturar patrons espai-temporals en dades volumètriques, com ara seqüències de vídeo o dades d'imatges mèdiques. El valor del pas determina la mida del pas del filtre durant l'operació de convolució, afectant les dimensions espacials dels mapes de característiques de sortida.
Altres preguntes i respostes recents sobre Xarxa neuronal convolucional 3D amb competició de detecció de càncer de pulmó Kaggle:
- Quins són alguns dels possibles reptes i enfocaments per millorar el rendiment d'una xarxa neuronal convolucional 3D per a la detecció de càncer de pulmó a la competició Kaggle?
- Com es pot calcular el nombre de característiques en una xarxa neuronal convolucional 3D, tenint en compte les dimensions dels pegats convolucionals i el nombre de canals?
- Quin és l'objectiu del farciment a les xarxes neuronals convolucionals i quines són les opcions de farciment a TensorFlow?
- Quins són els passos implicats per executar una xarxa neuronal convolucional 3D per a la competició de detecció de càncer de pulmó Kaggle mitjançant TensorFlow?
- Quin és el propòsit de desar les dades de la imatge en un fitxer numpy?
- Com es fa un seguiment del progrés del preprocessament?
- Quin és l'enfocament recomanat per preprocessar conjunts de dades més grans?
- Quin és l'objectiu de convertir les etiquetes a un format d'un sol calent?
- Quins són els paràmetres de la funció "process_data" i quins són els seus valors per defecte?
- Quin va ser el pas final del procés de redimensionament després de dividir i fer la mitjana de les rodanxes?
Més preguntes i respostes:
- Camp: Intel·ligència Artificial
- programa: EITC/AI/DLTF Deep Learning amb TensorFlow (anar al programa de certificació)
- Lliçó: Xarxa neuronal convolucional 3D amb competició de detecció de càncer de pulmó Kaggle (anar a la lliçó relacionada)
- Tema: Executant la xarxa (anar al tema relacionat)
- Revisió de l'examen