Introduktion til indbyggede neurale netværk

Konvolutional neurale netværk, også kendt som CNN eller ConvNet, hører under kategorien kunstige neurale netværk, der bruges til billedbehandling og visualisering. Kunstig intelligens bruger dyb læring til at udføre opgaven. Neurale netværk er enten hardware eller software programmeret som neuroner i den menneskelige hjerne. Det traditionelle neurale netværk tager kun billeder med reduceret opløsning som input. CNN løser dette problem ved at arrangere deres neuroner som den frontale flamme af menneskelige hjerner. Forbehandling på CNN er meget mindre sammenlignet med andre algoritmer. Convolution, der anvendes en lineær matematisk operation på CNN. Det bruger konvolvering i stedet for generel matrixmultiplikation i et af dets lag.

Lag i inddragende neurale netværk

Nedenfor er lagene af indviklede neurale netværk:

1. Billedinputlag

Inputlaget giver input (for det meste billeder), og der udføres normalisering. Inputstørrelse skal nævnes her.

2. Konvolutional Layer

Konvolution udføres i dette lag, og billedet er opdelt i perceptroner (algoritme), lokale felter oprettes, hvilket fører til komprimering af perceptroner for at have kort som en matrix med størrelse mx n.

3. Ikke-linearitetslag

Her tages funktionskort som input og aktiveringskort gives som output ved hjælp af aktiveringsfunktion. Aktiveringsfunktionen implementeres generelt som sigmoid eller hyperbolisk tangentfunktioner.

4. Rektifikationslag

Den vigtigste komponent i CNN, dette lag gør træningen hurtigere uden at reducere nøjagtigheden. Den udfører element-vis operation af absolut værdi på aktiveringskort.

5. Rektificerede lineære enheder (ReLU)

ReLU kombinerer ikke-lineære og ensrettende lag på CNN. Dette udfører tærskelfunktionen, hvor negative værdier konverteres til nul. ReLU ændrer dog ikke størrelsen på input.

6. Poollag

Poollaget kaldes også downsamplinglaget, da dette er ansvarligt for at reducere størrelsen på aktiveringskort. Et filter og et skridt med samme længde påføres inputvolumen. Mindre signifikante data ignoreres af dette lag, hvorfor billedgenkendelse udføres i en mindre repræsentation. Dette lag reducerer overfitting. Da mængden af ​​parametre reduceres ved hjælp af poollaget, reduceres omkostningerne også. Inputet er opdelt i rektangulære samlingsområder, og der beregnes enten maksimum eller gennemsnit, hvilket returnerer maksimum eller gennemsnit følgelig. Max Pooling er et populært.

7. Frafaldslag

Dette lag indstiller tilfældigt inputlaget til nul med en given sandsynlighed. Flere resultater i forskellige elementer falder efter denne operation. Dette lag hjælper også med at reducere overfitting. Det gør netværket til at være overflødigt. Der sker ingen læring i dette lag. Denne operation udføres kun under træning.

8. Helt tilsluttet lag

Aktiveringskort, der er output fra tidligere lag, omdannes til en klassesandsynlighedsfordeling i dette lag. FC-lag multiplicerer input med en vægtmatrix og tilføjer biasvektoren.

9. Outputlag

FC-laget efterfølges af softmax og klassificeringslag. Softmax-funktionen anvendes til input. Klassificeringslaget beregner cross-entropy and loss-funktionen for klassificeringsproblemer.

10. Regressionslag

Halv gennemsnit kvadratisk fejl beregnes i dette lag. Dette lag skal følge FC-laget.

Arkitektur af konvolutional neuralt netværk

Nedenfor er arkitekturen for indviklede neurale netværk:

1. LeNet

LeNet blev introduceret til optisk og karaktergenkendelse i dokumenter i 1998. Det er lille og perfekt til at køre i CPU'en. LeNet er lille og let at forstå. Dette er bygget med tre hovedideer: lokale modtagelige felter delte vægte og rumlig underampling. Netværket viser den bedste interne repræsentation af råbilleder. Det har tre indviklede lag, to sammenlagdelag, et fuldt tilsluttet lag og et outputlag. Et indviklet lag blev straks efterfulgt af samlingslaget. Alle lagene er forklaret ovenfor.

2. AlexNet

AlexNet blev udviklet i 2012. Denne arkitektur populariserede CNN i Computer vision. Det har fem indviklede og tre fuldt forbundne lag, hvor ReLU påføres efter hvert lag. Det tager fordelene ved begge lag, da et indviklingslag har få parametre og lang beregning, og det er det modsatte for et fuldt tilsluttet lag. Overfitting blev meget reduceret af dataforøgelse og frafald. AlexNet var dybere, større og indviklede lag adskilles ikke af poollag sammenlignet med LeNet.

3. ZF Net

ZF Net blev udviklet i 2013, som var en modificeret version af AlexNet. Størrelsen på det midterste, indviklede lag blev udvidet, og det første indviklede lags skridt og filterstørrelse blev gjort mindre. Det anerkendte bare manglerne ved AlexNet og udviklede en overlegen. Alle lagene er de samme som AlexNet. ZF Net justerer lagparametrene, f.eks. Filterstørrelse eller skridt på AlexNet, hvilket gør det reducere fejlhastighederne.

4. GoogLeNet

Denne arkitektur blev udviklet i 2014. Begyndelseslaget er kernekonceptet. Dette lag dækker det større område, men gør opmærksom på små oplysninger om billedet. For at forbedre ydelsen bruges ni startmoduler i GoogLeNet. Da startlaget er tilbøjeligt til overfitting, bruges flere ikke-lineariteter og færre parametre her. Max pooling-lag bruges til at sammenkæde output fra det forrige lag. Denne arkitektur har 22 lag, og parametre er 12 gange mindre. Dette er mere nøjagtigt end AlexNet, også hurtigere. Fejlfrekvensen er relativt lavere. Det gennemsnitlige poollag anvendes i slutningen i stedet for et fuldt tilsluttet lag. Beregningen reduceres, dybden og bredden øges. Mange startmoduler er forbundet til at gå dybere ind i arkitekturen. GoogLeNet overgik alle de andre arkitekturer, der blev udviklet indtil 2014. Flere opfølgende versioner er tilgængelige for denne arkitektur.

5. VGG Net

Dette var en forbedring i forhold til ZFNet og efterfølgende over AlexNet. Det har 16 lag med 3 × 3 indviklede lag, 2 × 2 sammenlagdelag og fuldt forbundne lag. Denne arkitektur vedtager den enkleste netværksstruktur, men den har de fleste af parametrene.

6. ResNet

Restnetværksarkitektur blev udviklet i 2015. Den bruger batch-normalisering og springer over brugen af ​​FC-lag. Denne arkitektur bruger 152 lag og bruger springforbindelser. ResNet bruges mest i alle dybe læringsalgoritmer nu.

Konklusion

Facebook bruger CNN til billedmærkning, Amazon til produktanbefalinger og Google til at søge blandt brugerbilleder. Alle disse gøres med større nøjagtighed og effektivitet. Fremskridt inden for dyb læring nåede et trin, hvor CNN blev udviklet og hjælper på mange måder. Efterhånden som kompliceret CNN bliver, hjælper det med at forbedre effektiviteten.

Anbefalet artikel

Dette er en guide til konvolutional neurale netværk. Her diskuterer vi Introduktion til konvolutional neurale netværk og dets lag sammen med arkitektur. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Klassificering af neuralt netværk
  2. Machine Learning vs Neural Network
  3. Oversigt over neurale netværksalgoritmer
  4. Tilbagevendende neurale netværk (RNN)
  5. Implementering af neurale netværk
  6. Top 6 sammenligninger mellem CNN vs RNN

Kategori: