Deep Learning Algorithms - Top 7 arkitektoniske metoder til dyb læring

Indholdsfortegnelse:

Anonim

Introduktion til dyb læringsalgoritmer

Dyb læring er et skridt for at komme tættere på kunstig intelligens, der kan tage beslutninger som menneskelige hjerner, dvs. har evnen til at lære ved prøve og fejl, ligesom mennesker. Den menneskelige hjerne har milliarder af neuroner (ca. 86 milliarder; kilde: Wikipedia). Med kunstige neuroner hjælper dyb læring også med at efterligne det menneskelige sind. For at behandle informationen og tage beslutningen gennem kunstige neurale netværk er der nogle algoritmer, kaldet dyb læringsalgoritmer. Algoritmer lærer gradvist i hvert lag, dvs. Der tilføjes mere værdi fra funktioner i det næste lag. En dyb læringsmodel kan overfitse, hvis data er små eller ufuldstændige eller for enkle. Deep Learning Algorithms er effektive, når data er store.

Deep Learning Algorithms

For at skabe en dyb læringsmodel skal man skrive flere algoritmer, blande dem sammen og skabe et net af neuroner. Dyb læring har en høj beregningsomkostning. For at hjælpe med dybe læringsmodeller findes der dybe læringsplatforme som Tensor flow, Py-Torch, Chainer, Keras osv. I dyb læring har vi forsøgt at replikere det menneskelige neurale netværk med et kunstigt neuralt netværk, den menneskelige neuron kaldes perceptron i dyb læringsmodel. Vi forbinder disse perceptron-enheder sammen for at skabe et neuralt netværk, det har 3 sektioner:

  1. Inputlag
  2. Skjulte lag
  3. Outputlag

En perceptron har indgangsknuder (dendritter i den menneskelige hjerne), en aktiveringsfunktion til at træffe en lille beslutning og udgangsknuder (axon i den menneskelige hjerne). Vi vil se, hvordan en perceptron fungerer, ved at forbinde dem sammen skaber en dyb læringsmodel. Inputinformation (antal inputvariabler / funktioner) tildeles en vis vægt og føres til aktiveringsfunktion. Aktiveringsfunktionen tager en beslutning og sender output. Denne perceptrons output vil blive input til andre neuroner. Når batchet er behandlet, beregnes der med tilbagepropagationsfejl ved hver neuron ved hjælp af en omkostningsfunktion / tværantropi. På denne måde tildeles indgangsvægte, og hele processen fortsætter, indtil krydsentropi tilfredsstiller betingelsen.

Vi har forskellige aktiveringsfunktioner som Sigmoid-funktioner, hyperbolsk tangentfunktion, Rectified Linear Unit (ReLU), for at tage en lille beslutning. En dyb læringsmodel har brug for en enorm mængde data for at opbygge en god model. Generelt behandles en model med mere end 3 skjulte lag som et dybt neuralt netværk. Dybest set er dyb læring et sæt neuroner med et antal parametre defineret for hvert lag. For at skabe Deep Learning-modellen er de populære arkitekturer RNN, CNN osv.

Arkitektoniske metoder til dyb læringsalgoritmer

For at opbygge denne arkitektur bruges følgende algoritmer:

1. Tilbageformering

I denne algoritme beregner vi partielle derivater. Generelt beregnes gradientafstamningsmetoden til optimering, derivater (gradienter) ved hver iteration. I dybe læringsfunktioner er ikke enkle, de er sammensætningen af ​​forskellige funktioner. I dette tilfælde er det svært at beregne gradienter, så vi bruger omtrentlig differentiering til at beregne derivater. Jo mere antallet af parametre er, desto dyrere er den omtrentlige differentiering.

2. Stokastisk gradientafstamning

I gradientafstamning er målet at finde globale minima eller optimal løsning. Men for at få det til, er vi også nødt til at overveje lokale minima-løsninger (ikke ønskelige). Hvis objektivfunktionen er en konveks funktion, er det let at finde de globale minima. Den oprindelige værdi for funktionen og indlæringshastigheden er de afgørende parametre for at finde globale minima. Dette kan let forstås ved at overveje en flod, der kommer fra bjergtoppen og søger foden (global minima). Men på den måde vil der være nogle op- og nedture (lokale minima), som skal undgås. Floden med oprindelsessted og -hastighed (startværdi og indlæringshastighed i vores tilfælde) er de afgørende faktorer for at finde globale minima.

3. Læringsfrekvens

Læringshastigheden er som flodenes hastighed, det kan reducere træningstiden og øge ydeevnen. Generelt for at lære enhver teknik / sport er læringshastigheden i begyndelsen relativt høj end i slutningen, når man skal mestre den. Efter mellemstadiet vil indlæringen være langsom, fokus vil være på finjustering. Det samme anvendes i dyb læring for store ændringer takles af en højere indlæringshastighed og ved langsomt at sænke indlæringshastigheden senere til finjustering.

4. Batchnormalisering

Ved dyb indlæring begynder værdien af ​​vægt (tilfældigt valgt) og indlæring defineres rate for en mini-batch. I begyndelsen ville der være mange outliers, og under backpropagation skal disse outliers kompenseres for at beregne vægtene for at få output. Denne kompensation resulterer i ekstra epoker. Så for at undgå det bruger vi batch-normalisering.

5. Frafald

Ved dyb læring støder vi generelt på problemet med overfitting. Overfitting i store netværk med flere parametre gør det vanskeligt at forudsige på testdata. Så for at undgå at vi bruger dropout-metoden, der falder tilfældige enheder under træning ved at oprette forskellige 'tyndede netværk'. Når man tester disse tynde netværks gennemsnit beregnes det, hvilket hjælper med at undgå overfyldning.

6. Taske med ord

Vi bruger en kontinuerlig pose med ord til at forudsige det næste ord. F.eks. Ser vi i e-mail, at autosuggestion til afslutning af sætningen er en del af NLP. Dette gøres ved at overveje mange sætninger og for et specifikt ord omkring ord, der er fanget. Disse specifikke ord og de omkringliggende ord føres til det neurale netværk. Efter træningsmodellen kan den forudsige det specifikke ord baseret på de omkringliggende ord.

7. Lang kortvarig hukommelse

LSTM er meget nyttig i rækkefølge forudsigelsesproblemer som sprogoversættelse, forudsigelse af salg og finde aktiekursen. LSTM har fordel for andre teknikker, fordi det er i stand til at overveje tidligere data. LSTM foretager ændring ved hjælp af celletilstandsmekanismen. Den husker at glemme ting. De 3 vigtigste aspekter af LSTM gør det skiller sig ud fra andre dybe læringsteknikker. Den første er, hvornår neuronet skal have input, for det andet hvornår man skal huske tidligere data, og hvad man skal glemme, og for det tredje er hvornår man skal sende output.

Konklusion

En dyb læringsmodel er et skridt mod replikering af det menneskelige sind. I stedet for biologiske neuroner bruger dyb læring et kunstigt neuralt netværk. Dyb læring har høje beregningsomkostninger, som kan reduceres ved brug af dybe læringsrammer som Tensor flow og Py-Torch osv. RNN, CNN er arkitektoniske metoder til dyb læringsmodeller. Forskellige Deep Learning-algoritmer, der bruges i disse arkitekturer, diskuteres i denne artikel.

Anbefalede artikler

Dette er en guide til Deep Learning Algorithms. Her diskuterer vi de arkitektoniske metoder til dyb læringsalgoritmer sammen med lag. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Introduktion til maskinlæringsalgoritmer
  2. Top 14 anvendelser af maskinlæring
  3. Kunstig intelligens vs maskinlæring vs dyb læring
  4. Top 13 nyttige Deep Learning Interview spørgsmål og svar