Introduktion til ensemble-metoder i maskinlæring

I denne artikel vil vi se en oversigt over Ensemble Methods in Machine Learning. Ensemblæring er en kombination af forskellige maskinlæringsteknikker til en forudsigelig model for at forbedre forudsigelsen. Ensemblæring erhverves for at reducere variansen i de forudsigelige data. Denne type læring er beregnet til at minimere modellens biasness. Ensemblæring er et multimodelsystem, hvor forskellige klassifikatorer eller teknikker kombineres strategisk for at klassificere eller forudsige statistikker fra det komplekse problem med bedre nøjagtighed. Målet med sådan læring er at minimere sandsynligheden for et dårligt valg fra modellen. Det udpeger tilliden til modellen, der træffes. Ideen om at vælge optimale funktioner er realiseret i ensemblæring.

Typer af ensemblemetoder i maskinlæring

Ensemblemetoder hjælper med at oprette flere modeller og kombinerer dem derefter for at give forbedrede resultater. Nogle ensemblemetoder er kategoriseret i følgende grupper:

1. Sekventielle metoder

I denne type Ensemble-metode er der sekventielt genererede baselærere, hvor datafhængighed er bosiddende. Alle andre data i baselæreren er afhængige af tidligere data. Så de tidligere mismærkede data er indstillet på baggrund af deres vægt for at få ydeevnen for det samlede system forbedret.

Eksempel : Boosting

2. Parallell metode

I denne type Ensemble-metode genereres baselæreren i parallel rækkefølge, hvor datafhængighed ikke er der. Alle data i baselæreren genereres uafhængigt.

Eksempel : Stakning

3. Homogent ensemble

En sådan ensemblemetode er en kombination af de samme typer klassificeringsmaskiner. Men datasættet er forskelligt for hver klassifikator. Dette vil få den kombinerede model til at fungere mere præcist efter sammenlægningen af ​​resultater fra hver model. Denne type ensemble-metode fungerer med et stort antal datasæt. I den homogene metode er metoden til valg af funktioner den samme for forskellige træningsdata. Det er beregningsmæssigt dyrt.

Eksempel: Populære metoder som posning og boosting kommer i det homogene ensemble.

4. Heterogent ensemble

En sådan ensemblemetode er kombinationen af ​​forskellige typer klassificeringsmaskiner eller maskinlæringsmodeller, hvor hver klassifikator bygger på de samme data. En sådan metode fungerer til små datasæt. I heterogen er metoden til valg af funktioner forskellig for de samme træningsdata. Det samlede resultat af denne ensemble-metode udføres ved gennemsnit af alle resultaterne af hver kombineret model.

Eksempel : Stakning

Teknisk klassificering af ensemble-metoder

Nedenfor er den tekniske klassificering af Ensemble Methods:

1. Bagging

Denne ensemble-metode kombinerer to maskinindlæringsmodeller, dvs. Bootstrapping og Aggregation til en enkelt ensemble-model. Formålet med posemetoden er at reducere modelens høje varians. Beslutningstræerne har varians og lav bias. Det store datasæt er (f.eks. 1000 prøver) undersamplet (f.eks. 10 underprøver hver har 100 sampler med data). Træerne med flere beslutninger er bygget på hver træningsdata for undereksempler. Mens man slår under-samplede data om de forskellige beslutningstræer ned, mindskes bekymringen for overdreven montering af træningsdata på hvert beslutningstræ. For effektiviteten af ​​modellen dyrkes hvert af de individuelle beslutningstræer dybt indeholdende undersamplede træningsdata. Resultaterne af hvert beslutningstræ er samlet for at forstå den endelige forudsigelse. Variationen af ​​de aggregerede data reduceres. Nøjagtigheden af ​​forudsigelsen af ​​modellen i posemetoden afhænger af antallet af anvendte træer. Den forskellige underprøve af en eksempeldata vælges tilfældigt med udskiftning. Outputet fra hvert træ har en høj korrelation.

2. Boosting

Det boostende ensemble kombinerer også forskellige af samme type klassificering. Boosting er en af ​​de sekventielle ensemblemetoder, hvor hver model eller klassifikator kører baseret på funktioner, der vil blive brugt af den næste model. På denne måde fremhæver boostingsmetoden en stærkere elevmodel fra svage lærermodeller ved gennemsnit af deres vægt. Med andre ord afhænger en stærkere trænet model af de flere svage træne modeller. En svag lærer eller en slidtrænet model er en, der er meget mindre korreleret med ægte klassificering. Men den næste svage lærer er lidt mere korreleret med ægte klassificering. Kombinationen af ​​så forskellige svage elever giver en stærk lærende, der er godt korreleret med den rigtige klassificering.

3. Stakning

Denne metode kombinerer også flere klassifikationer eller regressionsteknikker ved hjælp af en metaklassifikator eller metamodel. Modellerne på de lavere niveauer trænes med det komplette træningsdatasæt, og derefter trænes den kombinerede model med resultaterne af modeller på lavere niveau. I modsætning til boosting gennemgår hver model på lavere niveau i parallel træning. Forudsigelsen fra modellerne på lavere niveau bruges som input til den næste model som træningsdatasæt og danner en stak, hvor det øverste lag af modellen er mere trænet end det nederste lag af modellen. Toplagsmodellen har god forudsigelsesnøjagtighed, og de er baseret på modeller på lavere niveau. Stakken fortsætter med at stige, indtil den bedste forudsigelse udføres med en minimumsfejl. Forudsigelsen af ​​den kombinerede model eller metamodel er baseret på forudsigelse af de forskellige svage modeller eller lavere lagsmodeller. Det fokuserer på at producere mindre bias-model.

4. Tilfældig skov

Den tilfældige skov adskiller sig lidt fra sækning, da den bruger dybe træer, der er monteret på bootstrap-prøver. Output fra hver lokk kombineres for at reducere variansen. Mens vi dyrker hvert træ snarere end at generere en bootstrap-prøve baseret på observation i datasættet, prøver vi også datasættet baseret på funktioner og bruger kun en tilfældig undergruppe af en sådan prøve til at bygge træet. Med andre ord udtages sampling af datasættet baseret på funktioner, der reducerer korrelationen mellem forskellige output. Den tilfældige skov er god til at beslutte for manglende data. Tilfældig skov betyder tilfældigt valg af en delmængde af en prøve, der reducerer chancerne for at få relaterede forudsigelsesværdier. Hvert træ har en anden struktur. Tilfældig skov resulterer i en stigning i skovens forspænding lidt, men på grund af gennemsnittet af alle de mindre relaterede forudsigelser fra forskellige træer falder den resulterende varians og giver samlet set bedre ydelse.

Konklusion

Ensemblets multi-model tilgang realiseres ved dybe læringsmodeller, hvor komplekse data har studeret og behandlet gennem så forskellige kombinationer af klassificeren for at få bedre forudsigelse eller klassificering. Forudsigelsen af ​​hver model inden for ensembleindlæring skal være mere ukorreleret. Dette vil holde bias og varians af modellen så lav som muligt. Modellen vil være mere effektiv og forudsige output under mindstefejl. Ensemblet er en overvåget indlæringsalgoritme, da modellen tidligere er trænet med datasættet til at forudsige. I ensemblæring skal antallet af komponentklassifikatorer være det samme som klassetiketter for at opnå høj nøjagtighed.

Anbefalede artikler

Dette er en vejledning til Ensemble Methods in Machine Learning. Her diskuterer vi de vigtige typer ensemble-metoder i maskinlæring sammen med teknisk klassificering. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Introduktion til ensembleteknikker
  2. Maskinlæring livscyklus med fordele
  3. Maskinlæringsalgoritmer
  4. Top 24 Machine Learning Interview spørgsmål

Kategori: