Gradient Boosting Algorithm - Komplet guide til forøgelse af gradient

Indholdsfortegnelse:

Anonim

Introduktion til gradient boosting algoritme

Teknikken til at overføre ugens elever til en stærk lærende kaldes Boosting. Gradient boosting algoritmeprocessen fungerer på denne teori om udførelse. Ada-boosting-algoritme kan afbildes for at forklare og let forstå den proces, gennem hvilken boosting indsprøjtes til datasættene.

Beslutningstræ

Et beslutningstræ er et værktøj til understøttelse af dom, der bestemmer beslutninger ved at antyde et trælignende og deres sandsynlige konsekvenser sammen med mulighedsresultater, ressourceomkostninger osv. Denne teknik giver dem mulighed for at vise kontrolerklæringer, der fungerer på betingede resultater.

Forskningsoperationer bruger vidt udbredt disse beslutningstræer specifikt i beslutningsanalyse. Det giver dem også mulighed for at nå et mål og er også et beundret værktøj i maskinlæring.

AdaBoost-algoritme

AdaBoost-algoritmen begynder ved forberedelse af et beslutningstræ, hvor hver observation tildeles en ækvivalentvægt. Efter at have vurderet det primære træ øger vi vægterne af den fortolkning, der er kompliceret at kategorisere og underordne vægterne for dem, der er ubesværet med at kategorisere. Det andet træ er som et resultat udviklet på disse fordomsdata. Her er designet at blive bedre med profetien om det primære træ.

Beregn derefter kategoriseringsfejlen fra denne innovative 2-træ samling model og dyrk det tredje træ for at forudse de ændrede rester. Ovenstående procedure itereres i et par tilfælde. Observationer, som ikke er godt defineret i foregående træer, bestemmes ved anvendelse af efterfølgende træer. Forudsigelser af den afsluttende samlingsmodel er følgelig det fordømte tal for forudsigelser, der er afsluttet med de tidligere træmodeller.

Træning af GBM-model

For at instruere en gbm-model på R-sprog, skal GBM-biblioteket være installeret, og et opkald til dette installerede GBM-bibliotek fra det opkaldende program bliver instantieret. De nødvendige argumenter skal også specificeres, de vigtigste argumenter er anført nedenfor,

1. Formlen

2. Fordeling af responsvariabler

3. Predictor-variabel

4. Svarvariabel

De sædvanlige distributioner, der bruges i GBM-modeller, er Bernoulli, Poisson osv.

Endelig forventes dataene og n.trees-argumenterne at blive specificeret Som standard vil gbm-modellen tage for givet 100 træer, hvilket kan tilbyde en god kvalitet tilnærmelse af vores gbm's koncert.

Prøvekode # 1

install.packages ("gbm")
library(gbm)
GBM <- gbm( formula = response,
distribution = " bernoulli ",
data = train
n.trees = 3000)

Her er et næste trin, det faktiske datasæt er opdelt i togsæt og testdatasplit, og dette opnås ved hjælp af funktionen createDataPartition (). Denne form for opdeling vil være meget nyttigt i den senere del til træning af testsættet ved hjælp af det trænede togsæt og toppen af ​​dette, som de faktiske forudsigelser for de originale data bestemmes.

Prøvekode # 2

TRAIN <- read.csv("Train_dd.csv")
set.seed(77820)
intrain <- createDataPartition( y = Train$survived,
list = false )
Train <- Train(inTrain) Train <- Train(-inTrain)

Den efterfølgende skridt er at coache en gbm-model ved hjælp af vores træningsproffer. Mens alle yderligere argumenter er nøjagtigt, hvad der blev anmeldt i ovenstående afsnit. to yderligere argumenter nævnes - interaktion, dybde og svind.

1. Interaktionsdybde udtrykker den største dybde af hvert træ

2. Målingen af ​​intellektet opnås ved hjælp af Shrinkage. her reduceres alle supplerende værdier i basiselæretræerne ved hjælp af denne svind.

Desuden tillader denne teknik visning af kontrolangivelser, der fungerer på betingede resultater. Forskningsoperationer bruger bredt disse beslutningstræer specifikt i beslutningsanalyse. Det giver os også mulighed for at nå et mål og er også et beundret værktøj i maskinlæring.

GBM-model Output

Outputet fra GBM-modellen indeholder detaljer om det samlede antal træer, der er implicit til udførelsen. Dette vil hjælpe med at forudsige indflydelsen af ​​forudsigelsesvariablen i modellen, også variablen betydningstabel og model plot kan udledes fra den resumé funktion af GBM output.

Forudsig () metode ved hjælp af GBM-model

Så for at gøre forudsigelser på toppen af ​​de indtastede data i GBM-modellen her som som andre modeller er forudsigelsesmetoden underforstået. Antallet af det samlede antal beslutningstræer, der bruges, skal også manuelt nævnes i metodens argumentafdeling.

Prøvekode

predictions <- predict( object = simpleGBMmodel,
newdata = test,
n.trees = 1)

GBM-model Forbedringer

Træbegrænsninger

  • Det er vigtigt, at de svage elever omfatter færdigheder, men forbliver svage.

Vægtede opdateringer

  • Der anvendes sekventielt tilføjelse ud fra forudsigelserne for hvert træ
  • Donationen af ​​hvert træ til dette beløb skal være masse for at bremse algoritmelæringen. denne proces er opkaldskrimp.

Stokastisk gradient boosting algoritme

Denne tilsvarende fortjeneste kan bruges til at reducere foreningen flankeret af træerne.

Penalized Gradient Boosting-algoritme

Parameteriserede træer kan fyldes med yderligere begrænsninger, det klassiske beslutningstræ kan ikke bruges som svage elever. I stedet bruges et tilpasset, kaldet et regressionstræ, der har numeriske værdier i bladknudepunkterne.

Anbefalede artikler

Dette har været en guide til Gradient Boosting Algorithm. Her diskuterer vi en introduktion, Decision Tree, AdaBoost-algoritme, Uddannelse GBM-model, GBM-model Forbedringer sammen med nogle prøvekoder. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -
  1. Beslutningstræealgoritme
  2. Maskinlæringsalgoritmer
  3. XGBoost-algoritme
  4. Data Science algoritmer
  5. C ++ algoritme | Eksempler på C ++ algoritme
  6. Implementering af Poisson-regression i R