Introduktion til beslutningstræealgoritme

Når vi har fået et problem til at løse, som enten er en klassificering eller et regressionsproblem, er beslutningstræealgoritmen en af ​​de mest populære algoritmer, der bruges til at opbygge klassificerings- og regressionsmodeller. De falder ind under kategorien overvåget læring, dvs. data, der er mærket.

Hvad er beslutningstræealgoritme?

Decision Tree Algorithm er en overvåget maskinlæringsalgoritme, hvor data kontinuerligt deles på hver række baseret på visse regler, indtil det endelige resultat genereres. Lad os tage et eksempel, antag at du åbner et indkøbscenter, og selvfølgelig vil du gerne have, at det vokser i forretning med tiden. Så for den sags skyld ville du kræve tilbagevendende kunder plus nye kunder i dit indkøbscenter. Til dette vil du udarbejde forskellige forretnings- og markedsføringsstrategier, såsom at sende e-mails til potentielle kunder; oprette tilbud og tilbud, målrette mod nye kunder osv. Men hvordan ved vi, hvem der er de potentielle kunder? Med andre ord, hvordan klassificerer vi kategorien af ​​kunder? Ligesom nogle kunder vil besøge en gang om ugen, og andre gerne vil besøge en eller to gange i en måned, eller andre vil besøge i et kvarter. Så beslutningstræer er en sådan klassificeringsalgoritme, der klassificerer resultaterne i grupper, indtil der ikke er mere lighed tilbage.

På denne måde falder beslutningstræet ned i et trestruktureret format. De vigtigste komponenter i et beslutningstræ er:

  • Beslutningsnoder, som er hvor dataene er delt eller siger, det er et sted for attributten.
  • Decision Link, der repræsenterer en regel.
  • Beslutnings blade, som er de endelige resultater.

Arbejde med en beslutningstræealgoritme

Der er mange trin, der er involveret i udarbejdelsen af ​​et beslutningstræ:

1. Opdeling - Det er processen med opdeling af data i undergrupper. Opdeling kan udføres på forskellige faktorer som vist nedenfor, dvs. på kønsbasis, højde eller på basis af klasse.

2. Beskæring - Det er processen med at afkorte beslutnings træets grene og dermed begrænse trædybden

Beskæring er også af to typer:

  • Forbeskæring - Her holder vi op med at dyrke træet, når vi ikke finder nogen statistisk signifikant sammenhæng mellem attributterne og klassen på en bestemt knude.
  • Post-beskæring - For at kunne beskære, skal vi validere ydelsen af ​​testsætmodellen og derefter klippe de grene, der er et resultat af overfitting støj fra træningssættet.

3. Trævalg - Det tredje trin er processen med at finde det mindste træ, der passer til dataene.

Eksempler og illustration til konstruktion af et beslutningstræ

Som vi har lært principperne i et beslutningstræ. Lad os forstå og illustrere dette ved hjælp af et eksempel.

Lad os sige, at du vil spille cricket på en bestemt dag (f.eks. Lørdag). Hvilke faktorer er der involveret, som vil afgøre, om stykket vil ske eller ej?

Det er klart, at den største faktor er klimaet, ingen anden faktor har så stor sandsynlighed for, at der er så meget klima for legeafbrydelsen.

Vi har samlet dataene fra de sidste 10 dage, som er præsenteret nedenfor:

DagVejrTemperaturFugtighedVindSpil?
1OverskyetHedHøjSvagJa
2SolrigHedHøjSvagIngen
3SolrigMildNormalStærkJa
4RegnfuldMildHøjStærkIngen
5OverskyetMildHøjStærkJa
6RegnfuldFedt nokNormalStærkIngen
7RegnfuldMildHøjSvagJa
8SolrigHedHøjStærkIngen
9OverskyetHedNormalSvagJa
10RegnfuldMildHøjStærkIngen

Lad os nu konstruere vores beslutningstræ baseret på de data, vi har. Så vi har delt beslutningstræet i to niveauer, det første er baseret på attributten "Vejr" og den anden række er baseret på "Fugtighed" og "Vind". Nedenstående billeder illustrerer et indlært beslutningstræ.

Vi kan også indstille nogle tærskelværdier, hvis funktionerne er kontinuerlige.

Hvad er entropi i beslutningstræealgoritme?

Med enkle ord er entropi målet for, hvor forstyrrede dine data er. Mens du måske har hørt dette udtryk i dine matematik- eller fysikundervisning, er det det samme her.

Årsagen til, at Entropy bruges i beslutningstræet, er fordi det endelige mål i beslutningstræet er at gruppere lignende datagrupper i lignende klasser, dvs. at rydde dataene.

Lad os se nedenstående billede, hvor vi har det oprindelige datasæt, og vi er forpligtet til at anvende beslutnings træalgoritme for at gruppere de lignende datapunkter i en kategori.

Efter beslutningsdelingen, som vi tydeligt kan se, falder de fleste af de røde cirkler under en klasse, mens de fleste af de blå kryds falder ind under en anden klasse. Derfor blev det besluttet at klassificere de attributter, der kunne være baseret på forskellige faktorer.

Lad os prøve at gøre noget matematik herover:

Lad os sige, at vi har "N" sæt af varen, og disse varer falder i to kategorier, og nu for at gruppere dataene baseret på etiketter introducerer vi forholdet:

Entropien i vores sæt er givet ved følgende ligning:

Lad os tjekke grafen for den givne ligning:

Over billede (med p = 0, 5 og q = 0, 5)

Fordele

1. Et beslutningstræ er let at forstå, og når det først er forstået, kan vi konstruere det.

2. Vi kan implementere et beslutningstræ på såvel numeriske som kategoriske data.

3. Beslutningstræ er bevist at være en robust model med lovende resultater.

4. De er også tidseffektive med store data.

5. Det kræver mindre indsats for træningen af ​​dataene.

Ulemper

1. Instabilitet - Kun hvis oplysningerne er nøjagtige og nøjagtige, giver beslutnings træet lovende resultater. Selv hvis der sker en mindre ændring af inputdataene, kan det medføre store ændringer i træet.

2. Kompleksitet - Hvis datasættet er enormt med mange kolonner og rækker, er det en meget kompleks opgave at designe et beslutningstræ med mange grene.

3. Omkostninger - Nogle gange forbliver omkostninger også en hovedfaktor, fordi når man skal konstruere et komplekst beslutningstræ, kræver det avanceret viden i kvantitativ og statistisk analyse.

Konklusion

I denne artikel lærte vi om beslutningstræealgoritmen og hvordan man konstruerer en. Vi så også den store rolle, som Entropy spiller i beslutningstræealgoritmen, og til sidst så vi fordele og ulemper ved beslutningstræet.

Anbefalede artikler

Dette har været en guide til beslutningstræealgoritme. Her drøftede vi den rolle, der spilles af Entropy, Working, Advantages and Ulempe. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Vigtige dataindvindingsmetoder
  2. Hvad er webapplikation?
  3. Vejledning til Hvad er datavidenskab?
  4. Spørgsmål om dataanalytiker Interview
  5. Anvendelse af beslutningstræet i dataudvinding

Kategori: