Beslutningstræealgoritme - Forklaring og entropiens rolle i beslutningstræet

Introduktion til beslutningstræealgoritme

Når vi har fået et problem til at løse, som enten er en klassificering eller et regressionsproblem, er beslutningstræealgoritmen en af de mest populære algoritmer, der bruges til at opbygge klassificerings- og regressionsmodeller. De falder ind under kategorien overvåget læring, dvs. data, der er mærket.

Hvad er beslutningstræealgoritme?

Decision Tree Algorithm er en overvåget maskinlæringsalgoritme, hvor data kontinuerligt deles på hver række baseret på visse regler, indtil det endelige resultat genereres. Lad os tage et eksempel, antag at du åbner et indkøbscenter, og selvfølgelig vil du gerne have, at det vokser i forretning med tiden. Så for den sags skyld ville du kræve tilbagevendende kunder plus nye kunder i dit indkøbscenter. Til dette vil du udarbejde forskellige forretnings- og markedsføringsstrategier, såsom at sende e-mails til potentielle kunder; oprette tilbud og tilbud, målrette mod nye kunder osv. Men hvordan ved vi, hvem der er de potentielle kunder? Med andre ord, hvordan klassificerer vi kategorien af kunder? Ligesom nogle kunder vil besøge en gang om ugen, og andre gerne vil besøge en eller to gange i en måned, eller andre vil besøge i et kvarter. Så beslutningstræer er en sådan klassificeringsalgoritme, der klassificerer resultaterne i grupper, indtil der ikke er mere lighed tilbage.

På denne måde falder beslutningstræet ned i et trestruktureret format. De vigtigste komponenter i et beslutningstræ er:

Beslutningsnoder, som er hvor dataene er delt eller siger, det er et sted for attributten.
Decision Link, der repræsenterer en regel.
Beslutnings blade, som er de endelige resultater.

Arbejde med en beslutningstræealgoritme

Der er mange trin, der er involveret i udarbejdelsen af et beslutningstræ:

1. Opdeling - Det er processen med opdeling af data i undergrupper. Opdeling kan udføres på forskellige faktorer som vist nedenfor, dvs. på kønsbasis, højde eller på basis af klasse.

2. Beskæring - Det er processen med at afkorte beslutnings træets grene og dermed begrænse trædybden

Beskæring er også af to typer:

Forbeskæring - Her holder vi op med at dyrke træet, når vi ikke finder nogen statistisk signifikant sammenhæng mellem attributterne og klassen på en bestemt knude.
Post-beskæring - For at kunne beskære, skal vi validere ydelsen af testsætmodellen og derefter klippe de grene, der er et resultat af overfitting støj fra træningssættet.

3. Trævalg - Det tredje trin er processen med at finde det mindste træ, der passer til dataene.

Eksempler og illustration til konstruktion af et beslutningstræ

Som vi har lært principperne i et beslutningstræ. Lad os forstå og illustrere dette ved hjælp af et eksempel.

Lad os sige, at du vil spille cricket på en bestemt dag (f.eks. Lørdag). Hvilke faktorer er der involveret, som vil afgøre, om stykket vil ske eller ej?

Det er klart, at den største faktor er klimaet, ingen anden faktor har så stor sandsynlighed for, at der er så meget klima for legeafbrydelsen.

Vi har samlet dataene fra de sidste 10 dage, som er præsenteret nedenfor:

Dag	Vejr	Temperatur	Fugtighed	Vind	Spil?
1	Overskyet	Hed	Høj	Svag	Ja
2	Solrig	Hed	Høj	Svag	Ingen
3	Solrig	Mild	Normal	Stærk	Ja
4	Regnfuld	Mild	Høj	Stærk	Ingen
5	Overskyet	Mild	Høj	Stærk	Ja
6	Regnfuld	Fedt nok	Normal	Stærk	Ingen
7	Regnfuld	Mild	Høj	Svag	Ja
8	Solrig	Hed	Høj	Stærk	Ingen
9	Overskyet	Hed	Normal	Svag	Ja
10	Regnfuld	Mild	Høj	Stærk	Ingen

Lad os nu konstruere vores beslutningstræ baseret på de data, vi har. Så vi har delt beslutningstræet i to niveauer, det første er baseret på attributten "Vejr" og den anden række er baseret på "Fugtighed" og "Vind". Nedenstående billeder illustrerer et indlært beslutningstræ.

Vi kan også indstille nogle tærskelværdier, hvis funktionerne er kontinuerlige.

Hvad er entropi i beslutningstræealgoritme?

Med enkle ord er entropi målet for, hvor forstyrrede dine data er. Mens du måske har hørt dette udtryk i dine matematik- eller fysikundervisning, er det det samme her.

Årsagen til, at Entropy bruges i beslutningstræet, er fordi det endelige mål i beslutningstræet er at gruppere lignende datagrupper i lignende klasser, dvs. at rydde dataene.

Lad os se nedenstående billede, hvor vi har det oprindelige datasæt, og vi er forpligtet til at anvende beslutnings træalgoritme for at gruppere de lignende datapunkter i en kategori.

Efter beslutningsdelingen, som vi tydeligt kan se, falder de fleste af de røde cirkler under en klasse, mens de fleste af de blå kryds falder ind under en anden klasse. Derfor blev det besluttet at klassificere de attributter, der kunne være baseret på forskellige faktorer.

Lad os prøve at gøre noget matematik herover:

Lad os sige, at vi har "N" sæt af varen, og disse varer falder i to kategorier, og nu for at gruppere dataene baseret på etiketter introducerer vi forholdet:

Entropien i vores sæt er givet ved følgende ligning:

Lad os tjekke grafen for den givne ligning:

Over billede (med p = 0, 5 og q = 0, 5)

Fordele

1. Et beslutningstræ er let at forstå, og når det først er forstået, kan vi konstruere det.

2. Vi kan implementere et beslutningstræ på såvel numeriske som kategoriske data.

3. Beslutningstræ er bevist at være en robust model med lovende resultater.

4. De er også tidseffektive med store data.

5. Det kræver mindre indsats for træningen af dataene.

Ulemper

1. Instabilitet - Kun hvis oplysningerne er nøjagtige og nøjagtige, giver beslutnings træet lovende resultater. Selv hvis der sker en mindre ændring af inputdataene, kan det medføre store ændringer i træet.

2. Kompleksitet - Hvis datasættet er enormt med mange kolonner og rækker, er det en meget kompleks opgave at designe et beslutningstræ med mange grene.

3. Omkostninger - Nogle gange forbliver omkostninger også en hovedfaktor, fordi når man skal konstruere et komplekst beslutningstræ, kræver det avanceret viden i kvantitativ og statistisk analyse.

Konklusion

I denne artikel lærte vi om beslutningstræealgoritmen og hvordan man konstruerer en. Vi så også den store rolle, som Entropy spiller i beslutningstræealgoritmen, og til sidst så vi fordele og ulemper ved beslutningstræet.

Anbefalede artikler

Dette har været en guide til beslutningstræealgoritme. Her drøftede vi den rolle, der spilles af Entropy, Working, Advantages and Ulempe. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

Vigtige dataindvindingsmetoder
Hvad er webapplikation?
Vejledning til Hvad er datavidenskab?
Spørgsmål om dataanalytiker Interview
Anvendelse af beslutningstræet i dataudvinding

Beslutningstræealgoritme - Forklaring og entropiens rolle i beslutningstræet

Indholdsfortegnelse:

Introduktion til beslutningstræealgoritme

Hvad er beslutningstræealgoritme?

Arbejde med en beslutningstræealgoritme

Eksempler og illustration til konstruktion af et beslutningstræ

Hvad er entropi i beslutningstræealgoritme?

Fordele

Ulemper

Konklusion

Anbefalede artikler

Computer Science vs Data Science - Find ud af de bedste 8 sammenligninger

7 Nyttige ting, du har brug for at vide om Computer Scientist vs Data Scientist

Begrebet Six Sigma - Lær de fem faser af Six Sigma

Komplekse formler i Excel - Eksempler på komplekse formler i Excel

Betingede erklæringer i JavaScript - Top 8-sætning med eksempler

Six Sigma Yellow Belt - Forskellige bælter og undermetoder i Six Sigma

Krav til dataforsker - Tekniske og ikke-tekniske færdigheder

Slf4j vs Log4j - Lær de største forskelle mellem Slf4j og Log4j

Færdigheder til projektleder - Lær projektlederens nøgleværdigheder

Six Sigma Tools - Lær De 10 mest effektive værktøjer fra Six Sigma

Sådan flettes lag i Photoshop uden at udflatte dit billede

Photoshop's børsteværktøj skjulte tip og tricks

Gendan kommandoen Legacy Free Transform i Photoshop CC 2019

Opret en guldteksteffekt i Photoshop CC og CS6

Sådan gør du din Photoshop-børste til et viskelæder