Introduktion til oprettelse af et beslutningstræ
Med den nylige hurtige vækst i mængden af data, der genereres af informationssystemer, til at håndtere store datasæt, er der et dominerende behov for beslutningstræet for at reducere beregningskompleksiteten. Et beslutningstræ kan betragtes som den vigtigste tilgang til repræsentation af klassificeringsmænd. Med andre ord kan vi sige, at dataene er struktureret ved hjælp af en kløft og erobre strategi. op til at vide, at vi kun har udforsket. Et beslutningstræ er struktureret som en ramme til nøjagtighed af værdierne og sandsynligheden for resultater beslutninger væk
m hvert niveau af noden, hvilket hjælper beslutningstagere med at vælge korrekte forudsigelser blandt de forskellige upassende data. I denne artikel vil du gennemgå, hvordan du opretter et beslutningstræ baseret på eksempeldata på en enkel måde.
Hvad er beslutningstræet?
Et beslutningstræ er en binær hierarkisk struktur, der identificerer den måde, hvor hver knude opdeler et datasæt baseret på forskellige betingelser. At konstruere et optimalt træ med en modeltilgang til klassificering af en responsvariabel, der forudsiger værdien af en målvariabel med enkle beslutningsregler (hvis-så-andet-udsagn). Metoden er overvåget læring, der oftest bruges i klassificeringsproblemer og betragtes som en meget effektiv forudsigelsesmodel. De bruges i forskellige applikationsdomæner som spilteori, kunstig intelligens, maskinlæring, datamining og områder som sikkerhed og medicin.
Sådan opretter du et beslutningstræ?
Et beslutningstræ oprettes på enkle måder med top-down måde; de består af knudepunkter, der danner en rettet knude, der har rodnoder uden indgående kanter. Alle andre knudepunkter kaldes beslutningsnoder (intern knude- og bladknudepunkter, der svarer til attribut og klassetiketter) med mindst en indgående kanter. Hovedmålet fra datasættene er at minimere generaliseringsfejl ved at finde den optimale løsning i beslutningstræet.
Et eksempel på et beslutningstræ er forklaret nedenfor med et eksempeldatasæt. Målet er at forudsige, om en fortjeneste er nede eller opad ved hjælp af attributterne for liv og konkurrence. Her er beslutnings trævariablerne kategoriske (Ja, Nej).
Datasættet
Liv | Konkurrence | Type | Profit |
Gammel | Ja | Software | ned |
Gammel | Ingen | Software | ned |
Gammel | Ingen | Hardware | ned |
Mid | Ja | Software | ned |
Mid | Ja | Hardware | ned |
Mid | Ingen | Hardware | Op |
Mid | Ingen | Software | Op |
Ny | Ja | Software | Op |
Ny | Ingen | Hardware | Op |
Ny | Ingen | Software | Op |
Fra ovennævnte datasæt: liv, konkurrence, Type er forudsigere, og attributten fortjeneste er målet. Der er forskellige algoritmer til implementering af et beslutningstræ, men den bedste algoritme, der bruges til at opbygge et beslutningstræ, er ID3, der lægger vægt på grådig søgning. Beslutningstræet følger beslutningsinferensregel eller disjunktiv normal form (^).
Beslutningstræ
Oprindeligt betragtes al træningsattributten som roden. Ordreprioriteten for placering af attributterne som root udføres ved følgende fremgangsmåde. Denne proces er kendt for at vælge attributter for at identificere, hvilken attribut der er gjort til at være en rodnode på hvert niveau. Træet følger to trin: konstruktion af et træ, træbeskæring. Og dataene er opdelt i alle beslutningsnoder.
Informationsvindel
Det er målet for ændringen i entropi baseret på den uafhængige variabel. Beslutningstræet skal finde den højeste informationsgevinst.
Entropy
Entropi er defineret som for det endelige sæt, måling af tilfældighed i data eller begivenhedsforudsigelighed, hvis prøven er lignende værdier, er entropi nul, og hvis den er ligeligt delt med prøven, er den en.
Entropi til klassen
Hvor p er sandsynligheden for at få fortjeneste til at sige 'ja' og N er tab, siger 'nej'.
derfor entropi = 1
Når entropyværdien er beregnet, er det nødvendigt at bestemme en rodnode fra attributten.
Alders entropi
I henhold til datasættet for Life-attribut har vi gamle = 3 ned, midt = 2 ned og en op vedrørende fortjenstmærket.
Liv | Pi | ni | I (pi, ni) | |
Gammel | 0 | 3 | 0 | |
Mid | 2 | 2 | 1 | |
Ny | 3 | 0 | 0 |
Gevinst = klasse entropi - livets entropi = 1 - 0, 4 = 0, 6
Entropi (konkurrence) = 0, 87
Konkurrence | Pi | ni | I (pi, ni) | |
Ja | 1 | 3 | 0, 8 | |
Ingen | 4 | 2 | 0, 9 |
Gevinst = klasse entropi - livets entropi = 1 - 0, 87 = 0, 12
Nu opstår problemet i attributten Liv, hvor midten har lige stor sandsynlighed for både op og ned. derfor er entropi 1. ligeledes beregnes det for type attribut igen, entropien er 1 og gevinsten er 0. Nu er der oprettet en komplet beslutning om at få et nøjagtigt resultat for mellemværdien.
Fordele ved beslutningstræet
- De er lette at forstå, og de genererede regler er fleksible. Har lidt indsats for forberedelse af data.
- En visuel tilgang til at repræsentere beslutninger og resultater er meget nyttig.
- Beslutningstræet håndterer træningsdatasættet med fejl og manglende værdier.
- De kan håndtere diskret værdi og en numerisk attribut. Det fungerer kategoriske og kontinuerlige variabler til input og output.
- De er et nyttigt værktøj til forretningsområdet, der skal tage beslutninger efter analyse under visse betingelser.
Ulemper ved beslutningstræet
- Eleverne kan oprette et komplekst beslutningstræ afhængigt af træne data. denne proces betegnes som overfitting, en vanskelig proces i beslutningstræsmodeller.
- De værdier, der foretrækkes at være, er kategoriske, hvis det er kontinuerligt, mister beslutningstræet oplysninger, der fører til fejlbenyttelse. Eksponentiel beregningsvækst er højere under analysen.
- Mange klassetiketter fører til forkerte komplekse beregninger og giver lav forudsigelsesnøjagtighed af datasættet.
- Oplysninger opnået i DT-algoritmen giver et partisk svar på kategoriske højere værdier.
Konklusion
Afslutningsvis giver beslutningstræer en praktisk og nem metode til læring og stærkt kendt som effektive værktøjer til maskinlæring, da de på kort tid fungerer godt med store datasæt. Det er en læringsopgave, der bruger en statistisk tilgang til at gøre en generel konklusion. Nu forstås det bedre, hvorfor beslutningstræet bruges i forudsigelig modellering, og for dataforskerne er de det magtfulde værktøj.
Anbefalede artikler
Dette er en guide til oprettelse af et beslutningstræ. Her diskuterer vi, hvordan man opretter et beslutningstræ sammen med forskellige fordele og ulemper. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -
- Oversigt over beslutningstræet i R
- Hvad er beslutningstræealgoritmen?
- Introduktion til kunstig intelligensværktøj
- Top 10 spørgsmål til kunstig intelligens