Introduktion til multivariat regression
- Udtrykket i multivariat betyder model med mere end en variabel
- Multivariat regression er en del af multivariat statistik.
- Multivariat regression er en teknik, der bruges til at estimere en enkelt regressionsmodel, når der er mere end én udgangsvariabel.
- Multivariat regression ofte brugt en maskinlæringsalgoritme, som er en Supervised Learning-algoritme.
Hvorfor en enkelt regressionsmodel ikke fungerer?
- Som kendt er regressionsanalyse hovedsageligt brugt til at undersøge forholdet mellem en afhængig og uafhængig variabel.
- I den virkelige verden er der mange situationer, hvor mange uafhængige variabler er indflydelsesrige af andre variabler, for at vi skal flytte til forskellige muligheder end en enkelt regressionsmodel, der kun kan tage en uafhængig variabel.
Hvad er multivariat regression?
- Multivariat regression hjælper med at måle vinklen på mere end en uafhængig variabel og mere end en afhængig variabel. Den finder forholdet mellem variablerne (Lineært relateret).
- Det bruges til at forudsige opførsel af udgangsvariablen og sammenhængen mellem forudsigelsesvariabler og hvordan forudsigelsesvariablerne ændrer sig.
- Det kan anvendes til mange praktiske områder som politik, økonomi, medicinsk, forskningsarbejde og mange forskellige slags virksomheder.
- Multivariat regression er en simpel udvidelse af multiple regression.
- Multipel regression bruges til at forudsige og udveksle værdierne for en variabel baseret på den samlede værdi af mere end en værdi af prediktorvariabler.
- Først vil vi tage et eksempel for at forstå brugen af multivariat regression, hvorefter vi ser efter løsningen på dette problem.
Eksempler på multivariat regression
- Hvis e-handelsselskab har indsamlet dataene fra sine kunder, såsom alder, ønsker en købt historie for en kunde, køn og virksomhed at finde forholdet mellem disse forskellige afhængige personer og uafhængige variabler.
- En gymnastiktræner har indsamlet dataene fra sin klient, der kommer til hans motionscenter og ønsker at observere nogle ting hos klienten, som er sundhed, spisevaner (hvilken type produktklient, der forbruger hver uge), kundens vægt. Dette ønsker at finde en forbindelse mellem disse variabler.
Som du har set i de ovenstående to eksempler, at der i begge situationer er mere end en variabel, nogle er afhængige og nogle er uafhængige, så en enkelt regression er ikke nok til at analysere denne type data.
Her er den multivariate regression, der kommer ind i billedet.
1. Valg af funktion -
Valget af funktioner spiller den vigtigste rolle i multivariat regression.
At finde den funktion, der er nødvendig for at finde, hvilken variabel der er afhængig af denne funktion.
2. Normaliseringsfunktioner -
For bedre analysefunktioner er det nødvendigt at skalere for at få dem ind i et specifikt interval. Vi kan også ændre værdien af hver funktion.
3. Vælg Tabsfunktion og hypotese -
Tabsfunktionen beregner tabet, når hypotesen forudsiger den forkerte værdi.
Og hypotese betyder forudsagt værdi fra funktionsvariablen.
4. Indstil hypoteseparametre -
Indstil hypoteseparameteren, der kan reducere tabsfunktionen og kan forudsige.
5. Minimer tabsfunktionen-
Minimering af tabet ved hjælp af en vis tab af minimeringsalgoritme og brug det over datasættet, hvilket kan hjælpe med at justere hypoteseparametrene. Når tabet er minimeret, kan det bruges til forudsigelse.
Der er mange algoritmer, der kan bruges til at reducere tabet, såsom gradientafstamning.
6. Test hypotesefunktionen -
Kontroller hypotese-funktionen, hvor korrekt den forudsiger værdier, test den på testdata.
Trin for at følge arkivet Multivariat regression
1) Importer de nødvendige fælles biblioteker såsom numpy, pandaer
2) Læs datasættet ved hjælp af pandas 'bibliotek
3) Som vi har diskuteret ovenfor, er vi nødt til at normalisere dataene for at få bedre resultater. Hvorfor normalisering, fordi hver funktion har et andet interval af værdier.
4) Opret en model, der kan arkivere regression, hvis du bruger lineær regression, brug ligning
Y = mx + c
Hvor x gives input, m er en skrålinie, c er konstant, y er outputvariablen.
5) Træn modellen vha. Hyperparameter. Forstå hyperparameteret, der er indstillet i henhold til modellen. Såsom indlæringshastighed, epoker, iterationer.
6) Som beskrevet ovenfor, hvordan hypotesen spiller en vigtig rolle i analysen, kontrollerer hypotesen og måler tab / omkostningsfunktionen.
7) Tab / omkostningsfunktionen vil hjælpe os med at måle, hvordan hypoteseværdien er sand og nøjagtig.
8) Minimer tab / omkostningsfunktionen vil hjælpe modellen med at forbedre forudsigelsen.
9) Tabsligningen kan defineres som en sum af den kvadratiske forskel mellem den forudsagte værdi og den faktiske værdi divideret med dobbelt så stort som datasættet.
10) Brug af gradientafstigning for at minimere funktionen Tab / omkostning, den starter med en tilfældig værdi og finder det punkt, hvor deres tabsfunktion er mindst.
Ved at følge ovenstående kan vi implementere multivariat regression
Fordele ved multivariat regression
- Den multivariate teknik gør det muligt at finde et forhold mellem variabler eller funktioner
- Det hjælper med at finde en sammenhæng mellem uafhængige og afhængige variabler.
Dis-fordele ved multivariat regression
- Multivariate teknikker er en lidt kompleks og matematisk beregning på højt niveau
- Den multivariate regressionsmodels output er ikke let at fortolke, og nogle gange fordi nogle tab og fejloutput ikke er identiske.
- Det kan ikke anvendes på et lille datasæt, fordi resultaterne er mere ligetil i større datasæt.
Konklusion - multivariat regression
- Hovedformålet med at bruge multivariat regression er, når du har mere end én variabler, der er tilgængelige, og i dette tilfælde fungerer en enkelt lineær regression ikke.
- Hovedsagelig har den virkelige verden flere variabler eller funktioner, når flere variabler / funktioner kommer i spil multivariat regression bruges.
Anbefalede artikler
Dette er en guide til den multivariate regression. Her diskuterer vi introduktionen, eksempler på multivariat regression sammen med fordelene og dis fordelene. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -
- Regressionsformel
- Data Science Course i London
- SAS-operatører
- Datavidenskabsteknikker
- Variabler i JavaScript
- Topforskelle mellem regression vs klassificering