Introduktion til regressionsanalyse
Regressionsanalyse er en forudsigelig modelleringsalgoritme til at forudsige resultatet af en variabel og identificere de variabler (uafhængige variabler), der bidrager til eller afhænger af udgangsvariablen (mål eller afhængig variabel). Enkelt sagt er det en teknik at finde forholdet mellem de uafhængige og afhængige variabler for at producere resultatet. Det er enkelt at bruge og fortolke resultatet. Der er mange typer af regressionsteknikker, der er vidt brugt i forskellige sektorer. Nogle af eksemplerne på regression er at forudsige en medarbejders løn eller en virksomheds indtægter om et år.
Hvordan virkede regressionsanalysen?
Der er mange typer regressionsteknikker, der bruges i betragtning af forskellige faktorer og resultater.
- Lineær regression
- Logistisk regression
- Lasso / Ridge Regression
- Polynomial regression
Nogle af de vigtige statistiske regressionstest, der anvendes i forskellige sektorer, er givet nedenfor:
1. Lineær regression
Dette bruges, når udgangsvariablen er lineært afhængig af de uafhængige variabler. Det bruges normalt, når vi ikke har et kæmpe datasæt. Det er også følsomt over for outliers, så hvis datasættet indeholder outliers end det er bedre at behandle dem, før de anvender lineær regression. Der er enkelt- og multivariabel regressionsteknikker. Simpel lineær regression er analysen, når udgangsvariablen er lineært afhængig af en enkelt uafhængig variabel. Simpel lineær regression følger ligningen af en lige linje, der er givet nedenfor:
Y=mx+c
Hvor,
Y = Mål-, afhængig- eller kriterievariabel
x = Uafhængig eller prediktor variabel
m = Hældning eller regressionskoefficient
c = konstant
Multi-Variabel Lineær regression definerer forholdet mellem udgangsvariablen og mere end en uafhængig variabel. Det følger nedenstående ligning af en lige linje, hvor afhængige variabler er den lineære kombination af alle de uafhængige variabler:
Y= m1x1+m2x2+m3x3+…mnan+c
Hvor,
Y = Mål-, afhængig- eller kriterievariabel
x1, x2, x3 … xn = Uafhængige eller prediktive variabler
m1, m2, m3… mn = Hældning eller regressionskoefficienter for respektive variabler
c = konstant
Lineær regression følger princippet om Least Square-metoden. Denne metode angiver, at der vælges en linje med bedste pasform ved at minimere summen af firkantfejl. Linjen med bedste pasform vælges, hvor summen af kvadratisk fejl mellem de observerede data og linjen er mindst.
Der er nogle antagelser, der skal tages vare på, inden der anvendes lineær regression på datasættet.
- Der skal være et lineært forhold mellem uafhængige og afhængige variabler.
- Der skal ikke være nogen eller lidt multikollinearitet mellem de uafhængige variabler. Multikollinearitet er defineret som et fænomen, hvor der er en høj korrelation mellem de uafhængige variabler. Vi kan behandle multikollinearitet ved at droppe en variabel, der er korreleret eller behandle to variabler som en variabel.
- Homoscedasticitet: Det defineres som en tilstand, hvor fejlbetegnelser skal fordeles tilfældigt over linjen i regressionsanalysen. Der skal ikke være noget mønster på tværs af linjen, hvis der er et identificeret mønster, end dataene siges at være heteroscedastiske.
- Alle variabler skal normalt fordeles, hvilket vi ser ved at plotte et QQ-plot. Hvis dataene normalt ikke distribueres, kan vi bruge enhver ulineær transformationsmetode til at behandle dem.
Så det tilrådes altid at teste antagelserne, mens du anvender lineær regression for at få god nøjagtighed og korrekt resultat.
2. Logistisk regression
Denne regressionsteknik bruges, når mål- eller udgangsvariablen er kategorisk eller binær. Den største forskel mellem lineær og logistisk regression ligger i målvariablen, i lineær regression skal den være kontinuerlig, mens den i logistik skal være kategorisk. Resultatvariablen skal kun have to klasser, ikke mere end det. Nogle af eksemplerne er spamfiltre i e-mails (Spam eller ej), bedrageri afsløring (svig / ikke svig) osv. Det fungerer på sandsynlighedsprincippet. Det kan klassificeres i to kategorier ved at indstille tærskelværdien.
For eksempel: Hvis der er to kategorier A, B, og vi indstiller tærskelværdien som 0, 5, vil sandsynligheden over 0, 5 blive betragtet som en kategori og under 0, 5 vil være en anden kategori. Logistisk regression følger en S-formet kurve. Før vi bygger den logistiske regressionsmodel, er vi nødt til at opdele datasættet i træning og test. Da målvariablen er kategorisk eller binær, er vi nødt til at sikre, at der er en ordentlig klassebalance i træningssættet. Hvis der er klassebalance, end dette kan behandles ved hjælp af forskellige metoder som nævnt nedenfor:
- Up sampling: I denne teknik samples den klasse, der har færre rækker, for at matche antallet af rækker i majoritetsklassen.
- Ned-prøveudtagning: I denne teknik samples den klasse, der har flere rækker, ned for at matche antallet af rækker i mindretalsklassen.
Der er nogle vigtige punkter, som er vigtige at forstå, før man anvender den logistiske regressionsmodel på datasættene:
- Målvariablen skal være binær. Hvis der er mere end 2 klasser i målvariablen, end det kaldes Multinomial Logistic Regression .
- Der skal ikke være nogen eller lidt multikollinearitet mellem de uafhængige variabler.
- Det kræver en enorm prøvestørrelse for at arbejde.
- Der skal være et lineært forhold mellem de uafhængige variabler og oddsloggen.
Fordelene ved regression
Der er mange fordele ved regressionsanalyse. I stedet for at overveje vores magefølelse og forudsige resultatet, kan vi bruge regressionsanalyse og vise gyldige punkter for mulige resultater.
Nogle af dem er anført nedenfor:
- At forudsige salget og indtægterne i enhver sektor i kortere eller længere perioder.
- At forudsige kundens churn rate i enhver branche og finde ud af, hvilke egnede mål der er for at reducere dem.
- At forstå og forudsige lagerets lagerniveau.
- At finde ud af, om det vil være en succes at indføre et nyt produkt på markedet.
- At forudsige, om en kunde vil misligholde lån eller ej.
- At forudsige, om en kunde vil købe et produkt eller ej.
- Svig eller spam-detektion
Konklusion
Der er forskellige evalueringsmålinger, der overvejes efter anvendelse af modellen. Selvom der er antagelser, der kræves for at blive testet, før modellen anvendes, kan vi altid ændre variablerne ved hjælp af forskellige matematiske metoder og øge modelydelsen.
Anbefalede artikler
Dette er en guide til regressionsanalyse. Her diskuterer vi introduktionen til regressionsanalyse, hvordan fungerede regressionsanalysen og fordelene ved regression. Du kan også gennemgå vores andre foreslåede artikler for at lære mere–
- Lineær regressionsanalyse
- Dataanalyseværktøjer
- Værktøjer til regressionstest
- Big Data Analytics
- Regression vs klassificering | Top nøgleforskelle