Envejsanalyse af variation

Variansanalyse skrevet kort som ANOVA er den procedure, hvorpå vi kan sammenligne midler på tværs af tre eller flere populationer. Statistisk rammer vi to hypoteser, nulhypotesen: "Alle befolkningsmidler er lige" og den alternative hypotese: "Ikke alle befolkningsværdier er ens". Det gør det muligt for os at teste ligheden mellem flere midler i en test snarere end at sammenligne to midler ad gangen, som er umuligt, når der er flere grupper. I dette emne skal vi lære om One Way ANOVA i R.

Envejsanalyse af variation hjælper os med kun at analysere en faktor eller variabel. F.eks. Findes der fem regioner, og vi vil kontrollere, om de daglige gennemsnitlige nedbørsmængder for alle fem regioner er ens, eller om de er forskellige. I dette tilfælde er der kun én faktor, der er region, da vi er nødt til at kontrollere, om regionale faktorer påvirker regnmængden og mønsteret.

Antagelser om analyse af variation

Følgende er de antagelser, der skal opfyldes for at anvende envejs ANOVA:

  • De populationer, hvorfra prøverne er trukket, distribueres normalt.
  • De populationer, hvorfra prøverne er trukket, har den samme varians eller standardafvigelse.
  • Prøverne trukket fra forskellige populationer er tilfældige og uafhængige.

Hvordan fungerer envejs ANOVA i R?

Til vores demonstration bruger vi de data, der indeholder to variabler, nemlig. Brand og salg. Der er fire mærker - ATB, JKV, MKL og PRQ. Der gives månedligt salg for disse mærker. Vi er nødt til at kontrollere, om gennemsnittet for salg på tværs af de fire mærker er ens, eller om de er forskellige fra hinanden. For at verificere dette, bruger vi envejs ANOVA. Den trinvise procedure til implementering af ANOVA er som følger:

  1. Først skal du importere dataene til R. Dataene er til stede i et CSV-format. Så for at importere den, bruger vi funktionen read.csv ().

  1. Se de første par poster med dataene. Dette er vigtigt for at kontrollere, om dataene er korrekt importeret til R. Tilsvarende anvender vi en oversigt () -funktion over dataene for at få grundlæggende indsigt i dataene.

  1. Hver gang vi bruger de variabler, der findes i datasættet, er vi nødt til eksplicit at nævne navnet på datasættet som brand_sales_data $ Brand eller brand_sales_data $ Sales. For at overvinde dette skal vi anvende vedhæftningsfunktionen. Funktionen skal anvendes som nedenfor.

  1. Lad os samle salg efter brand ved hjælp af middel- eller standardafvigelse. Aggregation hjælper os med at få en grundlæggende idé om data.

Ovenstående resultat viser midler for de fire forskellige grupper er ikke ens. JKV har det højeste gennemsnitlige salg.

Som det kan ses ovenfor, viser standardafvigelserne på tværs af de fire grupper ingen væsentlig forskel, og det er højest for mærket MKL.

  1. Nu vil vi anvende ANOVA til validering, hvis midlerne i de tre populationer er ens, eller der er nogen forskel.

Fra resultaterne ovenfor kan vi se, at ANOVA-testen for Brand er signifikant på grund af p <0, 0001. Vi kan fortolke, at alle mærker ikke har de samme præferenceniveauer på markedet, som påvirker salget af disse mærker på markedet. Dette kan skyldes mange faktorer og smag for folk for et bestemt mærke.

  1. Ovenstående resultat kan visualiseres, og det gør fortolkningen let. Til det vil vi bruge plotmeans () -funktionen i gplots () -biblioteket. Det fungerer som nedenfor:

Som vi kan se ovenfor, giver plotmeans () -funktionen i gplots-pakken os mulighed for visuelt at sammenligne midlerne fra forskellige grupper. Vi kan se, at midlerne ikke er ens på tværs af de fire mærker. Midlerne til mærkerne MKL og PRQ falder imidlertid tæt.

  1. Ovenstående analyse hjælper os med at kontrollere, om mærker har lige midler eller ej, men det er vanskeligt at sammenligne parvis med det. Vi kan foretage parvise sammenligninger af forskellige mærker ved hjælp af TukeyHSD () -funktionen, som gør det lettere at kontrollere, om et mærke er væsentligt anderledes end et af de resterende.

Parvis sammenligning som ovenfor. Forskellen mellem to grupper er signifikant, hvis p <0, 001. Som vi kan se ovenfor, er p-værdien for PRQ-MKL-par meget højere, hvilket indikerer, at de to mærker ikke er væsentligt forskellige fra hinanden.

For at visualisere parvise sammenligninger vil vi kortlægge ovenstående resultater som nedenfor:

Den første parfunktion drejer aksemærkaterne, så de er vandrette, og den anden par-sætning justerer margenerne, så etiketterne passer korrekt, ellers går de ud af skærmen.

Ovenstående graf giver god indsigt, men vi kan plotte resultaterne i form af boxplot for at få bedre indsigt til klarere fortolkning som vist nedenfor.

Funktionen glht (), der bruges ovenfor, leveres med et omfattende sæt metoder til sammenligning af flere midler. Bemærk, niveauindstillingen i cld () -funktionen angår signifikansniveauet, f.eks. 0, 05 eller 95 procents tillid)

Ved hjælp af ovenstående plot bliver det let at sammenligne midler på tværs af grupperne, og det letter også systematisk fortolkning. Der er bogstaver over toppen af ​​plottet for hvert brand. Hvis to mærker har samme bogstav, har de ikke væsentligt forskellige midler som mærker MKL og PRQ i dette tilfælde, der har samme bogstav b.

  1. Indtil nu implementerede vi ANOVA og brugte grunde til at visualisere resultaterne. Det er dog lige så vigtigt at teste antagelserne. For det første validerer vi antagelsen om normalitet.

Bilpakken i R giver funktionen qqPlot (). Ovenstående plot viser, at data falder inden for 95% konfidensindhylling. Dette indikerer, at normalitetsantagelsen næsten er opfyldt.

Dernæst validerer vi, hvis afvigelserne på tværs af mærkerne er ens. Til dette vil vi bruge Bartlett's test

P-værdien viser, at afvigelser på tværs af gruppen ikke adskiller sig markant

Sidst men ikke mindst skal vi kontrollere, om der er nogen outliers, der påvirker ANOVA-resultater.

Fra ovenstående resultat kan vi se, at der ikke er nogen indikation af outliers i dataene (NA forekommer, når p> 1)

Under hensyntagen til resultaterne af QQ Plot, Bartlett's test og Outlier-test, kan vi sige, at data opfylder alle antagelser fra ANOVA, og de opnåede resultater er gyldige.

Konklusion - One Way ANOVA i R

ANOVA er en meget praktisk statistisk teknik, der kan bruges til at sammenligne midler på tværs af flere populationer. R tilbyder et omfattende udvalg af pakker til implementering af ANOVA, udlede resultater og validerer antagelserne. I R kan statistiske resultater fortolkes i visuelle former, der giver dybere indsigt.

Anbefalede artikler

Dette er en vejledning til One Way ANOVA i R. Her diskuterer vi hvordan One-Way ANOVA fungerer og antagelserne om analyse af variation. Du kan også se på de følgende artikler for at lære mere -

  1. R Programmeringssprog
  2. Regression vs ANOVA
  3. Sådan tolkes resultater ved hjælp af ANOVA-test
  4. GLM i R

Kategori: