Introduktion til Scatterplot i R

  • R er et open source-programmeringssprog, der bruges til datastatistikker og dataanalyse. Med den stigende popularitet inden for datavidenskab har R også vundet popularitet. Det bruges hovedsageligt af datastatistikere og datearbejdere til at udtrække værdifuld information fra data. R er et tolket sprog og har en kommandolinjegrænseflade, men der er mange grafiske brugergrænseflader til rådighed for at gøre udviklerens job lettere. R tilbyder en lang række biblioteker til implementering af statistikker og grafiske teknikker. R tilbyder statisk grafik; det giver brugeren mulighed for at opbygge en lagdelt graf. Således producerer det grafer af publikationskvalitet og giver en bedre repræsentation af information.
  • R tilbyder et enormt sæt biblioteker til grafisk implementering, men mest populært er “ggplot2”. GGPlot2 en implementering af "Grammar of graphics", som gør oprettelsen af ​​komplekse grafer enkel. Det giver et programmatisk interface til at specificere variabler, deres placering, grafens farve, graftyper og andre visualiseringsegenskaber. Det giver dig mulighed for at opbygge grafer trin for trin, så du kan oprette lag for omfattende fleksibilitet og publikationskvalitet.
  • En sådan type graf er Scatterplot i R. Scatterplot i R, også kaldet et scatter diagram, som er en type graf, der viser sammenhængen mellem to variabler. Det viser datapunkterne i form af prikker. Det kan trækkes mellem en kontinuert uafhængig variabel og en anden variabel, der afhænger af den forrige variabel eller to kontinuerlige uafhængige variabler. Korrelation kan være positiv, negativ eller null. Hvis hældningen på grafen er fra nederste venstre til øverste højre, er korrelationen positiv. Hvis skråningen er fra øverste venstre til nederste højre, er korrelationen negativ, eller med andre ord stigning i værdien af ​​en variabel vil falde i værdien af ​​en anden variabel.

Syntaks: Der er mange pakker i R til grafer, derfor er der mange funktioner til at oprette en Scatterplot i R. Den mest basale og enkle funktion er

plot (x, y)

hvor

x betegner den vandrette akse eller den uafhængige kontinuerlige variabel.

y betegner den lodrette akse eller den afhængige variabel.

Der er mange andre parametre, som plot-funktionen skal gøre for at gøre grafen let at forstå.

Nedenfor er nogle med en definition:

  • main: tilføjer en titel til grafen
  • xlab: tilføj en etiket til x-aksen
  • ylab: tilføjer en etiket til y-aksen
  • xlim: specificerer rækkevidden for x-aksen
  • ylim: specificerer rækkevidden for y-aksen
  • pch: angiver formen på punkter i scatter plot
  • cex: angiver størrelsen på punkter
  • col: definerer farven på punkter

En Scatterplot i R kan også oprettes vha. Ggplot2-pakken. For dette skal vi først installere og indlæse ggplot2-pakken. Efter tilføjelse af pakken til den aktuelle session nedenfor kan kommandoen bruges til at oprette en Scatterplot i R.

ggplot (datasæt, aes (x, y, farve, form)) + geom_poin () + laboratorier (x, y, titel)

hvor

  • datasættet er det datasæt, som scatterplot skal oprettes til.
  • aes () er æstetisk kortlægning i en graf. Den beskriver, hvordan variabler er kortlagt på grafen.
  • x er den vandrette akse eller den uafhængige kontinuerlige variabel.
  • y er den lodrette akse eller den afhængige variabel.
  • farve er at tilføje farve til punkter baseret på gruppevariabel.
  • formen bruges til at indstille form baseret på gruppevariabel.
  • + tegn angiver, at kommandoen fortsætter.
  • geom_point () er funktion til scatter plot.
  • labs (x, y, title): tilføj x label, y label og title til graf.

Opret Scatterplot I R

For at oprette en Scatterplot i R, skal vi først indlæse datasættet. Her bruger vi datasæt (mtcars) leveret af R. Først indlæses datasættet i den aktuelle session ved hjælp af kommandoen nedenfor

data (iris)

Når datasættet er indlæst, kan du se dataene for at få en grundlæggende forståelse af typen af ​​data og kolonner i det ved hjælp af kommandoen nedenfor.

iris

Efter at have fået en grundlæggende forståelse af data, kan vi oprette en simpel scatterplot ved hjælp af plotfunktion

plot (iris $ Sepal. Længde, iris $ Sepal. Bredde, xlim = c (4, 0, 9, 0), ylim = c (2, 0, 5, 0))

Tilføjelse af etiketter for at gøre grafen læsbar

plot (iris $ Sepal. Længde, iris $ Sepal. Bredde, xlim = c (4, 0, 9, 0), ylim = c (2, 0, 4, 0), xlab = “Sepal længde”, ylab = “Sepal bredde”, hoved = “Bredde vs længde ”)

Tilføjelse af nogle flere parametre for at gøre grafen mere attraktiv

plot (iris $ Sepal. Længde, iris $ Sepal. Bredde, xlim = c (4, 0, 9, 0), ylim = c (2, 0, 4, 0), xlab = “Sepal længde”, ylab = “Sepal bredde”, hoved = “Bredde vs længde ”, pch = 8, cex = 1, 5, col = 6)

Bortset fra disse 2-D-plot, kan matrix-plot og 3D-plot også oprettes i R.

Scatterplot Matrix

Når vi har mere end to variabler i et datasæt, og vi ønsker at finde en korrelation mellem hver variabel og alle andre variabler, bruges scatterplot-matrixen. Den mest basale og enkle kommando til scatterplot-matrix er:

par (~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = iris, main = ”Scatterplot Matrix”)

Ovenstående graf viser sammenhængen mellem vægt, mpg, dsp og cyl.

Scatterplot 3D

Nogle gange giver en 3-dimensionel graf en bedre forståelse af data. For denne R indeholder flere pakker, en af ​​dem er “scatterplot3d”. Nedenfor er kommandoerne til at installere “scatterplot3d” i R-arbejdsområdet og indlæse det i den aktuelle session

install.packages ( ”scatterplot3d”)

bibliotek (scatterplot3d)

Efter indlæsning af biblioteket opretter udførelsen af ​​nedenstående kommandoer en 3-D scatterplot.

vedhæfte (iris)

scatterplot3d (Sepal.Length, Sepal.Width, Petal.Length, main = “3D Scatterplot”)

Bortset fra dette er der mange andre måder at skabe en 3-dimensionel. Brugere kan også tilføje detaljer som farve, titler for at gøre grafen bedre. Bruger kan også oprette interaktiv 3D-scatterplot ved hjælp af “plot3D (x, y, z)” -funktion leveret af “rgl” -pakke. Denne funktion opretter en spinding 3D-spredningsdiagram, der kan roteres ved hjælp af en mus. Således giver du et fuldt overblik over sammenhængen mellem variablerne.

Konklusion

R er et af de mest berømte sprog til implementering af grafiske teknikker brugt af dataforskere. Det giver en bred vifte af pakker og biblioteker til grafik og en bedre forståelse af data. "Gglpot2", "ggvis", "rgl", "plot3d", "gitter", "animation", "gganimate", "cairo" er nogle af de pakker, der leveres af R.

En scatter-plot er den enkleste måde at få en bedre forståelse af data på. Ved hjælp af denne visualisering kan brugeren lære, hvordan variabler er relateret til hinanden, hvordan ændring af værdien af ​​en variabel vil ændre værdien af ​​andre variabler osv. Hældningen i diagrammet fortæller om det positive og negative forhold mellem variablerne.

Anbefalede artikler

Dette er en guide til Scatterplot i R. Her diskuterer vi en introduktion, scatterplot matrixer, scatterplot 3D, hvordan man skaber scatterplot? sammen med passende eksempler. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Hvad er GraphQL
  2. Scrum Framework
  3. R Interview spørgsmål
  4. Introduktion til binomial distribution i R

Kategori: