Introduktion til datarammer i R
En dataramme er en 2D (todimensionel) matrixlignende struktur, hvor forskellige datatyper som tegn, numeriske osv. Accepteres. Datarammen er en undergruppe af en liste, der har hver komponent med samme længde. Grundlæggende er datarammen en tabel, hvor hver kolonne indeholder værdier for en variabel, og hver række indeholder et sæt værdier fra hver kolonne.
Der er nogle karakteristika ved datarammen.
- Kolonnenavnet er påkrævet
- Rækkenavne skal være unikke
- Antallet af varer i hver kolonne skal være det samme
Trin til oprettelse af datarammer i R
Lad os starte med at oprette en dataramme, som er forklaret nedenfor,
Trin 1: Opret en dataramme af en klasse i en skole.
Kode:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
Når vi kører denne kode, får vi en dataramme som denne.
Produktion:
Her i vores eksempel er datarammen meget lille, men i det virkelige liv, mens vi håndterer problemet, har vi masser af data. Så for at forstå strukturen af data videresender vi funktionen Str ().
Trin 2: Vi tilføjer nedenstående linje i vores kode.
Kode:
Str(tenthclass)
Når vi kører hele koden, får vi output.
Produktion:
Ovenstående output betyder, at vi har 5 observationer af 3 variabler. Derefter forklares det datatypen for hver variabel. Ligesom i vores eksempel er rullenummer et heltal, navnet er karakter og mærker er nummereret.
Når vi har forstået strukturen af dataene, vil vi videregive den nedenstående kode for at forstå dataene mere statistisk.
Trin 3: Nu bruger vi en oversigt () -funktion
Kode:
summary(tenthclass)
Produktion:
Resuméet giver en bedre forståelse af vores data. Det vil fortælle os at betyde, median, kvartil, Max og Min. Disse ting vil hjælpe os med at tage en bedre beslutning.
Sådan udpakkes data fra datarammer i R?
Her fortsætter vi ovenstående sag. Lad os antage, at vi vil vide navnet på den studerende i klassen tiende, bare navn. Så hvordan vi udtrækker?
Vores dataramme ser sådan ud.
rullenummer Navnmærker
1 1 John 77
2 2 Sam 87
3 3 Casey 45
4 4 Ronald 68
5 5 Mathew 95
For bare at få navnet som output, videresender vi følgende kode.
Kode:
onlyname = tenthclass$Name
print(onlyname)
Produktion:
Hvis vi her bryder koden, sætter vi bare dollartegnet mellem navnet på vores dataramme og navnet på den variabel, som vi ønsker som output.
Overvej nu en situation, læreren vil vide alt om rulle nummer 2 ligesom hvad hans navn er, og hvor meget han scorede.
Her har vi brug for alt om rulle nummer 2, så vi videregiver den nedenstående kode.
Kode:
result_rollnumber2 = tenthclass(c(2), c(1:3)) print(result_rollnumber2)
Produktion:
Udvid i datarammer
Datarammen kan øges og formindskes i størrelse ved at tilføje eller slette kolonner og rækker.
1. Tilføj række
Vi har to datarammer. Én dataramme hører til klasse tiende sektion A, og anden dataramme hører til klasse tiende sektion B. Disse forskellige sektioner flettes nu sammen til en enkelt klasse.
Eksempel 1: Klasse 10 A
Kode:
tenthclass_sectionA = data.frame(roll_number = c(1:5),
Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass_sectionA)
Produktion:
Eksempel 2: Klasse 10 B
Kode:
tenthclass_sectionB = data.frame(roll_number = c(6:10), Name = c("Ria", "Justin", "Bon", "Tim", "joe"),
Marks = c(68, 98, 54, 68, 42), stringsAsFactors = FALSE)
print(tenthclass_sectionB)
Produktion:
Eksempel nr. 3: rbind () -funktion
Nu skal vi slå disse begge klasser sammen i en enkelt klasse. Vi vil bruge rbind () -funktionen her. Den eneste begrænsning ved tilføjelse af en ny række er, at vi er nødt til at bringe de nye rækker ind i samme struktur som den eksisterende dataramme.
Kode:
new_tenthclass = rbind(tenthclass_sectionA, tenthclass_sectionB)
print(new_tenthclass)
Produktion:
2. Tilføj kolonne
Overvej nu et tilfælde, hvor vi er nødt til at tilføje blodgruppedetaljer for hver enkelt elev i klasse 10. Vi tilføjer en ny kolonne til den og navngiver den som "Blodgruppe".
Vores dataramme ser sådan ud.
Kode:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
Produktion:
Kode:
tenthclass$Blood_group = c("O", "AB", "B+", "A+", "AB")
print(tenthclass)
Produktion:
Slet række og kolonne fra dataramme
For at slette række og kolonne fra datarammen bruger vi følgende kodeimplementering.
1. Slet kolonne
Kode:
print(tenthclass)
Produktion:
I denne dataramme, hvis vi skal slette blodgruppevariablen (kolonne til højre), vil vi videregive koden nedenfor.
Kode:
tenthclass$Blood_group = NULL
print(tenthclass)
Produktion:
Ved at omgå NULL-kommandoen kan vi fjerne variablen direkte fra vores dataramme.
2. Slet række
Kode:
print(tenthclass)
Produktion:
Overvej nu en situation, hvor vi ikke har brug for mærker af John, så vi er nødt til at fjerne den øverste række.
Kode:
tenthclass = tenthclass(-1, ) print(tenthclass)
Produktion:
Opdater data i dataramme
Kode:
print(tenthclass)
Produktion:
Lad os antage, at Sam scorede 98 mærker, men pr. Vores datarammerker er 87. Så vi kan videregive nedenstående kode for at rette det.
Kode:
tenthclass$Marks(2) = 98
print(tenthclass)
Produktion:
Konklusion
Datarammer er en meget almindelig form for problemklaringen. Det er en liste over variablen med det samme antal rækker med unikke række-ID'er. Denne artikel hjælper os med at vide, hvordan vi kan tilføje en række, tilføje en kolonne, slette en række, slette en kolonne i datarammen og også fortæller, hvordan vi kan opdatere dataene i datarammen.
Anbefalede artikler
Dette er en guide til datarammer i R. Her diskuterer vi de forskellige trin til at oprette datarammer og hvordan man uddrager data fra datarammer i R. Du kan også se på følgende artikler for at lære mere-
- Top 5 datatyper i R
- Liste over nyttige R-pakker
- R CSV-filer
- R-programfunktioner - vigtighed
- Faktor i R med fordele