Introduktion til HDFS-kommandoer
Big data er et ord for datasæt, der er så enorme eller sammensatte, at konventionel databehandlingsapplikationssoftware ikke er nok til at pakt med dem. Hadoop er en open source, Java-baseret programmeringsramme, der kæder behandlings- og opbevaringspladsen til enormt voluminøse datasæt i et formidlet computermiljø. Apache-software foundation er nøglen til installation af Hadoop
Funktioner ved HDFS:
- HDFS kører på Master / slavearkitektur
- Filer bruges af HDFS til lagring af brugerrelaterede data
- har et kæmpe sæt af mapper og filer, der er gemt i et hierarkisk format.
- På indersiden rives en fil i mindre blokke, og disse blokke gemmes i et sæt Datanoder.
- Namenode og Datanode er den del af software, der er beregnet til at køre på produktmaskiner, der klassisk kører på GNU / Linux OS.
Namenode:
- Her vedligeholdes filsystemet ved hjælp af navneknudepunkt
- Namenode er også ansvarlig for at logge alle ændringer i filsystemet og opretholder desuden et billede af komplet filsystemets navneområde og fil Blockmap i hukommelsen
- Checkpointing udføres med jævne mellemrum. dermed let gendanne til scenen, før nedbrudspunktet kan opnås her.
Datanode:
- En Datanode indeholder data i filer i det lokale filsystem
- For at intime om dens eksistens sender dataknuden hjerteslag til navnekoden
- Der genereres en blokrapport for hver 10. hjerteslag
- Replikation er implicit på de data, der er gemt i disse datakoder
Datareplikering:
- Her danner sekvensen af blokke en fil med en standardblokstørrelse på 128 MB
- Alle blokke i filen bortset fra den endelige er af samme størrelse.
- Fra hver enkelt dataknudepunkt i klyngen modtager namenodeelementet et hjerteslag
- BlockReport indeholder alle blokke på en Datanode.
- har et kæmpe sæt af mapper og filer, der er gemt i et hierarkisk format.
- På indersiden rives en fil i mindre blokke, og disse blokke gemmes i et sæt Datanoder.
- Namenode og Datanode er den del af software, der er beregnet til at køre på produktmaskiner, der klassisk kører på GNU / Linux OS.
Job tracker: JobTracker-debat til NameNode for at afslutte datapositionen. Find også de bedste TaskTracker-noder til at udføre opgaver baseret på datalokaliteten
Task tracker: En TaskTracker er en knude i klyngen, der accepterer opgaver - Kort, formindsk og bland blanding - fra en JobTracker.
Sekundær navneknudepunkt (eller) -kontrolnode : Henter EditLog fra navneknuden i regelmæssige intervaller og gælder for dets FS-billede. Og kopierer et færdiggjort FS-billede tilbage til navenoden under dens genstart. Sekundær navn node hele formålet er at have et checkpoint i HDFS.
Garn:
- YARN har en central ressourcestyringskomponent, der administrerer ressourcer og tildeler ressourcerne til hver enkelt applikation.
- Her er Ressourcemanager den master, der bedømmer ressourcerne, der er knyttet til klyngen, ressourceadministratoren er opviklet af to komponenter, applikationsadministratoren, og en planlægning af disse to komponenter sammen administrerer job på klyngesystemerne. en anden komponent kalder Node Manager (NM), som er ansvarlig for at styre brugernes job og arbejdsgang på en given knude.
- En nøjagtig replikation af dataene i den aktive navnekode opbevares af Standby NameNode. Det fungerer som en slave, opretholder tilstrækkelig tilstand til at levere en hurtig failover, hvis det er nødvendigt.
Grundlæggende HDFS-kommandoer:
Grundlæggende HDFS-kommandoer |
||
Sr.No | HDFS-kommandoejendom | HDFS-kommando |
1 | Print hadoop-version | $ hadoop version |
2 | Liste over indholdet af rodkataloget i HDFS | $ hadoop fs -ls |
3 | Rapporter den mængde plads, der er brugt og tilgængelig på et aktuelt monteret filsystem | $ hadoop fs -df hdfs: / |
4 | HDFS-balanceren genbalancerer data på tværs af DataNoder og flytter blokke fra overudnyttede til underudnyttede noder. | $ hadoop balancer |
5 | Hjælp-kommando | $ hadoop fs-hjælp |
Mellemliggende HDFS-kommandoer:
Mellemliggende HDFS-kommandoer |
||
Sr.No | HDFS-kommandoejendom | HDFS-kommando |
6 | opretter et bibliotek på den specificerede HDFS-placering | $ hadoop fs -mkdir / bruger / cloudera / |
7 | Kopierer data fra et sted til et andet | $ hadoop fs - inputdata / sample.txt / bruger / træning / hadoop |
8 | Se den plads, der besættes af et bestemt bibliotek i HDFS | $ hadoop fs -du -s -h / bruger / cloudera / |
9 | Fjern et bibliotek i Hadoop | $ hadoop fs -rm -r / bruger / cloudera / pigjobs / |
10 | Fjerner alle filerne i det givne bibliotek | $ hadoop fs -rm -skipTrash hadoop / retail / * |
11 | At tømme papirkurven | $ hadoop fs-udsving |
12 | kopierer data fra og til lokalt til HDFS | $ hadoop fs-kopiFromLocal / home / cloudera / prøve / / user / cloudera / flume /
$ hadoop fs -copyToLocal / bruger / cloudera / pigjobs / * / home / cloudera / oozie / |
Avancerede HDFS-kommandoer:
Mellemliggende HDFS-kommandoer |
||
Sr.No | HDFS-kommandoejendom | HDFS-kommando |
13 | ændre filtilladelser | $ sudo -u hdfs hadoop fs -chmod 777 / bruger / cloudera / flume / |
14 | indstil replikeringsfaktor for en fil | $ hadoop fs -setrep -w 5 / bruger / cloudera / pigjobs / |
15 | Tæl antallet af mapper, filer og bytes under hdfs | $ hadoop fs-antal hdfs: / |
16 | Gør namenode til at være sikker tilstand | $ sudo -u hdfs hdfs dfsadmin -safemode orlov |
17 | Hadoop formaterer en navnekode | $ hadoop namenode-format |
HDFS tip og tricks:
1) Vi kan opnå hurtigere gendannelse, når antallet af klynknoder er højere.
2) Stigningen i opbevaring pr. Enhedstid øger gendannelsestiden.
3) Namenode-hardware skal være meget pålideligt.
4) Sofistikeret overvågning kan opnås gennem ambari.
5) Systemsult kan reduceres ved at øge reduktionstallet.
Anbefalede artikler
Dette har været en guide til HDFS-kommandoer. Her diskuterede vi HDFS-kommandoer, funktioner, dens grundlæggende, mellemliggende og avancerede kommandoer med billedlig repræsentation, tip og tricks om kommandoerne. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -
- Knudekommandoer
- Matlab-kommandoer
- Fordele ved DBMS
- Hadoop økosystem
- Hadoop fs kommandoer