HDFS-kommando - Grundlæggende til avanceret kommando med tip og tricks

Indholdsfortegnelse:

Anonim

Introduktion til HDFS-kommandoer

Big data er et ord for datasæt, der er så enorme eller sammensatte, at konventionel databehandlingsapplikationssoftware ikke er nok til at pakt med dem. Hadoop er en open source, Java-baseret programmeringsramme, der kæder behandlings- og opbevaringspladsen til enormt voluminøse datasæt i et formidlet computermiljø. Apache-software foundation er nøglen til installation af Hadoop

Funktioner ved HDFS:

  • HDFS kører på Master / slavearkitektur
  • Filer bruges af HDFS til lagring af brugerrelaterede data
  • har et kæmpe sæt af mapper og filer, der er gemt i et hierarkisk format.
  • På indersiden rives en fil i mindre blokke, og disse blokke gemmes i et sæt Datanoder.
  • Namenode og Datanode er den del af software, der er beregnet til at køre på produktmaskiner, der klassisk kører på GNU / Linux OS.

Namenode:

  • Her vedligeholdes filsystemet ved hjælp af navneknudepunkt
  • Namenode er også ansvarlig for at logge alle ændringer i filsystemet og opretholder desuden et billede af komplet filsystemets navneområde og fil Blockmap i hukommelsen
  • Checkpointing udføres med jævne mellemrum. dermed let gendanne til scenen, før nedbrudspunktet kan opnås her.

Datanode:

  • En Datanode indeholder data i filer i det lokale filsystem
  • For at intime om dens eksistens sender dataknuden hjerteslag til navnekoden
  • Der genereres en blokrapport for hver 10. hjerteslag
  • Replikation er implicit på de data, der er gemt i disse datakoder

Datareplikering:

  • Her danner sekvensen af ​​blokke en fil med en standardblokstørrelse på 128 MB
  • Alle blokke i filen bortset fra den endelige er af samme størrelse.
  • Fra hver enkelt dataknudepunkt i klyngen modtager namenodeelementet et hjerteslag
  • BlockReport indeholder alle blokke på en Datanode.
  • har et kæmpe sæt af mapper og filer, der er gemt i et hierarkisk format.
  • På indersiden rives en fil i mindre blokke, og disse blokke gemmes i et sæt Datanoder.
  • Namenode og Datanode er den del af software, der er beregnet til at køre på produktmaskiner, der klassisk kører på GNU / Linux OS.

Job tracker: JobTracker-debat til NameNode for at afslutte datapositionen. Find også de bedste TaskTracker-noder til at udføre opgaver baseret på datalokaliteten

Task tracker: En TaskTracker er en knude i klyngen, der accepterer opgaver - Kort, formindsk og bland blanding - fra en JobTracker.

Sekundær navneknudepunkt (eller) -kontrolnode : Henter EditLog fra navneknuden i regelmæssige intervaller og gælder for dets FS-billede. Og kopierer et færdiggjort FS-billede tilbage til navenoden under dens genstart. Sekundær navn node hele formålet er at have et checkpoint i HDFS.

Garn:

  • YARN har en central ressourcestyringskomponent, der administrerer ressourcer og tildeler ressourcerne til hver enkelt applikation.
  • Her er Ressourcemanager den master, der bedømmer ressourcerne, der er knyttet til klyngen, ressourceadministratoren er opviklet af to komponenter, applikationsadministratoren, og en planlægning af disse to komponenter sammen administrerer job på klyngesystemerne. en anden komponent kalder Node Manager (NM), som er ansvarlig for at styre brugernes job og arbejdsgang på en given knude.
  • En nøjagtig replikation af dataene i den aktive navnekode opbevares af Standby NameNode. Det fungerer som en slave, opretholder tilstrækkelig tilstand til at levere en hurtig failover, hvis det er nødvendigt.

Grundlæggende HDFS-kommandoer:

Grundlæggende HDFS-kommandoer

Sr.NoHDFS-kommandoejendomHDFS-kommando
1Print hadoop-version$ hadoop version
2Liste over indholdet af rodkataloget i HDFS$ hadoop fs -ls
3Rapporter den mængde plads, der er brugt og tilgængelig på et aktuelt monteret filsystem$ hadoop fs -df hdfs: /
4HDFS-balanceren genbalancerer data på tværs af DataNoder og flytter blokke fra overudnyttede til underudnyttede noder.$ hadoop balancer
5Hjælp-kommando$ hadoop fs-hjælp

Mellemliggende HDFS-kommandoer:

Mellemliggende HDFS-kommandoer

Sr.NoHDFS-kommandoejendomHDFS-kommando
6opretter et bibliotek på den specificerede HDFS-placering$ hadoop fs -mkdir / bruger / cloudera /
7Kopierer data fra et sted til et andet$ hadoop fs - inputdata / sample.txt / bruger / træning / hadoop
8Se den plads, der besættes af et bestemt bibliotek i HDFS$ hadoop fs -du -s -h / bruger / cloudera /
9Fjern et bibliotek i Hadoop$ hadoop fs -rm -r / bruger / cloudera / pigjobs /
10Fjerner alle filerne i det givne bibliotek$ hadoop fs -rm -skipTrash hadoop / retail / *
11At tømme papirkurven$ hadoop fs-udsving
12kopierer data fra og til lokalt til HDFS$ hadoop fs-kopiFromLocal / home / cloudera / prøve / / user / cloudera / flume /

$ hadoop fs -copyToLocal / bruger / cloudera / pigjobs / * / home / cloudera / oozie /

Avancerede HDFS-kommandoer:

Mellemliggende HDFS-kommandoer

Sr.NoHDFS-kommandoejendomHDFS-kommando
13ændre filtilladelser$ sudo -u hdfs hadoop fs -chmod 777 / bruger / cloudera / flume /
14indstil replikeringsfaktor for en fil$ hadoop fs -setrep -w 5 / bruger / cloudera / pigjobs /
15Tæl antallet af mapper, filer og bytes under hdfs$ hadoop fs-antal hdfs: /
16Gør namenode til at være sikker tilstand$ sudo -u hdfs hdfs dfsadmin -safemode orlov
17Hadoop formaterer en navnekode$ hadoop namenode-format

HDFS tip og tricks:

1) Vi kan opnå hurtigere gendannelse, når antallet af klynknoder er højere.

2) Stigningen i opbevaring pr. Enhedstid øger gendannelsestiden.

3) Namenode-hardware skal være meget pålideligt.

4) Sofistikeret overvågning kan opnås gennem ambari.

5) Systemsult kan reduceres ved at øge reduktionstallet.

Anbefalede artikler

Dette har været en guide til HDFS-kommandoer. Her diskuterede vi HDFS-kommandoer, funktioner, dens grundlæggende, mellemliggende og avancerede kommandoer med billedlig repræsentation, tip og tricks om kommandoerne. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Knudekommandoer
  2. Matlab-kommandoer
  3. Fordele ved DBMS
  4. Hadoop økosystem
  5. Hadoop fs kommandoer