HDFS-kommando - Grundlæggende til avanceret kommando med tip og tricks

Introduktion til HDFS-kommandoer

Big data er et ord for datasæt, der er så enorme eller sammensatte, at konventionel databehandlingsapplikationssoftware ikke er nok til at pakt med dem. Hadoop er en open source, Java-baseret programmeringsramme, der kæder behandlings- og opbevaringspladsen til enormt voluminøse datasæt i et formidlet computermiljø. Apache-software foundation er nøglen til installation af Hadoop

Funktioner ved HDFS:

HDFS kører på Master / slavearkitektur
Filer bruges af HDFS til lagring af brugerrelaterede data
har et kæmpe sæt af mapper og filer, der er gemt i et hierarkisk format.
På indersiden rives en fil i mindre blokke, og disse blokke gemmes i et sæt Datanoder.
Namenode og Datanode er den del af software, der er beregnet til at køre på produktmaskiner, der klassisk kører på GNU / Linux OS.

Namenode:

Her vedligeholdes filsystemet ved hjælp af navneknudepunkt
Namenode er også ansvarlig for at logge alle ændringer i filsystemet og opretholder desuden et billede af komplet filsystemets navneområde og fil Blockmap i hukommelsen
Checkpointing udføres med jævne mellemrum. dermed let gendanne til scenen, før nedbrudspunktet kan opnås her.

Datanode:

En Datanode indeholder data i filer i det lokale filsystem
For at intime om dens eksistens sender dataknuden hjerteslag til navnekoden
Der genereres en blokrapport for hver 10. hjerteslag
Replikation er implicit på de data, der er gemt i disse datakoder

Datareplikering:

Her danner sekvensen af blokke en fil med en standardblokstørrelse på 128 MB
Alle blokke i filen bortset fra den endelige er af samme størrelse.
Fra hver enkelt dataknudepunkt i klyngen modtager namenodeelementet et hjerteslag
BlockReport indeholder alle blokke på en Datanode.
har et kæmpe sæt af mapper og filer, der er gemt i et hierarkisk format.
På indersiden rives en fil i mindre blokke, og disse blokke gemmes i et sæt Datanoder.
Namenode og Datanode er den del af software, der er beregnet til at køre på produktmaskiner, der klassisk kører på GNU / Linux OS.

Job tracker: JobTracker-debat til NameNode for at afslutte datapositionen. Find også de bedste TaskTracker-noder til at udføre opgaver baseret på datalokaliteten

Task tracker: En TaskTracker er en knude i klyngen, der accepterer opgaver - Kort, formindsk og bland blanding - fra en JobTracker.

Sekundær navneknudepunkt (eller) -kontrolnode : Henter EditLog fra navneknuden i regelmæssige intervaller og gælder for dets FS-billede. Og kopierer et færdiggjort FS-billede tilbage til navenoden under dens genstart. Sekundær navn node hele formålet er at have et checkpoint i HDFS.

Garn:

YARN har en central ressourcestyringskomponent, der administrerer ressourcer og tildeler ressourcerne til hver enkelt applikation.
Her er Ressourcemanager den master, der bedømmer ressourcerne, der er knyttet til klyngen, ressourceadministratoren er opviklet af to komponenter, applikationsadministratoren, og en planlægning af disse to komponenter sammen administrerer job på klyngesystemerne. en anden komponent kalder Node Manager (NM), som er ansvarlig for at styre brugernes job og arbejdsgang på en given knude.
En nøjagtig replikation af dataene i den aktive navnekode opbevares af Standby NameNode. Det fungerer som en slave, opretholder tilstrækkelig tilstand til at levere en hurtig failover, hvis det er nødvendigt.

Grundlæggende HDFS-kommandoer:

Grundlæggende HDFS-kommandoer
Sr.No	HDFS-kommandoejendom	HDFS-kommando
1	Print hadoop-version	$ hadoop version
2	Liste over indholdet af rodkataloget i HDFS	$ hadoop fs -ls
3	Rapporter den mængde plads, der er brugt og tilgængelig på et aktuelt monteret filsystem	$ hadoop fs -df hdfs: /
4	HDFS-balanceren genbalancerer data på tværs af DataNoder og flytter blokke fra overudnyttede til underudnyttede noder.	$ hadoop balancer
5	Hjælp-kommando	$ hadoop fs-hjælp

Mellemliggende HDFS-kommandoer:

Mellemliggende HDFS-kommandoer
Sr.No	HDFS-kommandoejendom	HDFS-kommando
6	opretter et bibliotek på den specificerede HDFS-placering	$ hadoop fs -mkdir / bruger / cloudera /
7	Kopierer data fra et sted til et andet	$ hadoop fs - inputdata / sample.txt / bruger / træning / hadoop
8	Se den plads, der besættes af et bestemt bibliotek i HDFS	$ hadoop fs -du -s -h / bruger / cloudera /
9	Fjern et bibliotek i Hadoop	$ hadoop fs -rm -r / bruger / cloudera / pigjobs /
10	Fjerner alle filerne i det givne bibliotek	$ hadoop fs -rm -skipTrash hadoop / retail / *
11	At tømme papirkurven	$ hadoop fs-udsving
12	kopierer data fra og til lokalt til HDFS	$ hadoop fs-kopiFromLocal / home / cloudera / prøve / / user / cloudera / flume / $ hadoop fs -copyToLocal / bruger / cloudera / pigjobs / * / home / cloudera / oozie /

Avancerede HDFS-kommandoer:

Mellemliggende HDFS-kommandoer
Sr.No	HDFS-kommandoejendom	HDFS-kommando
13	ændre filtilladelser	$ sudo -u hdfs hadoop fs -chmod 777 / bruger / cloudera / flume /
14	indstil replikeringsfaktor for en fil	$ hadoop fs -setrep -w 5 / bruger / cloudera / pigjobs /
15	Tæl antallet af mapper, filer og bytes under hdfs	$ hadoop fs-antal hdfs: /
16	Gør namenode til at være sikker tilstand	$ sudo -u hdfs hdfs dfsadmin -safemode orlov
17	Hadoop formaterer en navnekode	$ hadoop namenode-format

HDFS tip og tricks:

1) Vi kan opnå hurtigere gendannelse, når antallet af klynknoder er højere.

2) Stigningen i opbevaring pr. Enhedstid øger gendannelsestiden.

3) Namenode-hardware skal være meget pålideligt.

4) Sofistikeret overvågning kan opnås gennem ambari.

5) Systemsult kan reduceres ved at øge reduktionstallet.

Anbefalede artikler

Dette har været en guide til HDFS-kommandoer. Her diskuterede vi HDFS-kommandoer, funktioner, dens grundlæggende, mellemliggende og avancerede kommandoer med billedlig repræsentation, tip og tricks om kommandoerne. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

Knudekommandoer
Matlab-kommandoer
Fordele ved DBMS
Hadoop økosystem
Hadoop fs kommandoer

HDFS-kommando - Grundlæggende til avanceret kommando med tip og tricks

Indholdsfortegnelse:

Introduktion til HDFS-kommandoer

Funktioner ved HDFS:

Namenode:

Datanode:

Datareplikering:

Garn:

Grundlæggende HDFS-kommandoer:

Mellemliggende HDFS-kommandoer:

Avancerede HDFS-kommandoer:

HDFS tip og tricks:

Anbefalede artikler

3ds Max Alternativer - Bedste alternativer til 3ds Max til design og redigering

3D-reference i Excel (eksempel) - Sådan bruges Excel 3D-reference?

3D-cellehenvisning i Excel - Hvordan bruges 3D-cellehenvisning i Excel?

3D-kort i Excel - Lær, hvordan du får adgang til og bruger 3D-kort i Excel

3ds Max Plugins - Bedste rendering plugins i Autodesk 3ds Max

VBA Datatyper - Sådan bruges top 5 datatyper i Excel VBA?

VBA Counter - Sådan oprettes tæller i Excel ved hjælp af VBA-kode?

VBA Copy Paste - Vejledning til kopiering og indsæt i Excel VBA

VBA-dato - Sådan bruges Excel VBA-datofunktion? (Eksempler)

VBA Datoformat - Sådan bruges Excel VBA-datoformat med eksempler

Webudviklingsrammer - 4 Fremst optimalt JavaScript

Top 10 weblogiske interviewspørgsmål og svar (Opdateret til 2019)

Webhosting vs Cloudhosting - Top 6 forskelle at lære

Weblogic vs Tomcat - Find ud af de 9 bedste forskelle

WebGL vs lærred - Hvilken der er bedre (med infografik)