Spørgsmål og svar til Hadoop Cluster Interview

Formålet med denne artikel er at hjælpe alle Big Data-aspiranter med at besvare alle Hadoop Cluster Interview-spørgsmål relateret til opsætning af Big Data-miljø i en organisation. Dette spørgeskema hjælper med at opsætte datanoder, navneknudepunkt og definere kapaciteten på Big Data-dæmonerens hostede server.

Så hvis du endelig har fundet dit drømmejob i Hadoop Cluster, men undrer dig over, hvordan du bryder Hadoop Cluster-interviewet, og hvad der kan være de sandsynlige spørgsmål om Hadoop Cluster Interview. Hver samtale er forskellig, og omfanget af et job er også anderledes. Med dette i tankerne har vi designet de mest almindelige Hadoop Cluster Interview Spørgsmål og svar til at hjælpe dig med at få succes i dit interview.

Nogle af de vigtigste Hadoop Cluster Interview Spørgsmål, der ofte stilles i et interview, er som følger:

1.Hvad er de største Hadoop-komponenter i Hadoop-klyngen?

Svar :
Hadoop er en ramme, hvor vi behandler big data, eller Hadoop er platformen, hvor man kan behandle den enorme mængde data på råvareservere. Hadoop er kombinationen af ​​mange komponenter. Følgende er de vigtigste komponenter i Hadoop-miljøet.
Navn Node : Det er hovednoden, der tager sig af al information om datakoder og datalagring i metadataformat.
Sekundær navneknudepunkt : Det fungerer som primær navneknudepunkt, hvis den primære navneknudepunkt falder ned.
HDFS (Hadoop Distribueret filsystem) : Det tager sig af al opbevaring af Hadoop-klyngen.
Datakoder : Datakoder er slaveknudepunkter. Faktiske data gemmes på slavekoder til behandling.
YARN (endnu en ressourceforhandler) : En softwareramme til at skrive applikationerne og til at behandle store mængder data. Det giver de samme funktioner som MapReduce derudover, det ville gøre det muligt for hvert batchjob at køre parallelt i Hadoop-klyngen.

2.Hvordan planlægger jeg datalagring i Hadoop-klyngen?

Svar :
Opbevaring er baseret på formel (Opbevaring = Daglig indtagelse af data * Replikering).
Hvis Hadoop-klyngen får data 120 TB på daglig basis, og vi har standardreplikationsfaktor, så det daglige datalagringsbehov ville være
Opbevaringskrav = 120 TB (daglig indtagelse af data) * 3 (standardreplikation) => 360 TB
Som et resultat er vi nødt til at indstille mindst 360 TB dataklynge til daglig indtagelse af data.
Opbevaring afhænger også af kravet til dataopbevaring. I tilfælde af at vi ønsker, at data skal gemmes i 2 år i den samme klynge, så vi er nødt til at arrangere dataknudepunkter i henhold til opbevaringsbehovet.

3. Beregn antallet af dataknudepunkter.

Svar :
Vi er nødt til at beregne et antal datanoder, der kræves til Hadoop-klyngen. Antag, at vi har servere med JBOD på 10 diske, og hver disk har 4 TB lagringsstørrelse, så hver server har 40 TB lagerplads. Hadoop-klyngen får data 120 TB pr. Dag og 360 TB efter anvendelse af standardreplikationsfaktor.
Antal datakoder = Daglig indtagelse af data / dataknap kapacitet
Antal datakoder = 360/40 => 9 datakoder
Derfor skal Hadoop-klyngen, der får 120 TB-data med ovenstående konfiguration, kun konfigurere 9 datakoder.

4.Hvordan ændres replikationsfaktor i Hadoop-klyngen?

Svar :
Rediger filen hdfs-site.xml. Standardstien er under konf / mappe i Hadoop installationsmappe. ændre / tilføj følgende egenskab i hdfs-site.xml:
dfs.replication
3
Blokreplikation
Det er ikke obligatorisk at have replikationsfaktor 3. Den kan også indstilles til 1. Replikationsfaktor 5 fungerer også i Hadoop-klyngen. Opsætning af standardværdi gør klyngen mere effektiv, og der kræves minimum hardware.
Forøgelse af replikationsfaktor ville øge hardwarebehovet, fordi datalagringen multipliceres med replikationsfaktoren.

5.Hvad er standard datablokkestørrelse i Hadoop, og hvordan ændres det?

Svar :
Blokstørrelse skære ned / opdele dataene i blokke og gemme dem på forskellige-forskellige dataknudepunkter.
Som standard er blokstørrelse 128 MB (i Apache Hadoop), og vi kan ændre standardblokstørrelsen.
Rediger filen hdfs-site.xml. Standardstien er under konf / mappe i Hadoop installationsmappe. ændre / tilføj følgende egenskab i hdfs-site.xml:
dfs.block.size
134217728
Blokstørrelse
blokstørrelse i byte er 134.217.728 eller 128 MB. Angiv også størrelsen med suffiks (store og små bogstaver) som k (kilo-), m (mega-), g (giga-) eller t (tera-) for at indstille blokstørrelsen i KB, MB, TB osv…

6.Hvor lang Hadoop-klynge skal opbevare en slettet HDFS-fil i slette / papirkurven?

Svar :
"Fs.trash.interval" er den parameter, der specificerer, hvor længe HDFS kan beholde en slettet fil i Hadoop-miljøet for at hente den slettede fil.
Intervallperiode kan kun defineres i minutter. I 2 dages hentningsinterval er vi nødt til at specificere egenskaben i et flydende format.
Rediger filen core-site.xml og tilføj / modificer den ved hjælp af følgende egenskab
fs.trash.interval
2880
Som standard er opsamlingsintervallet 0, men Hadoop-administrator kan tilføje / ændre ovenstående egenskab som pr. Krav.

7.Hvad er de grundlæggende kommandoer til Start og Stop Hadoop-dæmoner?

Svar :
Alle kommandoer til at starte og stoppe de dæmoner, der er gemt i sbin / folder.
./sbin/stop-all.sh - For at stoppe alle dæmoner på én gang.
hadoop-daemon.sh startnavn node
Hadoop-daemon.sh startdata knude
garn-daemon.sh, start ressource manager
garn-daemon.sh, start node manager
mr-jobhistory-daemon.sh start historie server

8.Hvad er egenskaben til at definere hukommelsesallokering til opgaver, der administreres af YARN?

Svar :
Egenskab “yarn.nodemanager.resource.memory-mb” skal ændres / tilføjes for at ændre hukommelsesallokering for alle de opgaver, der administreres af YARN.
Det specificerer mængden af ​​RAM i MB. Datanoder tager 70% af den faktiske RAM, der skal bruges til YARN. Dataknudepunkt med 96 GB bruger 68 GB til YARN, resten af ​​RAM bruges af Data Node-dæmonen til “Ikke-YARN-arbejde”
Rediger filen "yarn.xml fil" og tilføj / rediger følgende egenskab.
yarn.nodemanager.resource.memory-mb
68608
yarn.nodemanager.resource.memory-mb standardværdi er 8192 MB (8GB). Hvis datakoder har stor RAM-kapacitet, skal vi skifte til værdi til 70% ellers spilder vi vores hukommelse.

9.Hvad er anbefalingerne til størrelse af navneknude?

Svar :
Følgende detaljer anbefales til opsætning af Master Node på et meget indledende trin.
Processorer: For processer er en enkelt CPU med 6-8 kerner nok.
RAM-hukommelse: For data- og jobbehandlingsserver skal mindst have 24-96 GB RAM.
Lagring: Da der ikke er lagret nogen HDFS-data på hovednoden. Du kan 1-2 TB som lokal opbevaring
Da det er vanskeligt at bestemme fremtidige arbejdsbelastninger, så design din klynge ved at vælge hardware såsom CPU, RAM og hukommelse, der let kan opgraderes over tid.

10.Hvad er standardporte i Hadoop-klyngen?

Svar :

Daemon-navnStandard port nr
Navn Node.50070
Datakoder.50.075
Sekundær navn Knude.50090
Backup / Checkpoint-knude.50105
Job Tracker.50030
Opgave trackere.50060

Anbefalede artikler

Dette har været en guide til Liste over Hadoop Cluster Interview Spørgsmål og svar, så kandidaten let kan nedbryde disse Hadoop Cluster Interview spørgsmål. Du kan også se på de følgende artikler for at lære mere -

  1. Elasticsearch-interviewspørgsmål og svar-top og mest nyttige
  2. 9 Fantastiske kortReducer interviewspørgsmål og svar
  3. 8 Mest nyttige vejledning til Big Data-interviewspørgsmål
  4. ETL-interviewspørgsmål og svar, du burde vide