Introduktion til Hadoop Admin Interview Spørgsmål og svar

Så du har endelig fundet dit drømmejob i Hadoop Admin, men spekulerer på, hvordan du krakker Hadoop Admin Interview og hvad der kan være de sandsynlige Hadoop Admin Interview spørgsmål. Hver samtale er forskellig, og omfanget af et job er også anderledes. Med dette i tankerne har vi designet de mest almindelige Hadoop Admin Interview Spørgsmål og svar til at hjælpe dig med at få succes i dit interview.

Følgende er Hadoop Admin Interview Spørgsmål, som vil hjælpe dig med at knække et interview med Hadoop.

1. Hvad er rackbevidsthed? Og hvorfor er det nødvendigt?

Svar:
Rack-bevidsthed handler om at distribuere dataknudepunkter over flere rack.HDFS følger rack-opmærksomhedsalgoritmen for at placere datablokkene. Et rack indeholder flere servere. Og for en klynge kan der være flere stativer. Lad os sige, at der er en Hadoop-klynge, der er oprettet med 12 noder. Der kunne være 3 stativer med 4 servere på hver. Alle 3 stativer er tilsluttet, så alle 12 noder er tilsluttet, og der danner en klynge. Mens der tages stilling til racktællingen, er det vigtige punkt at overveje replikationsfaktoren. Hvis der er 100 GB data, der vil strømme hver dag med replikationsfaktoren 3. Så er det 300 GB data, der skal opholde sig i klyngen. Det er en bedre mulighed at få dataene replikeret på tværs af stativerne. Selv hvis nogen knude falder, vil replikaen være i et andet rack.

2. Hvad er standardblokstørrelsen, og hvordan defineres den?

Svar:
128 MB og det er defineret i hdfs-site.xml, og dette kan også tilpasses afhængigt af datamængden og adgangsniveauet. Lad os sige, at 100 GB data, der flyder på en dag, bliver dataene adskilt og gemt på tværs af klyngen. Hvad er antallet af filer? 800 filer. (1024 * 100/128) (1024 à konverteres en GB til MB.) Der er to måder at indstille den tilpassede datablokkestørrelse på.

  1. hadoop fs -D fs.local.block.size = 134217728 (i bits)
  2. I hdfs-site.xml tilføjes denne egenskab à block.size med bitstørrelsen.

Hvis du ændrer standardstørrelsen til 512 MB, da datastørrelsen er enorm, vil de genererede no.of-filer være 200. (1024 * 100/512)

3. Hvordan får du rapporten over hdfs-filsystemet? Om disktilgængelighed og nr. Af aktive noder?

Svar:
Kommando: sudo -u hdfs dfsadmin –rapport

Dette er listen over oplysninger, den viser,

  1. Konfigureret kapacitet - Samlet kapacitet tilgængelig i hdfs
  2. Nuværende kapacitet - Dette er den samlede pladsmængde, der er afsat til ressourcerne til at opholde sig ved siden af ​​metastoren og fsimage-brugen af ​​plads.
  3. Resterende DFS - Det er den mængde lagerplads, der stadig er tilgængelig for HDFS til at gemme flere filer
  4. Brugt DFS - Det er den lagerplads, der er brugt op af HDFS.
  5. DFS brugt% - i procent
  6. Under replikerede blokke - Antal blokke
  7. Blokke med korrupte replikker - Hvis der er korrupte blokke
  8. Manglende blokke
  9. Manglende blokke (med replikationsfaktor 1)

4. Hvad er Hadoop-balancer, og hvorfor er det nødvendigt?

Svar:
Data spredt over knudepunkterne er ikke fordelt i den rigtige andel, hvilket betyder, at anvendelsen af ​​hver knude muligvis ikke er afbalanceret. Den ene knude kan være overudnyttet, og den anden kunne være underudnyttet. Dette fører til en høj omkostningseffekt, mens du kører en hvilken som helst proces, og det vil ende med at køre ved kraftig brug af disse noder. For at løse dette bruges Hadoop-balancer, der balanserer brugen af ​​dataene i knudepunkterne. Så når en balancer udføres, flyttes dataene hen over, hvor de underudnyttede noder bliver fyldt ud, og de overudnyttede noder frigøres.

5. Forskel mellem Cloudera og Ambari?

Svar:

Cloudera ManagerAmbari
Administrationsværktøj til ClouderaAdministrationsværktøj til Horton-værker
Overvåger og administrerer hele klyngen og rapporterer brugen og eventuelle problemerOvervåger og administrerer hele klyngen og rapporterer brugen og eventuelle problemer
Leveres med Cloudera betalt serviceOpen source

6. Hvad er de vigtigste handlinger, der udføres af Hadoop-administratoren?

Svar:
Overvåg klynges sundhed -Der er mange applikationssider, der skal overvåges, hvis nogen processer kører. (Jobhistorikkserver, YARN resource manager, Cloudera manager / ambary afhængigt af distributionen)

tænd for sikkerhed - SSL eller Kerberos

Tune performance - Hadoop balancer

Tilføj nye dataknoder efter behov - Infrastrukturændringer og -konfigurationer

Valgfrit at tænde MapReduce Jobhistorik Tracking Server à Nogle gange vil genstart af tjenesterne hjælpe med at frigive cachehukommelse. Dette er når klyngen med en tom proces.

7. Hvad er Kerberos?

Svar:
Det er en godkendelse, der kræves for hver service at synkronisere for at køre processen. Det anbefales at aktivere Kerberos. Da vi beskæftiger os med den distribuerede computing, er det altid god praksis at have kryptering, mens du får adgang til dataene og behandler dem. Efterhånden som hver knude er forbundet, og enhver informationskort er over et netværk. Da Hadoop bruger Kerberos, er adgangskoder ikke sendt over netværkene. I stedet bruges adgangskoder til at beregne krypteringsnøglerne. Meddelelserne udveksles mellem klienten og serveren. Enkelt set giver Kerberos identitet til hinanden (noder) på en sikker måde med krypteringen.

Konfiguration i core-site.xml
Hadoop.security.authentication: Kerberos

8. Hvad er den vigtige liste over hdfs-kommandoer?

Svar:

kommandoerFormål
hdfs dfs –lsSådan vises filerne fra hdfs-filsystemet.
Hdfs dfs –putKopier fil fra det lokale system til hdfs-filsystemet
Hdfs dfs –chmod 777Giv en læse, skrive, udføre tilladelse til filen
Hdfs dfs –getKopier filen fra hdfs filsystem til det lokale filsystem
Hdfs dfs –katSe filindholdet fra hdfs-filsystemet
Hdfs dfs –rmFjern filen fra hdfs-filsystemet. Men det flyttes til papirkurven (det er som en papirkurv i windows)
Hdfs dfs –rm –skipTrashFjerner filen permanent fra klyngen.
Hdfs dfs –ouchouchOpret en fil i hdfs-filsystemet

9. Hvordan kontrolleres logfilerne for et Hadoop-job, der er indsendt i klyngen, og hvordan afsluttes allerede kørende proces?

Svar:
garn logs –applicationId - Programmeringen genererer logfiler på dens container, og den tilføjes det id, den genererer. Dette vil være nyttigt at overvåge status for processens kørsel og logoplysningerne.

garn-applikation –mord - Hvis en eksisterende proces, der kører i klyngen, skal afsluttes, bruges kill-kommando, hvor applikations-id bruges til at afslutte jobbet i klyngen.

Anbefalet artikel

Dette har været en guide til Liste over Hadoop Admin Interview Interview og svar, så kandidaten let kan nedbryde disse Hadoop Admin Interview spørgsmål. Du kan også se på de følgende artikler for at lære mere

  1. Hadoop Cluster Interview Spørgsmål og svar - Top 10 mest nyttige
  2. Interviewmodeller om datamodellering - 10 vigtige spørgsmål
  3. SAS System Interview Interview - Top 10 nyttige spørgsmål