Introduktion til MapReduce Interview Spørgsmål og svar

MapReduce er en simpel parallel dataprogrammeringsmodel designet til skalerbarhed og fejltolerance. Vi kan sige, at MapReduce er en ramme, der bruger begrebet knudepunkter til at parallelisere problemerne, der opstår i store datasæt, hvis de er lokale netværk, bruger den den samme hardware, og hvis MapReduce er geografisk distribueret bruger den forskellige hardware. MapReduce er hovedsageligt sammensat af funktionen Map () og Reduce (). Det blev gjort populært af open source Hadoop-projektet.

Herunder er de 9 vigtige MapReduce-interviewspørgsmål og svar fra 2019:

Hvis du leder efter et job, der er relateret til MapReduce, er du nødt til at forberede dig til MapReduce-interviewspørgsmål i 2019. Selvom hvert MapReduce-interview er forskelligt, og omfanget af et job også er anderledes, kan vi hjælpe dig med de øverste MapReduce-interviewspørgsmål med svar, som vil hjælpe dig med at tage springet og få din succes i dit interview.

Disse spørgsmål er opdelt i to dele er som følger:

Del 1 - MapReduce Interview Questions (Basic)

Denne første del dækker grundlæggende MapReduce-interviewspørgsmål og -svar.

1. Hvad er MapReduce?

Svar:
MapReduce er en simpel parallel dataprogrammeringsmodel designet til skalerbarhed og fejltolerance. Med andre ord er det en ramme, der behandler paralleliserbare problemer i store datasæt ved hjælp af begrebet knudepunkter (antallet af computere), som igen klassificeres som klynger, hvis det er et lokalt netværk og bruger den samme hardware eller gitter, hvis de er geografisk fordelt og bruge forskellige hardware. MapReduce består i det væsentlige af en Map () -funktion og en Reduce () -funktion. Det blev banebrydende af Google og behandler mange petabytes af data hver dag. Det blev gjort populært af open source Hadoop-projektet og bruges på Yahoo, Facebook og Amazon for at nævne nogle få.

2. Hvad bruges MapReduce til-af-virksomheden?

Svar:
Google
• Konstruktion af indeks til Google-søgning
Processen med at konstruere et positionsindeks eller ikke-positionelt indeks kaldes indeksopbygning eller indeksering. MapReduce's rolle er Index Construction og er designet til store computerklynger. Formålet med klyngen er at løse beregningsproblemer for noder eller computere, der er bygget med standarddele snarere end en supercomputer.
• Artikelklynger til Google Nyheder
Ved artikelklynger klassificeres siderne først afhængigt af, om de er nødvendige til klynge. Sider indeholder en masse information, som ikke er nødvendig til klyngen. Derefter bringes artiklen til sin vektorform baseret på nøgleord og den vægt, den gives. Derefter klynges de ved hjælp af algoritmer.
• Statistisk maskinoversættelse
Oversættelse af tosprogede tekstkorpora ved analyse genererer statistiske modeller, der oversætter et sprog til et andet ved hjælp af vægte og reduceres til den mest sandsynlige oversættelse.
Yahoo
• “Webkort”, der driver Yahoo! Søg
I lighed med artikelklynger til Google Nyheder bruges MapReduce til clustering af søgeudgange på Yahoo! Platform.
• Spamdetektion til Yahoo! Post
Facebook
• Datamining
Den nylige tendens med dataeksplosion har resulteret i behovet for sofistikerede metoder til at opdele dataene i bidder, der let kan bruges til det næste analysetrin.
• d Optimering
• Spamdetektion

Lad os gå til de næste spørgsmål om MapReduce-interview.

3. Hvad er MapReduce designmålene

Svar:
Skalerbarhed til store datamængder
Da MapReduce er en ramme, der sigter mod at arbejde med paralleliserbare data ved hjælp af begrebet knudepunkter, der er antallet af computere enten som klynger eller gitter, kan det skaleres til et antal computermaskiner. Så et fremtrædende designmål for MapReduce er, at det er skalerbar til 1000 maskiner og så 10.000 diske.
Omkostningseffektivitet
Da MapReduce fungerer med paralleliserende data ved noder eller antallet af computere, er følgende årsager, der gør det omkostningseffektivt:
-Cheap råvaremaskiner i stedet for en supercomputer. Selvom de er billige, er de upålidelige.
-Kompleksenetværk
-Automatisk fejltolerance, dvs. færre administratorer er påkrævet.
-Det er let at bruge, dvs. det kræver færre programmerere.

4. Hvad er udfordringerne med MapReduce?

Svar:
Dette er de almindelige MapReduce-interviewspørgsmål, der stilles i et interview. De største udfordringer med MapReduce er som følger:
-Cheap noder mislykkes, især hvis du har mange
Den gennemsnitlige tid mellem fejl i 1 knude er lig med 3 år. Den gennemsnitlige tid mellem fejl i 1000 knudepunkter er lig med 1 dag. Løsningen er at opbygge fejltolerance i selve systemet.
-Nettighedsnetværk er lig med eller indebærer lav båndbredde
Løsningen for en lav båndbredde er at skubbe beregning til dataene.
-Programmering af distribuerede systemer er hårde
Løsningen hertil er, at brugerne skriver data-parallel programmeringsmodel, “kort” og “reducerer” -funktioner. Systemet distribuerer arbejdet og håndterer fejlene.

5. Hvad er MapReduce-programmeringsmodellen?

Svar:
MapReduce programmeringsmodel er baseret på et koncept kaldet nøgleværdiposter. Det giver også paradigmer til parallel databehandling. For behandling af dataene i MapReduce skal både inputdata og output kortlægges i formatet for flere nøgleværdipar. Det enkelte nøgleværdipar benævnes også en post. MapReduce-programmeringsmodellen består af en Map () -funktion og en Reduce-funktion. Modellen for disse er som følger.
Kort () -funktion: (K ind, V ind)  liste (K inter, V inter)
Reducer () -funktion: (K inter, liste (V inter))  liste (K ud, V ud)

Del 2 - MapReduce Interview Questions (Avanceret)

Lad os nu se på de avancerede MapReduce-interviewspørgsmål.

6. Hvad er MapReduce-eksekveringsdetaljer?

Svar:
I tilfælde af MapReduce-udførelse kontrollerer en enkelt master udførelse af job på flere slaver. Kortene foretrækkes at blive placeret på den samme knude eller samme rack som deres inputblok, så det minimerer netværksforbruget. Kortlægning gemmer også output på lokal disk, før de serveres dem til reduceringsenheder. Dette tillader gendannelse, hvis en reducer går ned og tillader flere reducere end knudepunkter.

7. Hvad er en kombinerer?

Svar:
Kombinationen, der også er kendt som semi-reducer, fungerer ved at acceptere input fra Map-klassen og overføre output-nøgleværdipar til Reducer-klassen. Hovedfunktionen for en kombinerer er at opsummere kortoutput-poster med den samme nøgle. Med andre ord er en kombinerer en lokal aggregeringsfunktion for gentagne taster produceret af det samme kort. Det fungerer til associerende funktioner som SUM, COUNT og MAX. Det formindsker størrelsen på mellemliggende data, da det er et resumé af aggregeringen af ​​værdier for alle de gentagne taster.

Lad os gå til de næste spørgsmål om MapReduce-interview.

8.Hvorfor gris? Hvorfor ikke MapReduce?

Svar:
• MapReduce giver programmereren mulighed for at udføre en kortfunktion efterfulgt af en reduceringsfunktion, men det kan være en udfordring at arbejde på, hvordan du indpasser din databehandling i dette mønster, som ofte kræver flere MapReduce-trin.
• Med gris er datastrukturerne meget rigere, da de er multivurderede og indlejrede, og det sæt transformationer, du kan anvende til dataene, er meget mere kraftfulde. For eksempel inkluderer de sammenføjninger, som ikke er mulig i MapReduce.
• Pig er også et program, der omdanner omdannelsen til en række MapReduce-job.

9. Kortreducer kritik

Svar:
En fremtrædende kritik af MapReduce er, at udviklingscyklussen er meget lang. Det er tidskrævende at skrive kortlæggene og reduktionsmaskinerne, sammenstille og pakke koden, indsende jobbet og hente resultaterne. Selv med streaming, der fjerner kompilering og pakke trin, tager oplevelsen stadig lang tid.

Anbefalet artikel

Dette har været en guide til Liste over MapReduce-interviewspørgsmål og-svar, så kandidaten let kan slå sammen disse MapReduce-interviewspørgsmål. Du kan også se på de følgende artikler for at lære mere -

  1. Vigtige spørgsmål om analyse af data Analytics
  2. 10 bedste spørgsmål til designmønster
  3. Elasticsearch Interview spørgsmål
  4. Mest nyttige Ruby Interview spørgsmål
  5. Sådan fungerer MapReduce