Hvad er MapReduce i Hadoop

MapReduce er en ramme for Hadoop, der bruges til at behandle parallelle enorme mængder data om store klynger af råvaremateriale på en pålidelig måde. Hadoop er et open source-projekt leveret af Apache-softwaregrundlaget. Hadoop plejede at udføre analyse på hurtig og pålidelig for både strukturerede data og ustrukturerede data. Hadoop kan håndtere meget store datasæt, og som både kan være strukturerede data og ustrukturerede data, som faktisk er forbundet med big data. Hadoop-rammer, der giver en applikation mulighed for at gemme dataene i en distribueret form og behandle store datasæt på tværs af computerklynger ved hjælp af en simpel programmeringsmodel, det er hvad Map Reduce, så med andre ord kan vi kalde Map Reduce som en programmeringsmodel, der bruges til behandling enorm mængde data fordelt over antallet af klynger. Hadoop kan skalere op fra enkelt-servere til tusinder af computernoder eller maskiner, der hver især bruger til beregning og opbevaring.

Apache Hadoop-projektet indeholder et antal delprojekter som:

  • Hadoop Common: Hadoop Common, der har hjælpeprogrammer, der understøtter de andre Hadoop-underprojekter.
  • Hadoop Distribueret filsystem (HDFS): Hadoop Distribueret filsystem giver adgang til den distribuerede fil til applikationsdata.
  • Hadoop MapReduce: Hadoop MapReduce er en softwareramme til behandling af store distribuerede datasæt på computerklynger.
  • Hadoop YARN: Hadoop YARN er en ramme for ressourcestyring og planlægning af job.

Hvordan gør MapReduce i Hadoop det så nemt at arbejde?

MapReduce gør det nemt at skalere databehandling over hundreder eller tusinder af klyngemaskiner. MapReduce-modellen fungerer faktisk i to trin, der kaldes kort og reducering, og behandlingen kaldes henholdsvis mapper og reducer. Når vi skriver MapReduce til en applikation, er applikationen til opskalering for at køre over multipla eller endda flere tusind klynger blot en konfigurationsændring. Denne funktion i MapReduce-modellen har tiltrukket mange programmerere at bruge den.

Hvordan MapReduce i Hadoop fungerer?

MapReduce-programmet udføres hovedsageligt i fire trin:

  1. Input split
  2. Kort
  3. Shuffle
  4. Reducere

Nu vil vi se hvert trin, hvordan de fungerer.

1. Korttrin-

Dette trin er kombinationen af ​​indgangsopdelingstrinnet og korttrinnet. I korttrinnet sendes kildefilen som linje for linje. Før input passerer til Map-funktionsjobbet, er inputet opdelt i den lille faste størrelse kaldet Input split. Inputdelingen er en del af inputen, som kunne forbruges af et enkelt kort. I korttrinnet overføres hver opdelte data til kortfunktionen, derefter behandler kortlægerfunktionen dataene og derefter outputværdier. Generelt er kortets eller kortets jobinputdata i form af en fil eller bibliotek, der er gemt i Hadoop-filsystemet (HDFS).

2. Reducer trin-

Dette trin er kombinationen af ​​blandingstrin og Reducer. Reducer-funktionen eller Reducer-job tager de data, der er resultatet af kortfunktion. Efter forarbejdning ved at reducere funktionen produceres et nyt sæt af resultater, der igen gemmer tilbage i HDFS.

I en Hadoop-ramme er det ikke sikkert, at hver klynge udfører hvilket job, der enten er Kort eller Reducer eller begge Kort og Reducer. Så anmodningen om kort- og reduktionsopgaver skal sendes til de relevante servere i klyngen. Hadoop-rammen styrer selv alle opgaver med udstedelse, verifikation af færdiggørelse af arbejde, hentning af data fra HDFS, kopiering af data til klyngen af ​​knudepunkterne og så alt sammen. I Hadoop foregår for det meste computeren på noder sammen med data i selve noder, hvilket reducerer netværkstrafikken.

Så MapReduce-rammerne er meget nyttige i Hadoop-rammerne.

Fordele ved MapReduce

  1. Skalerbarhed - MapReduce gør Hadoop til meget skalerbar, fordi det gør det muligt at gemme store datasæt i distribueringsform på flere servere. Da det er fordelt på flere, så kan det fungere parallelt.
  2. Omkostningseffektiv løsning - MapReduce giver en meget omkostningseffektiv løsning for virksomheder, der har brug for at gemme de voksende data og behandle dataene på en meget omkostningseffektiv måde, hvilket er dagens forretningsbehov.
  3. Fleksibilitet - MapReduce gør Hadoop meget fleksibel for forskellige datakilder og endda for forskellige typer data, såsom strukturerede eller ustrukturerede data. Så det gør meget fleksibelt at få adgang til strukturerede eller ustrukturerede data og behandle dem.
  4. Hurtigt - Som Hadoop-lagringsdata i det distribuerede filsystem, hvorved lagring af dataene på den lokale disk i en klynge og MapReduce-programmer også generelt findes i de samme servere, hvilket giver mulighed for hurtigere behandling af data, da der ikke er behov for adgang dataene fra andre servere.
  5. Parallelbehandling - Da Hadoop-lagringsdata i det distribuerede filsystem og funktionen af ​​MapReduce-programmet er sådan, at det deler opgaver opgavekort og reducere, og det kan udføres parallelt. Og igen på grund af den parallelle udførelse reducerer det hele køretid.

Skills

Nødvendige færdigheder til MapReduce i Hadoop er med god programmeringskendskab til Java (obligatorisk), operativsystem Linux og viden om SQL Queries.

Omfanget af MapReduce i Hadoop

MapReduce i Hadoop er et hurtigt voksende felt, da big data-feltet vokser, så omfanget af MapReduce i Hadoop er meget lovende i fremtiden, da mængden af ​​strukturerede og ustrukturerede data øges eksponentielt dag for dag. Sociale medieplatforme genererer en masse ustrukturerede data, der kan udvindes for at få reel indsigt i forskellige domæner.

Konklusion

  • MapReduce er en ramme for Hadoop, der bruges til at behandle parallelle enorme mængder data om store klynger med råvaremateriale på en pålidelig måde.
  • Apache Hadoop-projektet indeholder et antal delprojekter som Hadoop Common, Hadoop Distribueret filsystem (HDFS), Hadoop MapReduce, Hadoop YARN.
  • I korttrinnet overføres hver opdelte data til kortfunktionen, derefter behandler kortlægerfunktionen dataene og derefter outputværdier.
  • Reducer-funktionen eller Reducer-job tager de data, der er resultatet af kortfunktion.
  • MapReduce fordele, der er opført som skalerbarhed, omkostningseffektiv løsning, fleksibilitet, hurtig, parallel behandling.

Anbefalede artikler

Dette har været en guide til Hvad er MapReduce i Hadoop. Her diskuterede vi komponenter, arbejde, færdigheder, karrierevækst og fordele ved MapReduce i Hadoop. Du kan også gennemgå vores andre foreslåede artikler for at lære mere

  1. Hvad er en algoritme?
  2. Forskelle mellem Hadoop vs MapReduce
  3. Hvad er Azure?
  4. Hvad er Big Data Technology?
  5. Sådan fungerer MapReduce

Kategori: