Hvad er MapReduce?

MapReduce-programmeringsrammer bruges til at udføre distribueret og parallel behandling med store datasæt i et distribueret miljø. Kort og formindsk er de to forskellige opgaver i et kortreducerende program. Først i kortfasen læses dataene, og nøgleværdipar genereres ud af dem. Derefter indføres disse nøgleværdipar til at reducere opgaven, som aggregerer nøgleværdipar-dataene i det mindre sæt værdier, der producerer det endelige output. Således implementeres en reduktionsopgave altid, når en kortopgave er afsluttet. Det er meget let at skalere databehandling over flere computernoder.

Der er nemlig tre faser i programmet:

  1. Kortstadie
  2. Bland fasen
  3. Reducer scenen

Eksempel :

Wordcount problem-

Antag, at nedenunder er inputdataene:

  • Mike Jon Jake
  • Paul Paul Jake
  • Mike Paul Jon

1. Ovenstående data er opdelt i tre input splits som nedenfor:

  • Mike Jon Jake
  • Paul Paul Jake
  • Mike Paul Jon

2. Derefter indføres disse data til den næste fase, der kaldes kortlægningsfase.

Så for den første linje (Mike Jon Jake) har vi 3 nøgleværdipar - Mike, 1; Jon, 1; Jake, 1.

Nedenfor er resultatet i kortlægningsfasen:

  • Mike, 1
    Jon, 1
    Jake, 1
  • Paul, en
    Paul, en
    Jake, 1
  • Mike, 1
    Paul, en
    Jon, 1

3. Ovenstående data indføres derefter i den næste fase, der kaldes sorterings- og blandingsfasen.

I denne fase grupperes dataene i unikke nøgler og sorteres. Nedenfor er resultatet i sortering og blanding fase:

  • Jake, (1, 1)
  • Jon, (1, 1)
  • Mike, (1, 1)
  • Paul, (1, 1, 1)

4. Ovenstående data indføres derefter i den næste fase, der kaldes reduktionsfasen.

Her er alle nøgleværdier samlet og antallet af 1'er tælles. Nedenfor er resultatet i reduceringsfase:

  • Jake, 2
  • Jon, 2
  • Mike, 2
  • Paul, 3

Fordele ved MapReduce:

Her lærer vi nogle vigtige fordele ved MapReduce-programmeringsrammen,

1. Skalerbarhed

Hadoop som en platform, der er meget skalerbar og er stort set på grund af dens evne, at den gemmer og distribuerer store datasæt på mange servere. Serverne, der bruges her, er ret billige og kan fungere parallelt. Systemets processorkraft kan forbedres ved tilføjelse af flere servere. De traditionelle relationelle databasestyringssystemer eller RDBMS kunne ikke skalere for at behandle enorme datasæt.

2. Fleksibilitet

Hadoop MapReduce programmeringsmodel giver fleksibilitet til at behandle struktur eller ustrukturerede data fra forskellige forretningsorganisationer, der kan gøre brug af dataene og kan operere på forskellige typer data. Således kan de generere en forretningsværdi ud fra disse data, som er meningsfulde og nyttige for forretningsorganisationerne til analyse. Uanset datakilden, hvad enten det drejer sig om sociale medier, clickstream, e-mail osv. Hadoop tilbyder support til mange sprog, der bruges til databehandling. Sammen med alt dette tillader programmering af Hadoop MapReduce mange applikationer såsom marketinganalyse, anbefalingssystem, datavarehus og svindel-afsløring.

3. Sikkerhed og godkendelse

Hvis en person, der er udenfor, får adgang til alle organisationens data og kan manipulere flere petabytes af dataene, kan det gøre meget skade med hensyn til forretningsforhold i drift med forretningsorganisationen. Denne risiko adresseres af MapReduce-programmeringsmodellen ved at arbejde med hdfs og HBase, der tillader høj sikkerhed, som kun tillader den godkendte bruger at arbejde på de lagrede data i systemet.

4. Omkostningseffektiv løsning

Et sådant system er meget skalerbart og er en meget omkostningseffektiv løsning til en forretningsmodel, der skal lagre data, der vokser eksponentielt i takt med kravet i dag. I tilfælde af gamle traditionelle relationsdatabasestyringssystemer var det ikke så let at behandle dataene som med Hadoop-systemet med hensyn til skalerbarhed. I sådanne tilfælde blev virksomheden tvunget til at nedskære dataene og yderligere implementere klassificering baseret på antagelser om, hvordan visse data kunne være værdifulde for organisationen og dermed fjerne rådataene. Her redder Hadoop Scalout-arkitektur med MapReduce-programmering.

5. Hurtig

Hadoop distribuerede filsystem HDFS er en nøglefunktion, der bruges i Hadoop, som dybest set implementerer et kortlægningssystem til at lokalisere data i en klynge. MapReduce-programmering er det værktøj, der bruges til databehandling, og det findes også på den samme server, der tillader hurtigere behandling af data. Hadoop MapReduce behandler store mængder data, der er ustrukturerede eller semistrukturerede på kortere tid.

6. En simpel model til programmering

MapReduce-programmering er baseret på en meget enkel programmeringsmodel, der dybest set giver programmererne mulighed for at udvikle et MapReduce-program, der kan håndtere mange flere opgaver med mere lethed og effektivitet. MapReduce programmeringsmodel er skrevet ved hjælp af Java-sprog er meget populær og meget let at lære. Det er let for folk at lære Java-programmering og designe databehandlingsmodel, der imødekommer deres forretningsbehov.

7. Parallel behandling

Programmeringsmodellen opdeler opgaverne på en måde, der muliggør udførelse af den uafhængige opgave parallelt. Derfor gør denne parallelle behandling det lettere for processerne at påtage sig hver af de opgaver, der hjælper med at køre programmet på meget mindre tid.

8. Tilgængelighed og elastisk karakter

Hadoop MapReduce programmeringsmodel behandler dataene ved at sende dataene til en individuel knude samt videresende det samme datasæt til de andre noder, der er bosiddende i netværket. Som et resultat, i tilfælde af fejl i en bestemt knude, er den samme datakopi stadig tilgængelig på de andre noder, der kan bruges, når det er nødvendigt, hvilket sikrer tilgængeligheden af ​​data.
På denne måde er Hadoop fejlagtolerant. Dette er en unik funktionalitet, der tilbydes i Hadoop MapReduce, at den er i stand til hurtigt at genkende fejlen og anvende en quick fix til en automatisk gendannelsesløsning.

Der er mange virksomheder over hele kloden, der bruger kortreducerende som facebook, yahoo osv.

Konklusion - Hvad er MapReduce

Kortreduktion har en stor kapacitet, når det kommer til stor databehandling sammenlignet med traditionelle RDBMS-systemer. Mange organisationer har allerede realiseret sit potentiale og flytter til denne nye teknologi. Kort-reduktion har helt klart meget længe at gå i en stor databehandlingsplatform.

Anbefalede artikler

Dette har været en guide til Hvad er MapReduce. Her diskuterede vi grundlæggende koncept, eksempler og fordele ved MapReduce. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Hvad er JavaScript?
  2. MapReduce Interview spørgsmål
  3. Hvad er Python
  4. Sådan fungerer MapReduce
  5. Hvad er Big data og Hadoop

Kategori: