Introduktion til Hadoop økosystem

Apache Hadoop er et open source-system til pålideligt at gemme og behandle en masse information på tværs af mange råvarecomputere. Hadoop er først skrevet i et papir og blev offentliggjort i oktober 2013 som 'Google File System'. Doug Cutting, der arbejdede i Yahoo på det tidspunkt, introducerede navnet som Hadoop Ecosystem baseret på hans søns legetøjselefantnavn. Hvis vi overvejer hovedkernen i Apache Hadoop, kan den for det første overveje lagringsdelen, der er kendt som Hadoop Distribueret filsystem (HDFS), og for det andet behandler en del, der kaldes Map Reduce Programming module. Hadoop opdeler faktisk en enorm fil og opbevarer dem i flere noder på tværs af klyngen.

Konceptet med Hadoop Ecosystem

Apache Hadoop rammer er hovedsageligt indeholdt under moduler:

  1. Hadoop Common: indeholder alle de biblioteker og værktøjer, der er nødvendige for at bruge Hadoop-modulet.
  2. Hadoop Distribueret filsystem (HDFS): Det er et af de distribuerede filsystemer, der hjælper med at lagre enorme data i flere maskiner eller råvarer. Tilvejebring også stor brugbarhed i tilfælde af båndbredde, den leverede normalt meget høj båndbredde i en type aggregat på en klynge.
  3. Hadoop Garn: Det blev introduceret i 2012. Det introduceres hovedsageligt til styring af ressourcer på hele systemet i råvaren, selv i en klynge. Baseret på ressource kapacitet distribueres det eller planlægger brugerens applikation efter krav.
  4. Hadoop MapReduce: Det hjælper hovedsageligt med at behandle data i stor skala gennem kortreducerende programmeringsmetodik.

Apache Hadoop hjælper altid med at nedbringe IT-omkostninger med hensyn til behandling og lagring af enorme data smart. Da Apache Hadoop er en open source og hardware er meget almindeligt tilgængeligt, hjælper det os altid med at håndtere en ordentlig reduktion i it-omkostninger.

Open source-software + råvaremaskinvare = IT-omkostningsreduktion

Hvis vi f.eks. Overvejer at dagligt modtage 942787 filer og mapper, som kræver 4077936 blokke, i alt 5020723 blokke. Så hvis vi konfigurerede mindst 1, 46 PB kapacitet, så til det at håndtere over belastning, vil det distribuerede filsystem bruge 1, 09 PB, det er gennemsnit næsten 74, 85% af den samlede konfigurerede kapacitet, mens vi overvejer 178 levende noder og 24 døde noder.

Hadoop økosystem hovedsageligt designet til lagring og behandling af big data, som normalt har nogle nøgleegenskaber som nedenfor:

  • Bind

Volumen står for størrelsen på data, der faktisk lagres og genereres. Afhængigt af datastørrelsen er det blevet bestemt, at datasættet er big data eller ej.

  • Bred vifte

Variation står for naturen, strukturen og typen af ​​data, der bruges.

  • Velocity

Hastighed står for hastigheden på data, der er blevet gemt og genereret i en bestemt udviklingsprocesstrøm.

  • Veracity

Veracity angiver kvaliteten af ​​de data, der er blevet indfanget, og hjælper også med dataanalyse til at nå det tilsigtede mål.

HDFS er hovedsageligt designet til at gemme en meget stor mængde information (terabyte eller petabytes) på tværs af et stort antal maskiner i en klynge. Det opretholder altid nogle almindelige egenskaber, såsom datapålidelighed, kører på råvareshardware, bruger blokke til at gemme en fil eller en del af denne fil, anvender 'skriv en gang læst mange' -model.

HDFS følger arkitekturen nedenfor med konceptet Navneknudepunkt og Dataknudepunkt.

Ansvaret for Navneknudepunktet (Master):

- administrerer filsystemets navneområde

- opretholder klyngekonfiguration

- Ansvarlig for replikationsstyring

Datanode (slaver) ansvar:

- Gem data i det lokale filsystem

- Rapporter med jævne mellemrum til navnet knudepunkt ved hjælp af hjerteslag

HDFS-skrivning:

Hadoop følger følgende trin for at skrive en hvilken som helst stor fil:

  1. Opret fil og opdater FS-billedet efter at have modtaget en anmodning om skrivning af filer fra enhver HDFS-klient.
  2. Hent oplysninger om blokering af placering eller dataknudepunkt fra navneknudepunktet.
  3. Skriv pakken på en individuel dataknude parallelt.
  4. Anerkend færdiggørelse eller accept af pakkeskrivning og send information tilbage til Hadoop-klienten.

HDFS-blokreplikationsrørledning:

  1. Klienten henter en liste over datanoder fra Namenode, der er vært for en kopi af denne blok
  2. Klienten skyller derefter datablokken til den første Datanode
  3. Den første Datanode modtager en blok, skriver den og overfører den til den næste dataknudepunkt i rørledningen
  4. Når alle kopier skrives, går klienten videre til den næste blok i filen

HDFS-fejltolerance:

Én dataknudepunkt er pludselig nede, i så fald har HDFS kapacitet til at styre dette scenarie automatisk. Først modtages al navneknap altid et hjerterytme fra hver dataknudepunkt. Hvis det på en eller anden måde mistede et hjerteslag fra et dataknudepunkt, i betragtning af den samme dataknudepunkt som nede, skal du straks gribe ind for automatisk at replikere alle blokke på de resterende noder med det samme for at tilfredsstille replikering faktor.

Hvis navneknuden registrerer en ny dataknudepunkt, der er tilgængelig i klyngen, rebalanseres den straks alle blokke inklusive den tilføjede dataknudepunkt.

Nu på en eller anden måde Navn knude tab eller mislykkedes, i så fald også backup knude, der holder et FS-billede af navneknud, afspiller alle FS-operationer straks og opkører navneknudepunktet efter krav. Men i dette tilfælde kræves manuel indgriben, og hele Hadoop-økosystemrammen vil være nede et par gange for at oprette et nyt navneknudepunkt igen. Så i dette tilfælde kan navneknudepunkt være en enkeltpunktsfejl, for at undgå dette scenarie HDFS Federation introducerer flere klynger, der er oprettet af navneknudepunkt, og ZooKeeper kan administrere øjeblikkeligt et alternativt knudepunkt efter krav.

Eksempler på Hadoop økosystem

Fuld Hadoop-økosystemeksempel kan forklares korrekt i nedenstående figur:

Data kan komme fra enhver form for kilde som Data Warehouse, Managed Document Repository, File Shares, Normal RDMS-databaser eller sky eller eksterne kilder. Alle disse data kom til HDFS på struktur eller ikke-struktur eller semistruktureret måde. HDFS gemmer alle disse data som en distribueret måde, betyder, at du gemmer i distribueret råvaresystem meget smart.

Konklusion

Hadoop-økosystem hovedsageligt designet til lagring og behandling af enorme data, som burde have præsenteret en af ​​de to faktorer mellem volumen, hastighed og variation. Det lagrer data i et distribueret behandlingssystem, der kører på råvarehardware. I betragtning af den fulde Hadoop-økosystemproces distribuerer HDFS datablokkene, og Map Reduce giver programmeringsrammerne til at læse data fra en fil, der er gemt i HDFS.

Anbefalede artikler:

Dette har været en guide til Hadoop Ecosystem. Her har vi drøftet det grundlæggende koncept om Hadoop Ecosystem, dets arkitektur, HDFS-operationer, eksempler, HDFS-fejltolerance osv. Du kan også se på følgende artikler for at lære mere -

  1. Anvendelser af Hadoop i den virkelige verden
  2. Hadoop vs Splunk
  3. Karriere i Hadoop
  4. Hadoop vs SQL-ydelse

Kategori: