Introduktion til Hadoop-alternativer

Apache Hadoop er en uhyrlig ramme, der bruger flere andre komponenter, såsom HDFS, Hive, Spark, YARN og Zookeeper. Det bruges til at behandle og analysere data hentet fra interne eller eksterne kilder. Det kan skaleres fra flere maskiner eller servere til tusinder af dem. Der er mange indbyggede biblioteksfunktioner, der kan registrere og håndtere funktionsfejl.

Komponenter i Hadoop

1) Hadoop Distribueret filsystem (HDFS):

Dette er lagringstanken med data i Hadoop. Det fungerer på princippet om distribuerede data, hvor enorme datasæt bruges i små dele og opbevares på tværs af flere maskiner i en klynge.

2) Kortreducer:

Det er en programmeringsmodel til at udføre analyser på en parallel måde på de data, der findes i forskellige knudepunkter i en klynge.

3) Hive:

En Open Source-ramme, der bruges til at forespørge de strukturerede data ved hjælp af et Hive-Query-sprog. Indekseringsfunktionen bruges til at fremskynde forespørgselsprocessen.

4) Ambari:

En platform til overvågning af klyngesundheden og automatisere operationer. Det har en simpel Web UI og kan let installeres og konfigureres.

Liste over Hadoop-alternativer

Nedenfor er de forskellige Hadoop-alternativer, der er som følger:

Batchbehandling

Her udføres behandlingen kun på arkivdataene. For eksempel er finansielle revisioner og folketælling en analyse udført på gamle data for at give en bedre forudsigelse af fremtidige resultater. Disse data kan indeholde milliarder af rækker og kolonner. Batch-behandling er bedst egnet til stor databehandling uden behov for realtidsanalyse.

Behandling i realtid

Det er også kendt som Stream-Processing. Her behandles data fra tid til anden, da de genereres for at give en hurtig indsigt i de sandsynlige resultater. Jordskælvsdetektion & aktiemarkeder er de bedste eksempler, hvor realtidsanalyse er et must.

Apache gnist

Spark er en ramme, der bruges sammen med Hadoop til at behandle batch- eller realtidsdata på grupperede maskiner. Det kan også bruges som en enkeltstående, hente og lagre data i tredjepartsservere uden at bruge HDFS. Det er et open source-produkt. Det giver API'er, der er skrevet ved hjælp af SCALA, R eller Python, der understøtter generel behandling. Til behandling af strukturerede data kan Spark-SQL bruges. Spark Streaming udfører meget nødvendige realtidsanalyser. Spark giver support til maskinlæring ved hjælp af MLIB. I sidste ende kan de behandlede data vises ved hjælp af Graphix.

Den mest bemærkelsesværdige funktion ved Spark er In-Memory-behandling. Hele behandlingen af ​​data foregår i hukommelsen og ikke på disken. Denne metode sparer læse-skrivetiden for input til disken og output tilbage fra den. Gnister er lynhurtige og er næsten 100 gange hurtigere end Hadoop-behandling. Hele funktionen defineres og sendes til gnistkonteksten. Først derefter begynder behandlingen fra bunden. Denne metode er kendt som Lazy -ecution. Kafka, Flume bruges som input til streaming af data. Strukturerede eller ustrukturerede data kan bruges af Spark til analyse. Datastrømme er en masse data i et givet tidsinterval i gniststreaming. De konverteres til batches og indsendes til gnistmotoren til behandling. Strukturerede data konverteres til datarammer, inden Spark-SQL bruges til yderligere analyse.

Apache Storm

Apache Storm er også et af alternativerne til Hadoop, der er bedst egnet til distribueret realtidsanalyse. Det er let at konfigurere, brugervenligt og giver intet tab af data. En storm har meget høj behandlingskraft og giver lav latenstid (normalt i sekunder) sammenlignet med Hadoop.

Vi vil se nærmere på arbejdsgangen fra Storm:

  • Stormtopologien (svarende til en DAG, men en fysisk udførelsesplan) forelægges Nimbus (Master Node).
  • Opgaverne og den rækkefølge, det skal udføres, forelægges Nimbus.
  • Nimbus distribuerer jævnt de tilgængelige opgaver til vejlederne (tudene), og processen udføres af arbejderknudepunkterne (bolte).
  • Tudernes og bolternes helbred overvåges løbende gennem hjerteslag. Når vejlederen dør, tildeler Nimbus opgaven til en anden knude.
  • Hvis Nimbus dør, genstartes den automatisk af overvågningsværktøjerne. I mellemtiden fortsætter vejlederne deres opgaver, der blev tildelt tidligere.
  • Når Nimbus er genstartet, fortsætter den med at arbejde, hvor den stoppede. Der er derfor intet datatab, og hver data passerer gennem topologien mindst en gang.
  • Topologien fortsætter med at køre, medmindre Nimbus er afsluttet eller kraftigt lukket.
  • Storm bruger Zookeeper til at overvåge Nimbus og de andre vejlederknudepunkter.

Stor forespørgsel

Databaser bruges til transaktionsbehandling. Lederne opretter rapporter og analyserer dataene fra forskellige databaser. Datavarehuse blev introduceret for at hente data fra flere databaser i hele organisationen. Google udviklede Big forespørgsel, som er et datavarehus, der styres af sig selv. For at håndtere meget komplekse forespørgsler kan det være nødvendigt at have meget højtydende servere og nodemaskiner, som kan koste enormt. Opsætningen af ​​infrastrukturen kan tage op til flere uger. Når den maksimale tærskel er nået, skal den skaleres op. For at overvinde disse problemer giver Big forespørgsel lager i form af Google sky. Arbejderknudepunkterne skaleres om nødvendigt op til størrelsen på et datacentre for at udføre en kompleks forespørgsel inden for få sekunder. Du betaler for det, du bruger, dvs. forespørgslen. Google tager sig af ressourcerne og deres vedligeholdelse og sikkerhed. Det kan tage minutter til timer at køre forespørgsler på normale databaser. Stor forespørgsel behandler data meget hurtigere, og det er hovedsageligt velegnet til streaming af data som online gaming og Internet of Things (IoT). Behandlingshastigheden er lige så høj som milliarder af rækker på et sekund.

Presto

En Presto-forespørgsel kan bruges til at kombinere data fra forskellige kilder i hele organisationen og analysere dem. Dataene kan findes i Hive, RDBMS eller Cassandra. Presto er bedst egnet til analytikere, der forventer hele den forespurgte rapport inden for få minutter. Arkitekturen er analog med et klassisk databasestyringssystem med brugen af ​​flere noder i en klynge. Det blev udviklet af Facebook til at udføre analyse og finde indsigt fra deres interne data inklusive deres 300PB datavarehus. Mere end 30.000 forespørgsler køres på deres data til at scanne over en petabyte pr. Dag. Andre førende virksomheder som Airbnb og Dropbox bruger også Presto.

Anbefalet artikel

Dette har været en guide til Hadoop Alternatives. Her diskuterer vi komponenterne fra Hadoop, batchbehandling og realtidsbehandling af Hadoop-alternativer. Du kan også se på følgende artikler for at lære mere:

  1. Hadoop Administrator Jobs
  2. Hadoop vs SQL-ydelse
  3. Karriere i Hadoop
  4. Hadoop vs Spark
  5. Hadoop Administrator | Færdigheder & karrierevej

Kategori: