MapReduce vs Apache Spark- 20 nyttige sammenligninger at lære

Forskelle mellem MapReduce og Apache Spark

Apache Hadoop er en open source-software-ramme, der er designet til at skalere fra enkelt-servere til tusinder af maskiner og køre applikationer på klynger med råvaremateriale. Apache Hadoop-rammen er opdelt i to lag.

Hadoop Distribueret filsystem (HDFS)
Behandler lag (MapReduce)

Opbevaringslag af Hadoop, dvs. HDFS er ansvarlig for lagring af data, mens MapReduce er ansvarlig for behandling af data i Hadoop Cluster. MapReduce er dette programmeringsparadigme, der giver mulighed for massiv skalerbarhed på tværs af hundreder eller tusinder af servere i en Hadoop-klynge. MapReduce er en behandlingsteknik og en programmodel til distribueret computing baseret på programmeringssprog Java. MapReduce er en kraftig ramme til behandling af store, distribuerede sæt strukturerede eller ustrukturerede data på en Hadoop-klynge, der er gemt i Hadoop Distribueret filsystem (HDFS). De kraftige funktioner i MapReduce er dens skalerbarhed.

Apache Spark er et lyn-hurtigt og klynge computerteknologiramme, designet til hurtig beregning i stor databehandling. Apache Spark er en distribueret behandlingsmotor, men den leveres ikke med indbygget klyngeressource manager og distribueret lagringssystem. Du skal tilslutte en klyngestyring og et opbevaringssystem efter eget valg. Apache Spark består af en gnistkerne og et sæt biblioteker svarende til dem, der er tilgængelige for Hadoop. Kernen er den distribuerede udførelsesmotor og et sæt sprog. Apache Spark understøtter sprog som Java, Scala, Python og R til distribueret applikationsudvikling. Yderligere biblioteker er bygget oven på Spark-kernen for at muliggøre arbejdsbelastninger, der bruger streaming, SQL, graf og maskinlæring. Apache Spark er databehandlingsmotor til batch- og streamingtilstande med SQL-forespørgsler, grafbehandling og maskinlæring. Apache Spark kan køre uafhængigt og også på Hadoop YARN Cluster Manager og dermed kan den læse eksisterende Hadoop-data.

Du kan vælge Apache YARN eller Mesos til klyngestyring for Apache Spark.
Du kan vælge Hadoop Distribueret filsystem (HDFS), Google skylagring, Amazon S3, Microsoft Azure til ressourceadministrator for Apache Spark.

Sammenligning mellem hoved og hoved mellem MapReduce vs Apache Spark (Infographics)

Nedenfor er Top 20 sammenligningen mellem MapReduce vs Apache Spark

Nøgleforskel mellem MapReduce vs Apache Spark

MapReduce er strengt diskbaseret, mens Apache Spark bruger hukommelse og kan bruge en disk til behandling.
MapReduce og Apache Spark har begge en lignende kompatibilitet med hensyn til datatyper og datakilder.
Den primære forskel mellem MapReduce og Spark er, at MapReduce bruger vedvarende opbevaring, og Spark bruger Resilient Distribuerede datasæt.
Hadoop MapReduce er beregnet til data, der ikke passer i hukommelsen, mens Apache Spark har en bedre ydelse for de data, der passer i hukommelsen, især på dedikerede klynger.
Hadoop MapReduce kan være en økonomisk mulighed på grund af Hadoop som en service, og Apache Spark er mere omkostningseffektiv på grund af hukommelse med stor tilgængelighed
Apache Spark og Hadoop MapReduce er begge fejlagtolerante, men sammenligneligt er Hadoop MapReduce mere fiasko tolerant end Spark.
Hadoop MapReduce kræver centrale java-programmeringsevner, mens programmering i Apache Spark er lettere, da det har en interaktiv tilstand.
Spark er i stand til at udføre batchbehandlingsjob mellem 10 til 100 gange hurtigere end MapReduce, selvom begge værktøjer bruges til behandling af Big Data.

Hvornår skal du bruge MapReduce:

Lineær behandling af stort datasæt
Ingen mellemliggende opløsning krævet

Hvornår skal du bruge Apache Spark:

Hurtig og interaktiv databehandling
Tilslutning til datasæt
Grafbehandling
Iterative job
Behandling i realtid
Maskinelæring

MapReduce vs Apache gnister sammenligningstabel

	MapReduce	Apache gnist
Databehandling	Kun til batchbehandling	Batchbehandling såvel som i realtid databehandling
Behandlingshastighed	Langsomere end Apache Spark, fordi hvis I / O-disk latens	100x hurtigere i hukommelsen og 10x hurtigere, mens du kører på disk
Kategori	Databehandlingsmotor	Data Analytics Engine
Omkostninger	Mindre dyrere sammenligning af Apache Spark	Mere dyrere på grund af en stor mængde RAM
Skalerbarhed	Begge er skalerbare begrænset til 1000 noder i enkelt klynge	Begge er skalerbare begrænset til 1000 noder i enkelt klynge
Maskinelæring	MapReduce er mere kompatibel med Apache Mahout, mens den integreres med maskinlæring	Apache Spark har indbyggede API'er til maskinlæring
Kompatibilitet	Meget kompatibel med alle datakilder og filformater	Apache Spark kan integreres med alle datakilder og filformater, der understøttes af Hadoop-klyngen
Sikkerhed	MapReduce-rammerne er mere sikre sammenlignet med Apache Spark	Sikkerhedsfunktion i Apache Spark udvikler sig mere og bliver modnet
Scheduler	Afhængig af ekstern planlægning	Apache Spark har egen scheduler
Fejltolerance	Bruger replikation for fejltolerance	Apache Spark bruger RDD og andre datalagringsmodeller til fejltolerance
Brugervenlighed	MapReduce er lidt kompleks sammenligning af Apache Spark på grund af JAVA API'er	Apache Spark er lettere at bruge på grund af rige API'er
Dupliceret eliminering	MapReduce understøtter ikke denne funktion	Apache Spark-processen behandler hver registrering nøjagtigt én gang, og fjerner derfor duplikering.
Sprogstøtte	Primært sprog er Java, men sprog som C, C ++, Ruby, Python, Perl, Groovy har også understøttet	Apache Spark understøtter Java, Scala, Python og R
Reaktionstid	Meget høj forsinkelse	Meget hurtigere sammenligning af MapReduce Framework
kompleksitet	Svært at skrive og fejlsøge koder	Let at skrive og debug
Apache Community	Open Source Framework til behandling af data	Open Source Framework til behandling af data med en højere hastighed
Coding	Flere kodelinjer	Mindre linjer af koden
Interaktiv tilstand	Ikke interaktiv	Interaktiv
Infrastruktur	Råvarehardware	Midt til højt niveau hardware
SQL	Understøtter gennem Hive Query Language	Understøtter gennem Spark SQL

Konklusion - MapReduce vs Apache Spark

MapReduce og Apache Spark er begge det vigtigste værktøj til behandling af Big Data. Den største fordel ved MapReduce er, at det er let at skalere databehandling over flere computernoder, mens Apache Spark tilbyder computere med høj hastighed, smidighed og relativ brugervenlighed er perfekte komplement til MapReduce. MapReduce og Apache Spark har et symbiotisk forhold til hinanden. Hadoop leverer funktioner, som Spark ikke har, såsom et distribueret filsystem, og Spark leverer real-time, in-memory-behandling til de datasæt, der kræver det. MapReduce er en diskbaseret computing, mens Apache Spark er en RAM-baseret computing. MapReduce og Apache Spark sammen er et kraftfuldt værktøj til behandling af Big Data og gør Hadoop Cluster mere robust.

Anbefalede artikler

Dette har været en guide til MapReduce vs Apache Spark, deres betydning, sammenligning af hoved til hoved, nøgleforskelle, sammenligningstabel og konklusion. Du kan også se på de følgende artikler for at lære mere -