Installer gnist - Komplet guide til installation af gnist

Sådan installeres gnist?

Spark er en open source-ramme til at køre analytiske applikationer. Det er en databehandlingsmotor, der er vært hos leverandør - uafhængig Apache Software Foundation, der arbejder på store datasæt eller big data. Det er et almindeligt beregningssystem til klynger, der leverer API'er på højt niveau i Scala, Python, Java og R. Det blev udviklet for at overvinde begrænsningerne i Mapoopreduce-paradigmet i Hadoop. Dataforskere mener, at Spark udfører 100 gange hurtigere end MapReduce, da det kan cache data i hukommelsen, mens MapReduce fungerer mere ved at læse og skrive på diske. Den udfører in-memory-behandling, hvilket gør den mere kraftfuld og hurtig.

Spark har ikke sit eget filsystem. Det behandler data fra forskellige datakilder såsom Hadoop Distribueret filsystem (HDFS), Amazons S3-system, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Det kan køre på Hadoop YARN (Yet Another Resource Negotiator), på Mesos, på EC2, på Kubernetes eller ved hjælp af standalone cluster mode. Det bruger RDD'er (Resilient Distribueret Datasæt) til at delegere arbejdsbelastning til individuelle noder, der understøtter i iterative applikationer. På grund af RDD er programmering let sammenlignet med Hadoop.

Spark består af forskellige komponenter kaldet Spark Ecosystem Components.

Spark Core: Det er fundamentet i Spark-applikationen, som andre komponenter er direkte afhængige af. Det giver en platform til en lang række applikationer, såsom planlægning, distribueret opgaveforsendelse, i hukommelsesbehandling og datahenvisning.
Gniststreaming: Det er den komponent, der fungerer på live streaming-data til at levere realtidsanalyse. Live-data indtages i diskrete enheder kaldet batches, der udføres på Spark Core.
Spark SQL: Det er den komponent, der fungerer oven på Spark core til at køre SQL-forespørgsler på strukturerede eller semistrukturerede data. Dataramme er måden at interagere med Spark SQL på.
GraphX: Det er grafenberegningsmotoren eller -rammen, der tillader behandling af grafdata. Det giver forskellige grafalgoritmer, der skal køres på Spark.
MLlib: Det indeholder maskinlæringsalgoritmer, der giver maskinelæringsrammer i et hukommelsesbaseret distribueret miljø. Det udfører iterative algoritmer effektivt på grund af kapaciteten til databehandling i hukommelsen.
SparkR: Spark leverer en R-pakke til at køre eller analysere datasæt ved hjælp af R shell.

Der er tre måder at installere eller implementere gnist til dine systemer:

Standalone Mode i Apache Spark
Hadoop YARN / Mesos
SIMR (Spark in MapReduce)

Lad os se installationen i standalone-tilstand.

Spark Standalone Deployment Mode:

Trin 1: Opdater pakkeindekset

Dette er nødvendigt for at opdatere alle de nuværende pakker på din maskine.

Brug kommando : $ sudo apt-get-opdatering

Trin 2: Installer Java Development Kit (JDK)

Dette installerer JDK på din maskine og vil hjælpe dig med at køre Java-applikationer.

Trin 3: Kontroller, om Java er installeret korrekt

Java er en forudsætning for at bruge eller køre Apache Spark-applikationer.

Brug kommando : $ java –version

Dette skærmbillede viser java-versionen og sikrer tilstedeværelsen af java på maskinen.

Trin 4: Installer Scala på din maskine

Da Spark er skrevet i skala, skal skalaen installeres for at køre gnist på din maskine.

Brug kommando: $ sudo apt-get install scala

Trin 5: Kontroller, om Scala er korrekt installeret

Dette vil sikre en vellykket installation af skalaen på dit system.

Brug kommando : $ skala –version

Trin 6: Download Apache Spark

Download Apache Spark i henhold til din Hadoop-version fra https://spark.apache.org/downloads.html

Når du fortsætter med ovenstående link, vises et vindue.

Trin 7: Vælg den passende version i henhold til din Hadoop-version og klik på det markerede link.

Et andet vindue vises.

Trin 8: Klik på det markerede link, og Apache-gnist vil blive downloadet i dit system.

Kontroller, om .tar.gz- filen er tilgængelig i download-mappen.

Trin 9: Installer Apache Spark

For installation af Spark skal tarefilen udvindes.

Brug kommando: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Du skal ændre den version, der er nævnt i kommandoen, i henhold til din downloadede version. I dette har vi downloadet spark-2.4.0-bin-hadoop2.7 version.

Trin 10: Opsæt miljøvariabel til Apache Spark

Brug Kommando: $ kilde ~ / .bashrc

Tilføj linje : eksport PATH = $ PATH: / usr / local / spark / bin

Trin 11: Kontroller installationen af Apache Spark

Brug kommando : $ gnistskal

Hvis installationen var vellykket, produceres følgende output.

Dette betyder den vellykkede installation af Apache Spark på din maskine, og Apache Spark starter i Scala.

Implementering af gnist på Hadoop YARN:

Der er to tilstande til at implementere Apache Spark på Hadoop YARN.

Cluster-tilstand: I denne tilstand administrerer YARN på cluster den Spark-driver, der kører inden for en applikations-masterproces. Efter at applikationen er startet, kan klienten gå.
Klienttilstand: I denne tilstand bliver ressourcerne anmodet om fra YARN af applikationsmaster og Spark-driver kører i klientprocessen.

Brug kommando til at distribuere et Spark-program i klyngtilstand:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Ovenstående kommando starter et YARN-klientprogram, der starter standard Application Master.

Brug kommando til at distribuere et Spark-program i klienttilstand:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Du kan køre gnisterskal i klienttilstand ved hjælp af kommandoen:

$ spark-shell –master yarn –deploy-mode client

Tip og tricks til brug af gnistinstallation:

Sørg for, at Java er installeret på din maskine, før du installerer gnist.
Hvis du bruger scala-sprog, skal du sikre dig, at skalaen allerede er installeret, før du bruger Apache Spark.
Du kan bruge Python også i stedet for Scala til programmering i Spark, men det skal også være forinstalleret som Scala.
Du kan også køre Apache Spark på Windows, men det foreslås at oprette en virtuel maskine og installere Ubuntu ved hjælp af Oracle Virtual Box eller VMWare Player .
Gnist kan køre uden Hadoop (dvs. standalone-tilstand), men hvis der kræves en opsætning med flere noder, er det nødvendigt med ressourceforvaltere som YARN eller Mesos.
Når du bruger YARN, er det ikke nødvendigt at installere Spark på alle tre noder. Du skal kun installere Apache Spark på en knude.
Når du bruger YARN, hvis du er i samme lokale netværk med klyngen, kan du bruge klienttilstand, mens du, hvis du er langt væk, kan bruge klyngtilstand.

Anbefalede artikler - Spark Install

Dette har været en guide til, hvordan du installerer Spark. Her har vi set, hvordan man installerer Apache Spark i standalone-tilstand og på toppen af resource manager YARN og også Nogle tip og tricks er også nævnt for en problemfri installation af Spark. Du kan også se på den følgende artikel for at lære mere -

Sådan bruges gnistkommandoer
En karriere inden for gnist - du skal prøve
Forskelle på Splunk vs Spark
Spark Interview Spørgsmål og svar
Fordele ved gniststreaming
Typer af sammenføjninger i Spark SQL (eksempler)

Installer gnist - Komplet guide til installation af gnist

Indholdsfortegnelse:

Sådan installeres gnist?

Spark består af forskellige komponenter kaldet Spark Ecosystem Components.