Sådan installeres gnist?
Spark er en open source-ramme til at køre analytiske applikationer. Det er en databehandlingsmotor, der er vært hos leverandør - uafhængig Apache Software Foundation, der arbejder på store datasæt eller big data. Det er et almindeligt beregningssystem til klynger, der leverer API'er på højt niveau i Scala, Python, Java og R. Det blev udviklet for at overvinde begrænsningerne i Mapoopreduce-paradigmet i Hadoop. Dataforskere mener, at Spark udfører 100 gange hurtigere end MapReduce, da det kan cache data i hukommelsen, mens MapReduce fungerer mere ved at læse og skrive på diske. Den udfører in-memory-behandling, hvilket gør den mere kraftfuld og hurtig.
Spark har ikke sit eget filsystem. Det behandler data fra forskellige datakilder såsom Hadoop Distribueret filsystem (HDFS), Amazons S3-system, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Det kan køre på Hadoop YARN (Yet Another Resource Negotiator), på Mesos, på EC2, på Kubernetes eller ved hjælp af standalone cluster mode. Det bruger RDD'er (Resilient Distribueret Datasæt) til at delegere arbejdsbelastning til individuelle noder, der understøtter i iterative applikationer. På grund af RDD er programmering let sammenlignet med Hadoop.
Spark består af forskellige komponenter kaldet Spark Ecosystem Components.
- Spark Core: Det er fundamentet i Spark-applikationen, som andre komponenter er direkte afhængige af. Det giver en platform til en lang række applikationer, såsom planlægning, distribueret opgaveforsendelse, i hukommelsesbehandling og datahenvisning.
- Gniststreaming: Det er den komponent, der fungerer på live streaming-data til at levere realtidsanalyse. Live-data indtages i diskrete enheder kaldet batches, der udføres på Spark Core.
- Spark SQL: Det er den komponent, der fungerer oven på Spark core til at køre SQL-forespørgsler på strukturerede eller semistrukturerede data. Dataramme er måden at interagere med Spark SQL på.
- GraphX: Det er grafenberegningsmotoren eller -rammen, der tillader behandling af grafdata. Det giver forskellige grafalgoritmer, der skal køres på Spark.
- MLlib: Det indeholder maskinlæringsalgoritmer, der giver maskinelæringsrammer i et hukommelsesbaseret distribueret miljø. Det udfører iterative algoritmer effektivt på grund af kapaciteten til databehandling i hukommelsen.
- SparkR: Spark leverer en R-pakke til at køre eller analysere datasæt ved hjælp af R shell.
Der er tre måder at installere eller implementere gnist til dine systemer:
- Standalone Mode i Apache Spark
- Hadoop YARN / Mesos
- SIMR (Spark in MapReduce)
Lad os se installationen i standalone-tilstand.
Spark Standalone Deployment Mode:
Trin 1: Opdater pakkeindekset
Dette er nødvendigt for at opdatere alle de nuværende pakker på din maskine.
Brug kommando : $ sudo apt-get-opdatering
Trin 2: Installer Java Development Kit (JDK)
Dette installerer JDK på din maskine og vil hjælpe dig med at køre Java-applikationer.
Trin 3: Kontroller, om Java er installeret korrekt
Java er en forudsætning for at bruge eller køre Apache Spark-applikationer.
Brug kommando : $ java –version
Dette skærmbillede viser java-versionen og sikrer tilstedeværelsen af java på maskinen.
Trin 4: Installer Scala på din maskine
Da Spark er skrevet i skala, skal skalaen installeres for at køre gnist på din maskine.
Brug kommando: $ sudo apt-get install scala
Trin 5: Kontroller, om Scala er korrekt installeret
Dette vil sikre en vellykket installation af skalaen på dit system.
Brug kommando : $ skala –version
Trin 6: Download Apache Spark
Download Apache Spark i henhold til din Hadoop-version fra https://spark.apache.org/downloads.html
Når du fortsætter med ovenstående link, vises et vindue.
Trin 7: Vælg den passende version i henhold til din Hadoop-version og klik på det markerede link.
Et andet vindue vises.
Trin 8: Klik på det markerede link, og Apache-gnist vil blive downloadet i dit system.
Kontroller, om .tar.gz- filen er tilgængelig i download-mappen.
Trin 9: Installer Apache Spark
For installation af Spark skal tarefilen udvindes.
Brug kommando: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
Du skal ændre den version, der er nævnt i kommandoen, i henhold til din downloadede version. I dette har vi downloadet spark-2.4.0-bin-hadoop2.7 version.
Trin 10: Opsæt miljøvariabel til Apache Spark
Brug Kommando: $ kilde ~ / .bashrc
Tilføj linje : eksport PATH = $ PATH: / usr / local / spark / bin
Trin 11: Kontroller installationen af Apache Spark
Brug kommando : $ gnistskal
Hvis installationen var vellykket, produceres følgende output.
Dette betyder den vellykkede installation af Apache Spark på din maskine, og Apache Spark starter i Scala.
Implementering af gnist på Hadoop YARN:
Der er to tilstande til at implementere Apache Spark på Hadoop YARN.
- Cluster-tilstand: I denne tilstand administrerer YARN på cluster den Spark-driver, der kører inden for en applikations-masterproces. Efter at applikationen er startet, kan klienten gå.
- Klienttilstand: I denne tilstand bliver ressourcerne anmodet om fra YARN af applikationsmaster og Spark-driver kører i klientprocessen.
Brug kommando til at distribuere et Spark-program i klyngtilstand:
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
Ovenstående kommando starter et YARN-klientprogram, der starter standard Application Master.
Brug kommando til at distribuere et Spark-program i klienttilstand:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
Du kan køre gnisterskal i klienttilstand ved hjælp af kommandoen:
$ spark-shell –master yarn –deploy-mode client
Tip og tricks til brug af gnistinstallation:
- Sørg for, at Java er installeret på din maskine, før du installerer gnist.
- Hvis du bruger scala-sprog, skal du sikre dig, at skalaen allerede er installeret, før du bruger Apache Spark.
- Du kan bruge Python også i stedet for Scala til programmering i Spark, men det skal også være forinstalleret som Scala.
- Du kan også køre Apache Spark på Windows, men det foreslås at oprette en virtuel maskine og installere Ubuntu ved hjælp af Oracle Virtual Box eller VMWare Player .
- Gnist kan køre uden Hadoop (dvs. standalone-tilstand), men hvis der kræves en opsætning med flere noder, er det nødvendigt med ressourceforvaltere som YARN eller Mesos.
- Når du bruger YARN, er det ikke nødvendigt at installere Spark på alle tre noder. Du skal kun installere Apache Spark på en knude.
- Når du bruger YARN, hvis du er i samme lokale netværk med klyngen, kan du bruge klienttilstand, mens du, hvis du er langt væk, kan bruge klyngtilstand.
Anbefalede artikler - Spark Install
Dette har været en guide til, hvordan du installerer Spark. Her har vi set, hvordan man installerer Apache Spark i standalone-tilstand og på toppen af resource manager YARN og også Nogle tip og tricks er også nævnt for en problemfri installation af Spark. Du kan også se på den følgende artikel for at lære mere -
- Sådan bruges gnistkommandoer
- En karriere inden for gnist - du skal prøve
- Forskelle på Splunk vs Spark
- Spark Interview Spørgsmål og svar
- Fordele ved gniststreaming
- Typer af sammenføjninger i Spark SQL (eksempler)