Spark Interview Spørgsmål - Top 12 spørgsmål opdateret til 2018

Indholdsfortegnelse:

Anonim

Introduktion til gnistintervjuespørgsmål og svar

Apache Spark er en open-source ramme. Spark, da det er en open source-platform, kan vi bruge flere programmeringssprog som java, python, Scala, R. Sammenlignet med Map-Reduce-procesydelse hjælper gnist med at forbedre udførelsesydelsen. Det giver også 100 gange hurtigere udførelse i hukommelsen end Map-Reduce. På grund af gnistens processorkraft foretrækker industrier i dag gnist.

Så du har endelig fundet dit drømmejob i Spark, men spekulerer på, hvordan du sprækker Spark Interview og hvad der kan være de sandsynlige Spark Interview Spørgsmål for 2018. Hvert interview er anderledes, og omfanget af et job er også anderledes. Med dette i tankerne har vi designet de mest almindelige Spark Interview Spørgsmål og svar for 2018 for at hjælpe dig med at få succes i dit interview.

Disse spørgsmål er opdelt i to dele

Del 1 - Spark Interview Interview (Basic)

Denne første del dækker grundlæggende Spark-interviewspørgsmål og -svar

1. Hvad er gnist?

Svar:
Apache Spark er en open-source ramme. Det forbedrer eksekveringsydelsen end Map-Reduce-processen. Det er en åben platform, hvor vi kan bruge flere programmeringssprog som Java, Python, Scala, R. Spark giver eksekvering i hukommelsen, som er 100 gange hurtigere end Map-Reduce. Det bruger begrebet RDD. RDD er et elastisk distribueret datasæt, der tillader det gennemsigtigt at gemme data i hukommelsen og fortsætte med at diske kun det er nødvendigt. Det er her, det vil reducere tiden for at få adgang til dataene fra hukommelsen i stedet for Disk. I dag foretrækker industrien Spark på grund af sin behandlingskraft.

2. Forskel mellem Hadoop og Spark?

Svar:

FunktionskriterierApache gnistHadoop
Hastighed10 til 100 gange hurtigere end HadoopNormal hastighed
ForarbejdningReal-time & batch-behandling, In-memory, CacheKun batchbehandling, Diskafhængig
VanskelighedLet på grund af moduler på højt niveauSvær at lære
GenopretningTillader gendannelse af partitioner ved hjælp af RDDFejl tolerant
InteraktivitetHar interaktive, interaktive tilstandeIngen interaktiv tilstand undtagen Pig & Hive, Ingen iterativ tilstand

Normal Hadoop-arkitektur følger grundlæggende kortreducering, for den samme proces giver gnist udførelse i hukommelsen. I stedet for at læse-skrive fra harddisken til Map-Reduce giver gnist læsning fra virtuel hukommelse.

Lad os gå til de næste Spark Interview-spørgsmål

3. Hvad er funktionerne i gnist?

Svar:

  1. Sørg for integrationsfacilitet med Hadoop og filer på HDFS. Gnist kan køre oven på Hadoop ved hjælp af YARN-ressourceklynger. Spark har kapacitet til at erstatte Hadoop's Map-Reduce-motor.
  2. Polyglot: Spark Giv API på højt niveau til Java, Python, Scala og R. Gnistkode kan skrives på et af disse fire sprog. IT leverer en uafhængig skal til skala (det sprog, som gnister er skrevet i) og en python-tolk. Hvilket vil hjælpe med at interagere med gnistmotor? Scala shell kan fås via ./bin/spark-shell og Python shell gennem ./bin/pyspark fra det installerede bibliotek.
  3. Hastighed: Gnistmotor er 100 gange hurtigere end Hadoop Map-Reduce til databehandling i stor skala. Hastighed opnås gennem partitionering til parallelisering af distribueret databehandling med minimal netværkstrafik. Spark Provide RDD 's (Resilient Distribuerede datasæt), som kan cachelagres på tværs af computernoder i en klynge
  4. Flere formater: Spark har en datakilde API. Det vil tilvejebringe en mekanisme til at få adgang til strukturerede data gennem gnist SQL. Datakilder kan være hvad som helst, Spark vil bare oprette en mekanisme til at konvertere dataene og trække dem til gnisten. Spark understøtter flere datakilder som Hive, HBase, Cassandra, JSON, Parket, ORC.
  5. Spark giver nogle indbyggede biblioteker til at udføre flere opgaver fra den samme kerne som batchbehandling, dampning, maskinlæring, interaktive SQL-forespørgsler. Hadoop understøtter dog kun batchbehandling. Gnist Leverer MLIb (bibliotek for maskinindlæring), som vil være nyttigt for Big-Data Developer at behandle dataene. Dette hjælper med at fjerne afhængigheder af flere værktøjer til et andet formål. Spark giver en fælles kraftfuld platform til dataingeniører og datavidenskabere med både hurtig ydeevne og let at bruge.
  6. Apache Spark forsinker udførelsen af ​​processen, indtil handlingen er nødvendig. Dette er en af ​​de vigtigste egenskaber ved gnist. Spark tilføjer hver transformation til DAG (Direct Acyclic Graph) til udførelse, og når handling vil udføre, vil den faktisk udløse DAG til at behandle.
  7. Realtime-streaming: Apache Spark Tilvejebringer realtidsberegninger og lav latenstid på grund af eksekvering i hukommelsen. Spark er designet til store skalerbarheder som en tusind knude i klyngen og flere modeller til beregninger.

4. Hvad er YARN?

Svar:
Dette er de grundlæggende Spark Interview-spørgsmål, der stilles i et interview. YARN (endnu en ressourceforhandler) er ressource manager. Spark er en platform, der giver hurtig udførelse. Spark vil bruge YARN til udførelse af jobbet til klyngen snarere end sin egen indbyggede manager. Der er nogle konfigurationer til at køre Garn. De inkluderer master, distribution-mode, driver-hukommelse, eksekutor-hukommelse, eksekutorkerner og kø. Dette er de almindelige gnistintervju Spørgsmål, der stilles i et interview nedenfor, er fordelene ved gnist:

Fordele ved gnist frem for kortreducering

Gnist har fordele i forhold til Map-Reduce som følger: -
På grund af evnen til In-memory-processen er Spark i stand til at udføre 10 til 100 gang hurtigere end Map-Reduce. Hvor Map-Reduce kan bruges til persistens af data i Map and Reduce-stadiet.

Apache Spark leverer et højt niveau af indbyggede biblioteker til behandling af flere opgaver på samme tid som batchbehandling, realtidstrømning, Spark-SQL, struktureret streaming, MLib osv. Samme tid Hadoop giver kun batchbehandling.
Hadoop Map-Reduce-processen vil være diskafhængig, hvor Spark leverer cache og in-memory.

Spark har både iterativ, udfør beregningsmultipel på det samme datasæt og interaktiv, udfører beregning mellem forskellige datasæt, hvor Hadoop ikke understøtter iterativ beregning.

5. Hvad understøttes sprog af Spark?

Svar:
Spark support scala, Python, R og Java. På markedet foretrækker stort dataudvikler for det meste scala og python. For en skala, der skal kompilere koden, har vi brug for Angiv sti for skala / skraldespand eller for at lave en jarfil

6. Hvad er RDD?

Svar:
RDD er en abstraktion af Resilient Distribueret datasæt, der giver en samling af elementer, der er delt op i alle noder i klyngen, hvilket vil hjælpe med at udføre flere processer parallelt. Brug af RDD-udvikler kan gemme dataene i hukommelsen eller cachen, så de kan genbruges effektivt til parallel udførelse af operationer. RDD kan let gendannes fra knudepunktfejl.

Del 2 - Spark-interviewspørgsmål (avanceret)

Lad os nu se på de avancerede Spark Interview Questions.

7. Hvilke faktorer er ansvarlige for udførelsen af ​​Spark?

Svar:
1. Spark giver eksekvering i hukommelsen i stedet for diskafhængig som Hadoop Map-Reduce.
2.RDD Resilient Distribueret datasæt, som er en ansvarlig parallel udførelse af flere operationer på alle noder i en klynge.
3. Spark giver en delt variabel-funktion til parallel udførelse. Disse variabler hjælper med at reducere dataoverførsel mellem noder og dele en kopi af alle noder. Der er to variabler.
4.Broadcast-variabel: Denne variabel kan bruges til at cache en værdi i hukommelsen på alle noder
5.Akkumulatorvariabel: Denne variabel er kun "tilføjet" til, såsom tællere og summer.

8. Hvad er eksekutivhukommelse?

Svar:
Dette er de ofte stillede Spark Interview Questions i et interview. Det er heap-størrelse, der er tildelt til gnistudførende. Denne egenskab kan kontrolleres af spark.executor.memory egenskaben af ​​flaget –executor-memory. Hver Spark-applikation har en eksekutor for hver arbejderknude. Denne egenskab refererer til, hvor meget hukommelse af arbejderknudene, der vil blive allokeret til en applikation.

9. Hvordan bruger du Spark Stream? Forklar en brugssag?

Svar:
Spark Stream er en af ​​de funktioner, der er nyttige i en realtidsbrugssag. Vi kan bruge flume, Kafka med en gnist til dette formål. Flume udløser dataene fra en kilde. Kafka fortsætter dataene til emnet. Fra Kafka vil Spark trække dataene ved hjælp af strømmen, og det vil D-streame dataene og udføre transformationen.

Vi kan bruge denne proces til en mistænkelig transaktion i realtid, tilbud i realtid osv.

Lad os gå til de næste Spark Interview-spørgsmål

10. Kan vi bruge Spark til ETL-processen?

Svar:
Ja, vi kan bruge gnistplatform til ETL-processen.

11. Hvad er Spark SQL?

Svar:
Det er en speciel gnistkomponent, der understøtter SQL-forespørgsler.

12. Hvilken doven evaluering?

Svar:
Når vi arbejder med en gnist, evalueres transformationer ikke, før du udfører en handling. Dette hjælper med at optimere den overordnede databehandlingsarbejdsgang. Når du definerer transformation, tilføjes det til DAG (Direct Acyclic Graph). Og på handlingstidspunktet vil det begynde at udføre trinvise transformationer. Dette er det nyttige Spark Interview-spørgsmål, der stilles i et interview.

Anbefalet artikel

Dette har været en guide til Liste over Spark Interview Spørgsmål og svar, så kandidaten nemt kan slå disse Spark Interview spørgsmål til. Du kan også se på de følgende artikler for at lære mere-

  1. Java vs Node JS forenkler forskellene
  2. Mongo Database Interview spørgsmål | Nyttige og mest stillede
  3. 15 mest succesrige R-interviewspørgsmål og svar
  4. Perl Interview Spørgsmål og svar
  5. SAS System Interview Interview - Top 10 nyttige spørgsmål