Introduktion til Hive-interviewspørgsmål og svar

I den nye datatid er Hive en open source petabyte skala ETL- og datalagringsinfrastrukturværktøjspakke til lagring af strukturerede og ustrukturerede data, der bygger på Distribueret filsystem (HDFS)
til analyse, forespørgsel og minedrift af enorme volumendatasæt ved at aktivere SQL-lignende sprog kaldet HiveQL (HQL) og let udførelse af forespørgsel ved at planlægge Hadoop MapReduce.

Hive er bygget oven på Hadoop for at behandle og analysere Big Data og gør forespørgsler let.
Hive blev oprindeligt oprettet af Facebook, senere blev den yderligere forbedret og udviklet som en open source af Apache Software Foundation og navngivet den som Apache Hive. Der er nu mange virksomheder, der bruger Apache Hive til deres Big Data-løsninger.

Hvis du leder efter et job, der er relateret til Hive, er du nødt til at forberede dig på spørgsmålene til Hive-interviewet i 2018. Selvom hvert interview er forskelligt, og omfanget af et job er også anderledes, kan vi hjælpe dig med de vigtigste 2018 Hive Interview Spørgsmål og svar, som vil hjælpe dig med at tage springet og få dig succes i dit interview.

Nedenfor er den øverste liste over spørgsmål om Hive-interview, der oftest stilles i et interview. Disse spørgsmål er opdelt i to dele er som følger:

Del 1 - Hive-interviewspørgsmål (grundlæggende)

Denne første del dækker grundlæggende spørgsmål om Hive-interview og svar.

1. Liste over de forskellige komponenter i Hive-arkitektur?

Svar:
Der er fem kernekomponenter i Hive-arkitektur er anført nedenfor:
• Brugergrænseflade (UI): Det fungerer som en kommunikator mellem brugere og drivere, når brugeren skriver de forespørgsler, som brugergrænsefladen accepterer det og kører det på driveren, der er to typer interface tilgængeligt, de er kommandolinje og GUI-interface.
• Driver: Det opretholder livscyklussen for HiveQL-forespørgslen. Det modtager forespørgsler fra brugergrænsefladen og opretter sessionen til behandling af forespørgslen.
• Compiler: Den modtager forespørgselsplanerne fra driveren og får de nødvendige oplysninger fra Metastore for at udføre planen.
• Metastore: Det gemmer oplysningerne om dataene som en tabel; det kan være af en intern eller ekstern tabel. Det sender metadataoplysningerne til kompilatoren for at udføre forespørgslen.
• Udfør motor: Hive-service udfører resultatet i eksekveringsmotor; den udfører forespørgslen i MapReduce for at behandle dataene. Det er ansvarligt for at kontrollere hvert trin for alle disse komponenter.

2. Hvilke er de forskellige typer tilstande, som Hive kan betjene?

Svar:
Dette er de almindelige spørgsmål om Hive-interviews, der stilles i et interview. Hive kan fungere i to tilstande baseret på datastørrelse,
Disse tilstande er:
• Kortreduktionstilstand
•Lokal tilstand

3. Hvilke er scenarierne, hvor Hive kan bruges og ikke kan bruges?

Svar :
Når du opretter datavarehusapplikationer, når dine data er statisk, når din applikation ikke har brug for høj responstid, når datavolumen er enorm, når dataene ikke ændrer sig hurtigt, og når du bruger forespørgsler i stedet for scripting. Hive understøtter kun OLAP-transaktioner, det er ikke egnet til OLTP-transaktioner.

Lad os gå til de næste spørgsmål om Hive-interview.

4. Hvad er filformaterne, som Hive understøtter? Vis den type applikationer, der understøttes af HIVE?

Svar:
Som standard understøtter Hive Tekstfilformat, og det understøtter også det binære filformat, såsom Sekvensfil, ORC-filer, Parketfiler, Avro-datafiler.
• Sekvensfil: Det er generelt en fil i binært format, som kan komprimeres og kan deles.
• ORC-fil: Optimeret række kolonnefil er optaget kolonnebaseret fil og kolonneorienteret lagerfil.
• Parketfil: Det er en kolonneorienteret binær fil, den er yderst effektiv til storskala forespørgsler.
• Avro-datafil: Det er det samme som sekvensfilformat, som er en opdelbar, komprimerbar og rækkeorienteret fil.
Den maksimale størrelse på den tilladte strengdatatype i Hive er 2 GB.

Hive er et datalagerramme, der er egnet til de applikationer, der er skrevet i Java, C ++, PHP, Python eller Ruby.

5. Hvad er de forskellige typer tabeller, der er tilgængelige i Hive?

Svar:
Der er to typer af tabeller i Hive-applikationen, de er:
• Administrerede tabeller: Dataene og skemaet kontrollerer Hive.
• Eksterne tabeller: Kun skemaet kontrollerer Hive.

Del 2 - Hive-interviewspørgsmål (avanceret)

Lad os nu se på de avancerede spørgsmål om Hive-interview.

6. Hvad er en metastore i Hive? Liste og forklar de forskellige typer Hive Metastores-konfiguration?

Svar:
Metastore i Hive bruges til at gemme metadatainformationen, det er et centralt arkiv i Hive. Det gør det muligt at gemme metadatainformationen i en ekstern database. Som standard gemmer Hive Metadata-oplysninger i Derby-databasen, men de kan også gemmes i andre databaser, såsom Oracle, MySql osv.
Der er tre typer Metastore-konfiguration, de er:
• Embedded metastore: Det er en standardtilstand; det kan lokalt få adgang til Hive-biblioteket, alle kommandolinjefunktioner udføres i integreret tilstand. Hive-tjenesten, metastore-tjenesten og databasen køres i samme JVM.
• Lokal metastore: Det gemmer data i en ekstern database som MySql eller Oracle. Hive-tjenesten og metastore-tjenesten kører i samme JVM, den forbindes til databasen, der kører i separat JVM.
• Fjernmetastore: Den bruger fjerntilstanden til at køre forespørgsler, her kører metastore-tjenesten og hive-tjenesten i en separat JVM. Du kan have flere metastore-servere for at øge tilgængeligheden.

7. Hvad er en Hive Query-processor? Hvad er de forskellige komponenter i Hive Query-processoren?

Svar:
Dette er de ofte stillede spørgsmål om Hive-interview i et interview. Hive Query-processor bruges til at konvertere SQL til MapReduce-job. Baseret på rækkefølgen af ​​afhængigheder udføres jobene.
Komponenterne i Hive Query Processor er vist nedenfor:
• Semantisk analysator
• UDF'er og UDAF'er
• Optimizer
•Operatør
• Parser
• Udførelsesmotor
• Type kontrol
• Generering af logisk plan
• Fysisk plangenerering

8. Hvad er funktionaliteten af ​​Object-Inspector i Hive?

Svar:
Det er sammensat af Hive, der bruges til at identificere strukturen i de enkelte søjler og den indre struktur af rækkeemner. De komplekse objekter, der er gemt i flere formater, kan fås ved hjælp af Object-Inspector i Hive.
Objektinspektør identificerer strukturen af ​​et objekt og måder at få adgang til de interne felter inde i objektet.

Lad os gå til de næste spørgsmål om Hive-interview.

9. Hvad er de forskellige måder at forbinde programmerne til Hive Server?

Svar:
Der er tre måder at forbinde programmerne til Hive-serveren, de er:
• Thrift Client: Dette bruges til at køre alle hive-kommandoer ved hjælp af et andet programmeringssprog som Java, C ++, PHP, Python eller Ruby.
• ODBC Driver: Dette understøtter ODBC-protokollen
• JDBC Driver: Dette understøtter JDBC-protokollen

10. Hvad er standard læse- og skriveklasser i Hive?

Svar:
Nedenfor er læse- og skriveklasser tilgængelige i Hive:
• TextInputFormat - Denne klasse bruges til at læse data i almindelig tekstformat.
• HiveIgnoreKeyTextOutputFormat - Denne klasse bruges til at skrive data i almindelig tekstformat.
• SequenceFileInputFormat - Denne klasse bruges til at læse data i Hadoop Sequence-filformat.
• SequenceFileOutputFormat - Denne klasse bruges til at skrive data i Hadoop Sequence-filformat.

Anbefalet artikel

Dette har været en guide til Liste over Hive-interviewspørgsmål og-svar, så kandidaten let kan slå sammen disse Hive-interviewspørgsmål. Du kan også se på de følgende artikler for at lære mere -

  1. Top 5 nyttige DBA-interviewspørgsmål og svar
  2. 12 mest fantastiske GitHub-interviewspørgsmål og svar
  3. 15 vigtigste Ruby Interview spørgsmål og svar
  4. Top 10 mest nyttige HBase-interviewspørgsmål