Introduktion til Sqoop Interview Spørgsmål og svar

Sqoop er et open source-dataoverførselsværktøj, Sqoop-værktøj overfører dataene mellem Hadoop Ecosystem og Relational Database Servers (RDBMS). Det importerer dataene til Hadoop-filsystemet (HDFS), fra relationelle databaser som Oracle, MySQL osv., Og eksporterer også data fra Hadoop-filsystemet til RDMS.

Nedenfor er de 15 vigtige Sqoop-interviewspørgsmål og svar i 2019:

Så du har endelig fundet dit drømmejob i Sqoop, men spekulerer på, hvordan du sprækker Sqoop-interviewet, og hvad der kan være de sandsynlige Sqoop-interviewspørgsmål i 2019. Hver samtale er forskellig, og omfanget af et job er også anderledes. Med dette i tankerne har vi designet de mest almindelige Sqoop Interview Spørgsmål og svar, så du får succes i dit interview.

Disse spørgsmål er opdelt i to dele er som følger:

Del 1 - Sqoop Interview Spørgsmål (Grundlæggende)

Denne første del dækker grundlæggende Sqoop Interview Spørgsmål og svar.

1. Definer Sqoop, og hvorfor bruger vi Sqoop?

Svar:
Sqoop er et open source-dataoverførselsværktøj, der er designet til at overføre data mellem Hadoop Ecosystem og Relational Database Servers (RDBMS). Sqoop bruges til at importere dataene fra relationelle databaser som Oracle, MySQL osv. Til Hadoop-filsystemet (HDFS), og også til at eksportere data fra Hadoop-filsystemet til relationelle databaser.

2. Hvad er de forskellige funktioner i Sqoop?

Svar:
Nedenfor er de forskellige funktioner understøttet af Sqoop -

  1. Indlæsningskapacitet
  2. Fuld belastning og trinvis indlæsning
  3. Datakomprimeringsteknikker
  4. Import af SQL-forespørgselsresultater
  5. Datakonnektorer til alle de store databaser
  6. Direkte understøttelse af indlæsning af data i Hadoop File Systems
  7. Sikkerhedskonfigurationer som Kerberos
  8. Samtidig import- eller eksportfunktioner

Lad os gå videre til de næste Sqoop-interviewspørgsmål.

3. Navngiv de relationelle databaser og Hadoop-økosystemkilder, der understøttes i Sqoop?

Svar:
Sqoop understøtter i øjeblikket MySQL, PostgreSQL, Oracle, MSSQL, Teradata og IBMs Netezza som en del af Relationsdatabaser.

I øjeblikket understøttede Hadoop Eco-system destinationstjenester er HDFC, Hive, HBase, H Catalog og Accumulo.

Sqoop bruger MySQL som standarddatabase.

4. Hvordan fungerer Sqoop?

Svar:
Dette er de almindelige Sqoop-interviewspørgsmål, der stilles i et interview. For at udføre dataoverførsel bruger Sqoop eksport- og importkommandoer. Map Reduce-program bruges internt i Sqoop til lagring af datasæt til HDFS. Kommandoer vil blive tilknyttet kortopgaver for at hente data fra relationelle databaser; Reducer opgaven tager ansvaret for at placere de hentede data på destinationerne (HDFS / HBase / Hive)

Sqoop bruger også forskellige API-stik til forbindelse med flere databaser. Sqoop giver også muligheden for at oprette brugerdefinerede stik, der opfylder specifikke krav.

Lad os se eksemplekommandoerne nedenfor til import og eksport

En kommando til forbindelse til MySQL-database til import af data fra 'Log' -tabellen

sqoop import –forbind jdbc: mysql: // localhost / –username –password –tabel –m 1
sqoop import –forbind jdbc: mysql: // localhost / mytestdb –brugernavn rod –adgangsord admin123 –tabel log –m 1

En kommando til eksportering af data fra HDFS til relationsdatabase

sqoop eksport –forbind jdbc: mysql: // localhost / sqoop_export –tabel eksport-dir / sqoop / emp_last / part-m-00000 –update-key id
sqoop eksport –forbind jdbc: mysql: // localhost / sqoop_export –tabel log_table – eksport-dir / sqoop / data / foler1 / del-m-00000

5. Hvad er Sqoop Metastore? Forklar det?

Svar:
Sqoop Metastore er et værktøj, der er tilgængeligt i Sqoop, som vil blive brugt til at konfigurere Sqoop-applikationen til at muliggøre hosting af et delt lager i form af metadata. Denne Metastore kan bruges til at udføre job og styre et antal brugere baseret på brugerroller og aktiviteter. Alle flere brugere kan udføre flere opgaver eller operationer samtidig for at udføre opgaverne effektivt. Sqoop Metastore implementeres som standard i en hukommelsesrepræsentation. Når der oprettes et job i Sqoop, gemmes jobdefinitionen inde i Metastore og vises, hvis det er nødvendigt, med Sqoop-job.

6. Hvilke filformater understøtter Sqoop under import af dataene?

Svar:
Sqoop bruger to filformater til dataimport. De er: - Afgrænset testfilformat og sekvensfilformat.

Afgrænset tekstfilformat : Afgrænset tekstformat er standardfilformatet til import. Vi kan stadig eksplicit specificere ved hjælp af argumentet –as- tekstil. Ligeledes ved at videresende argumentet indstilles afgrænsningstegn mellem rækker og kolonner.

Sekvensfilformat : Dette filformat kan vi sige, at det er et binært filformat. Denne type formatfilposter gemmes i brugerdefinerede postspecifikke datatyper, der er eksponeret som Java-klasser.

Lad os gå videre til de næste Sqoop-interviewspørgsmål.

7. Kan vi kontrollere et antal kortlægninger i sqoop? Hvis ja, hvordan?

Svar:
Ja, vi kan kontrollere antallet af kortlæggere i Sqoop ved at specificere parameteren "-num-kortlægning" i kommandoen sqoop. Denne parameter kan kontrollere antallet af kortopgaver, det er intet andet end graden af ​​parallelisme, der skal bruges af sqoop. Nummeret afgøres på baggrund af kravet.

Syntaks: Brug disse flag til at kontrollere antallet af kortlæggere: m, -nummerkort

Del 2 - Spørgsmål om Sqoop-interview (avanceret)

Lad os nu se på de avancerede Sqoop Interview Spørgsmål.

8. Hvad er Sqoop-merge og forklar dets anvendelse?

Svar:
Sqoop merge er et værktøj, der kombinerer to forskellige datasæt, der opretholder den eneste version ved at overskrive posterne i en ældre version af et datasæt med nye filer for at gøre det til den nyeste version af datasættet. Der sker en udfladningsproces under sammenlægning af de to forskellige datasæt, som bevarer dataene uden tab og med effektivitet og sikkerhed. For at udføre denne handling bruges kommando af fletast som "–merge-key"

9. Hvad er forskellene mellem Sqoop, flume og distcp?

Svar:
Både Distcp og Sqoop bruges til at overføre dataene. Sqoop bruges til at overføre enhver type data fra en Hadoop-klynge til en anden klynge, mens Sqoop overfører data mellem relationelle databaser og Hadoop-økosystem som Hive, HDFS og HBase osv. Men begge metoder bruger samme fremgangsmåde til at kopiere dataene, som er pull / transfer.

Flume har distribueret et værktøj, der følger agentbaseret arkitektur, til streaming af logfiler til Hadoop-økosystemet. Mens Sqoop er en konnektorbaseret arkitektur.

Flume indsamler og aggregerer en enorm mængde logdata. Flume kan indsamle dataene fra en anden type ressourcer; det betragter ikke skemaet eller strukturerede / ustrukturerede data. Flume kan trække enhver type data. Mens Sqoop kun kan importere de relationelle databasedata, så skemaet er obligatorisk for sqoop at behandle. Generelt, for at flytte bulk arbejdsbelastning, er flume den bedste mulighed.

Lad os gå videre til de næste Sqoop-interviewspørgsmål.

10. Hvad understøttes datakilderne af Apache Sqoop?

Svar:
De forskellige datakilder fra forskellige applikationer, der understøttes af Apache Sqoop, er som nedenfor:

  1. hive
  2. HBase
  3. Hadoop Distribueret filsystem (HDFS)
  4. HCatalog
  5. Accumulo

11. Hvad er de mest anvendte kommandoer / funktioner i Sqoop?

Svar:

Dette er de avancerede Sqoop-interviewspørgsmål, der stilles i et interview. Liste over basiske kommandoer, der bruges i Sqoop, er som følger:

Codegen -Codegen bruges til at generere kode til kommunikation med databaseposter.

Eval -Sqoop Eval hjælper med at køre eksempler på SQL-forespørgsler mod databaserne og giver resultaterne på konsollen.

Hjælp - Hjælp liste de tilgængelige kommandoer

Import -Import vil importere tabellen til Hadoop økosystem

Eksport -Export bruges til at eksportere HDFS-data til relationelle databaser.

Create-hive-table - Denne kommando er nyttig til at importere tabeldefinition til Hive

Import-alle-tabeller -Import-alle-tabeller vil importere tabellerne til dannelse af relationelle databaser til HDFS.

Listedatabaser - Det viser en liste over alle databaser, der findes på en server.

Listetabeller - Det viser alle de tabeller, der findes i en database.

Versioner - Det viser versioninformationen.

Funktioner -Parallel import / eksport, fuld belastning, inkrementel belastning, fuld belastning, sammenligning, stik til RDBMS-databaser, Kerberos Security Integration, Indlæs data direkte i HDFS (Hive / HBase)

12. Forklar den bedste praksis, mens du importerer tabeller fra MySQL eller andre databaser ved hjælp af Sqoop?

Svar:
Mens vi importerer tabellerne fra MySQL, skal vi sørge for nogle få ting som godkendelse og autorisation til målserveren og databaserne. Vi er nødt til at sørge for, at vi har givet de nødvendige privilegier på databaserne, som skal åbnes, og også sørge for værtsnavnsopløsningen, når vi opretter forbindelse til kilde- og destinationshostnavne. Hvis vi ikke har den nødvendige tilladelse, får vi en undtagelse i forbindelse med forbindelsessvigt, mens vi opretter forbindelse til databasen.

13. Hvordan opdaterer du de data eller rækker, der allerede er eksporteret?

Svar:
For at opdatere rækkerne, der allerede er eksporteret destinationen, kan vi bruge parameteren “–opdateringsnøgle”. I dette bruges en kommasepareret kolonneliste, der unikt identificerer en række, og alle disse kolonner bruges i WHERE-leddet i den genererede UPDATE-forespørgsel. SET en del af forespørgslen tager sig af alle de øvrige tabelkolonner.

Lad os gå videre til de næste Sqoop-interviewspørgsmål.

14. Hvordan konfigureres og installeres JDBC-driveren i Apache Sqoop?

Svar:
JDB-driverne i Apache Sqoop kan konfigureres baseret på Hadoop-udbyderen, såsom Cloudera eller Hortonworks, hvor det varierer lidt i sin konfiguration baseret på Hadoop-udbyderen. JDBC i Cloudera kan konfigureres som ved at oprette en biblioteksmappe som / var / lib /. Dette kan gøres for ethvert tredjepartsbibliotek, der kræves konfigureret efter kravet. På denne måde kan enhver type database konfigureres ved hjælp af dens JDBC-driver. Bortset fra JDBC-driveren kræver Apache Sqoop et stik for at etablere en forbindelse mellem forskellige relationelle databaser. De vigtigste komponenter, der kræves for at etablere en forbindelse med databaserne, er via Driver og Connector for den bestemte databaseudbyder.

15. Hvad er split-by-klausulen, og hvornår bruger vi den?

Svar:
En split-by-parameter er til opdeling af data, der skal importeres til flere parallelle opgaver. Ved hjælp af denne parameter kan vi specificere navnene på kolonnen, dette er kolonnenavn baseret på hvilket sqoop vil dele dataene, der skal importeres i flere stykker, og de kører parallelt. Det er en af ​​teknikkerne til at indstille forestillingen i Sqoop.

Anbefalede artikler

Dette har været en guide til Liste over Sqoop Interview Spørgsmål og svar, så kandidaten nemt kan nedbryde disse Sqoop Interview Spørgsmål. Du kan også se på de følgende artikler for at lære mere -

  1. Hadoop vs Teradata -Det er gavnligt
  2. 13 Fantastiske databaseprøvede interviewspørgsmål
  3. Top 10 mest nyttige HBase-interviewspørgsmål
  4. 10 mest fantastiske PHP-interviewspørgsmål til erfarne
  5. Kend de top 5 nyttige DBA-interviewspørgsmål