Introduktion til Apache PIG-interviewspørgsmål og -svar

Så du har endelig fundet dit drømmejob i Apache PIG, men vi spekulerer på, hvordan du knækker Apache PIG-interviewet i 2019, og hvad der kan være de sandsynlige spørgsmål om Apache PIG-interview. Hver Apache PIG-samtale er forskellig, og omfanget af et job er også anderledes. Når vi husker dette, har vi designet de mest almindelige spørgsmål og svar på Apache PIG-interview, så du får succes med dit Apache PIG-interview.

Følgende er listen over 2019-Apache PIG-interviewspørgsmål, der hovedsageligt stilles

1. Hvad er de vigtigste forskelle mellem MapReduce og Apache Pig?

Svar:
Følgende er de vigtigste forskelle mellem Apache Pig og MapReduce på grund af hvilken Apache Pig kom ind i billedet:
• MapReduce er en databehandlingsmodel på lavt niveau, mens Apache Pig er en platform på højt niveau
• Uden at skrive de komplekse Java-implementeringer i MapReduce, kan programmerere nemt opnå de samme implementeringer ved hjælp af Pig Latin.
• Apache Pig leverer indlejrede datatyper som poser, tuple og kort, da de mangler i MapReduce.
• Gris understøtter datafunktioner som f.eks. Filtre, sammenføjninger, bestilling, sortering osv. Med mange indbyggede operatører. At udføre den samme funktion i MapReduce er en enorm opgave.

2. Forklar anvendelserne af MapReduce i gris.

Svar:
Apache Pig-programmer skrives på et forespørgselssprog, der kaldes Pig Latin, hvilket svarer til SQL-forespørgselssprog. For at udføre en forespørgsel er der behov for en eksekveringsmotor. Og Pig-motoren konverterer forespørgsler til MapReduce-job, og MapReduce fungerer således som udførelsesmotor og er nødvendig for at køre programmerne.

3. Forklar anvendelsen af ​​svin.

Svar:
Vi kan bruge grisen i tre kategorier, de er:
• ETL-datapipeline: Det hjælper med at udfylde vores datalager. Gris kan pipeline dataene til en ekstern applikation, den vil vente til den er færdig, så den har modtaget de behandlede data og fortsat derfra. Det er den mest almindelige brugssag for svin.
• Forskning i rådata.
• Iterativ behandling.

4. Sammenlign Apache Pig og SQL.

Svar:
• Apache Pig adskiller sig fra SQL i sin anvendelse til ETL, doven evaluering, gemme data på et givet tidspunkt i pipeline, support til rørledningsopdelinger og eksplicit erklæring om eksekveringsplaner. SQL (strukturelt forespørgselssprog) er orienteret omkring forespørgsler, der giver et enkelt resultat. SQL har ingen indbygget mekanisme til opdeling af databehandlingsstrømmen og anvendelse af forskellige operatører på hver understrøm.
• Apache Pig tillader, at brugerkode inkluderes på ethvert tidspunkt i pipeline, mens hvis SQL, hvor der skal bruges data, først skal importeres til databasen, og derefter begynder processen med rengøring og transformation.

5. Forklar de forskellige komplekse datatyper i svin.

Svar:
Apache Pig understøtter tre komplekse datatyper-
• Kort - Dette er vigtige værdibutikker, der er knyttet sammen med #.
Eksempel: ('by' # 'pune', 'pin' # 411045) • Tuples - Ligesom rækken i en tabel, hvor forskellige elementer er adskilt af et komma. Tuples kan have flere attributter.
• Tasker - En uordnet samling af tuples. Tasken tillader flere duplikat tupler.
Eksempel: (('Mumbai', 022), ('New Delhi', 011), ('Kolkata', 44))

6. Forklar forskellige udførelsesmodeller, der er tilgængelige i svin.

Svar:
Tre forskellige udførelsestilstande, der er tilgængelige i svin, de er,
• Interaktiv tilstand eller Grunt-tilstand.
Interaktiv tilstand eller gryntilstand: Grisens interaktive skal kaldes grynt shell. Hvis der ikke er angivet nogen fil til at køre i gris, starter den.
• Batchtilstand eller scripttilstand.
Grisen udfører de specificerede kommandoer i scriptfilen.
• Integreret tilstand
Vi kan integrere svineprogrammer i Java, og vi kan køre programmerne fra Java.

7. Forklar om udførelsesplanerne (logisk og fysisk plan) for et svineskript

Svar:
Logiske og fysiske planer oprettes under udførelsen af ​​et svineskript. Gris-scripts er baseret på tolkekontrol. Den logiske plan er produceret ved semantisk kontrol og grundlæggende parsing, og der foregår ingen databehandling under oprettelsen af ​​en logisk plan. For hver linje i svineskriptet udføres syntakscheck for operatører og der oprettes en logisk plan. Hver gang der opstår en fejl i scriptet, kastes en undtagelse, og programudførelsen slutter, ellers har hver sin sætning i scriptet sin egen logiske plan.
En logisk plan indeholder samlingen af ​​operatører i scriptet, men indeholder ikke kanterne mellem operatørerne.
Når den logiske plan er genereret, flyttes scriptudførelsen til den fysiske plan, hvor der er en beskrivelse af de fysiske operatører, Apache Pig vil bruge, til at udføre Pig-scriptet. En fysisk plan ligner mere eller mindre en række MapReduce-job, men så har planen ingen henvisning til, hvordan den udføres i MapReduce. Under oprettelsen af ​​en fysisk plan konverteres den logiske operatør til cogruppe til 3 fysiske operatører, nemlig –Lokal omarrangering, Global omarrangering og pakke. Indlæs og opbevar funktioner løses normalt i den fysiske plan.

8. Hvad er fejlfindingsværktøjer brugt til Apache Pig-scripts?

Svar:
Beskriv og forklar er de vigtige fejlfindingsværktøjer i Apache Pig.
• Explain-værktøjet er nyttigt for Hadoop-udviklere, når de prøver at fejlsøge fejl eller optimere PigLatin-scripts. forklare kan anvendes på et bestemt alias i scriptet, eller det kan anvendes på hele scriptet i det grynende interaktive shell. forklare værktøj producerer flere grafer i tekstformat, der kan udskrives til en fil.
• Beskriv fejlsøgningsværktøj er nyttigt for udviklere, når man skriver svin-scripts, da det viser skemaet for en relation i scriptet. For begyndere, der forsøger at lære Apache Pig, kan bruge beskrivelsesværktøjet til at forstå, hvordan hver operatør foretager ændringer i data. Et svineskript kan have flere beskrivelser.

9. Hvad er nogle af de tilfælde, der bruges af Apache Pig, du kan tænke på?

Svar:
• Apache Pig big data-værktøj bruges især til iterativ behandling, forskning på rådata og til traditionelle ETL-dataledninger. Da svin kan fungere under omstændigheder, hvor skemaet ikke er kendt, er inkonsekvent eller ufuldstændig - det er vidt brugt af forskere, der ønsker at gøre brug af dataene, før det renses og indlæses i datavarehuset.
• For at opbygge modeller for adfærdsforudsigelse kan det f.eks. Bruges af et websted til at spore besøgende 'svar på forskellige typer annoncer, billeder, artikler osv.

10. Fremhæv forskellen mellem gruppe- og Cogroup-operatører i Gris.

Svar:
Begge operatører kan arbejde med en eller flere relationer. Gruppe- og Cogroup-operatører er identiske. Gruppearrangør indsamler alle poster med den samme nøgle. Cogroup er en kombination af gruppe og sammenføjning, det er en generalisering af en gruppe i stedet for at samle poster af et input afhænger af en nøgle, det samler poster af n input baseret på en nøgle. På et tidspunkt kan vi Cogroup op til 127 forhold.

Anbefalede artikler

Dette har været en guide til listen over Apache PIG-interviewspørgsmål og-svar, så kandidaten let kan nedbryde disse Apache PIG-interviewspørgsmål. Denne artikel består af alle nyttige Apache PIG-interviewspørgsmål og -svar, som kan hjælpe dig i et interview. Du kan også se på de følgende artikler for at lære mere -

  1. Apache Pig vs Apache Hive
  2. Top 10 hårde interviewspørgsmål
  3. 8 effektive trin til at forberede sig på en intern samtale
  4. Vigtige tip til at overleve panelinterview (nyttig)