Introduktion til Data Analytics-interviewspørgsmål og svar
Så du har endelig fundet dit drømmejob i Data Analytics, men spekulerer på, hvordan du knækker Data Analytics-interviewet i 2019, og hvad der kan være de sandsynlige Data Analytics-interviewspørgsmål. Hver Data Analytics-samtale er forskellig, og omfanget af et job er også anderledes. Med dette i tankerne har vi designet de mest almindelige Data Analytics-interviewspørgsmål og svar for at hjælpe dig med at få succes i dit Data Analytics-interview.
Nedenfor er de Top 2019 Data Analytics interviewspørgsmål, der for det meste stilles i et interview
1. Hvad er forskellen mellem Data Mining og Data Analyse?
Svar:
|
2. Nævn, hvad er de forskellige trin i et analytisk projekt?
Svar:
Dataanalyse omhandler indsamling, rensning, transformering og modellering af data for at få værdifuld indsigt og understøtte bedre beslutningstagning i en organisation. Trin involveret i dataanalyseprocessen er som følger -
Data-efterforskning - Efter at have undersøgt forretningsproblemet, skal en dataanalytiker analysere den grundlæggende årsag til problemet.
Dataforberedelse - I dette trin i dataanalyseprocessen finder vi dataanomalier som manglende værdier i dataene.
Datamodellering - Modelleringstrinnet begynder, efter at dataene er blevet forberedt. Modellering er en iterativ proces, hvor modellen køres gentagne gange for forbedringer. Datamodellering sikrer, at det bedst mulige resultat for et forretnings problem.
Validering - I dette trin valideres modellen fra klienten og modellen udviklet af dataanalytikeren mod hinanden for at finde ud af, om den udviklede model vil opfylde forretningskravene.
Implementering af modellen og sporing - I dette sidste trin i dataanalysen gennemføres modelimplementeringen, og derefter er sporing udført for at sikre, at modellen implementeres korrekt eller ej?
3.Hvad er ansvaret for en dataanalytiker?
Svar:
• Løs forretningsrelaterede problemer for klienter og udfør data revision operationer.
• Fortolke data ved hjælp af statistiske teknikker.
• Identificer områder til forbedringsmuligheder.
• Analysere, identificere og fortolke tendenser eller mønstre i komplekse datasæt.
• Hent data fra primære eller sekundære datakilder.
• Vedligehold databaser / datasystemer.
• Find og korriger kodeproblemer ved hjælp af ydeevneindikatorer.
• Sikring af database ved at udvikle adgangssystem.
4.Hvad er Hash-tabelkollisioner? Hvordan undgås det?
Svar:
En hash-tabelkollision sker, når to forskellige taster hash til samme værdi. Der er mange teknikker til at undgå kollision med hashbord, her viser vi to:
Separat kæde: Den bruger datastrukturen, der hashes til den samme slot til at gemme flere elementer.
Åben adressering: Den søger efter andre slots ved hjælp af en anden funktion og gemmer genstand i det første tomme slot.
5. Liste over nogle af de bedste værktøjer, der kan være nyttige til dataanalyse?
Svar:
• Tableau
• RapidMiner
• OpenRefine
• KNIME
• Google-søgeoperatører
• Solver
• NodeXL
• io
• Wolfram Alpha's
• Google Fusion-tabeller
6.Hvad er forskellen mellem data mining og dataprofilering?
Svar:
Forskellen mellem data mining og dataprofilering er som følger -
• Dataprofilering: Den er rettet mod den øjeblikkelige analyse af individuelle attributter som prisvariere, forskellige priser og deres hyppighed, en forekomst af nulværdier, datatype, længde osv.
• Datamining: Det fokuserer på afhængigheder, sekvensopdagelse, forhold mellem flere attributter, klyngeanalyse, påvisning af usædvanlige poster osv.
7. Forklar K-middelalgoritme og hierarkisk klyngerealgoritme?
Svar:
K-Mean algoritme - K mean er en berømt opdelingsmetode. I K-middelalgoritmen er klyngerne sfæriske, dvs. datapunkterne i en klynge er centreret om den klynge. Variationen af klyngerne er ligeledes ens, dvs. hvert datapunkt tilhører den nærmeste klynge
Hierarkisk klynge-algoritme - Hierarkisk klynge-algoritme kombinerer og opdeler eksisterende grupper og skaber en hierarkisk struktur for dem for at vise rækkefølgen i hvilke grupper er opdelt.
8.Hvad renser data? Nævn nogle få bedste fremgangsmåder, som du skal følge, mens du udfører datarensning?
Svar:
Fra et givet datasæt er det ekstremt vigtigt at sortere de nødvendige oplysninger til dataanalyse. Datarengøring er et afgørende trin, hvor data inspiceres for at finde eventuelle afvigelser, fjerne gentagne og forkerte oplysninger osv. Datarengøring involverer ikke fjernelse af eksisterende oplysninger fra databasen, det forbedrer bare datakvaliteten, så den kan bruges til analyse .
Nogle af de bedste fremgangsmåder til datarensning inkluderer -
• Udvikling af en datakvalitetsplan for at identificere, hvor maksimale datakvalitetsfejl opstår, så du kan vurdere grundårsagen og planen i overensstemmelse hermed.
• Følg en sædvanlig metode til at underbygge de nødvendige oplysninger, inden de indtastes i informationen.
• Identificer eventuelle duplikatdata og validerer nøjagtigheden af dataene, da dette vil spare meget tid under analysen.
• Sporing af alle de forbedringshandlinger, der udføres på informationen, er utroligt nødvendigt, for at du gentager eller fjerner alle handlinger efter behov.
9.Hvad er nogle af de statistiske metoder, der er nyttige for dataanalytiker?
Svar:
Statistiske metoder, der er nyttige for dataforsker, er
• Bayesisk metode
• Markov-proces
• Rumlige og klyngeprocesser
• Rangordningsstatistik, percentil, outlier's detektion
• Imputationsteknikker osv.
• Simplex algoritme
• Matematisk optimering
10. Forklar hvad er imputation? Liste over forskellige typer imputationsteknikker? Hvilken imputationsmetode er mere gunstig?
Svar:
Under imputation har vi en tendens til at erstatte manglende information med substituerede værdier. Den slags imputationsteknikker involverer er -
• Enkeltimputation: Enkelt imputation angiver, at den manglende værdi erstattes af en værdi. I denne metode hentes prøvestørrelsen.
• Hot-deck-imputation: En manglende værdi tildeles fra en tilfældigt valgt lignende post ved hjælp af et stempelkort
• Implementering af kolde dæk: Det fungerer på samme måde som hot-deck imputation, men lidt mere avanceret og vælger donorer fra andre datasæt
• Gennemsnitlig imputation: Det involverer at erstatte manglende værdi med de forudsagte værdier for andre variabler.
• Regression imputation: Det involverer at erstatte manglende værdi med de forudsagte værdier for en bestemt værdi afhængigt af andre variabler.
• Stokastisk regression: Det er det samme som regressionsimputation, men det tilføjer den almindelige regressionsvarians til regressionsimputationen
• Flere imputationer: I modsætning til enkelt imputation estimerer flere imputationer værdierne flere gange
Selvom en enkelt imputation er vidt brugt, afspejler den ikke den usikkerhed, der er skabt af manglende data tilfældigt. Så flere imputationer er mere gunstige end enkelt imputation i tilfælde af, at data mangler tilfældigt.
Anbefalede artikler
Dette har været en omfattende guide til Interview Analytics-spørgsmål og svar, så kandidaten let kan slå sammen disse Data Analytics-interviewspørgsmål. Du kan også se på de følgende artikler for at lære mere -
- 10 nyttige agile interviewspørgsmål og svar
- 8 Awesome algoritme Interview spørgsmål
- 25 vigtigste spørgsmål om datalogi
- 10 fantastiske dataingeniør Interviewspørgsmål og svar