Hvad er Data Analytics?
Data Analytics er en proces med at opdage nøgleindsigt og værdifulde konklusioner fra en enorm mængde data indsamlet eller indsamlet fra forskellige kilder for at understøtte beslutningstagningen. Forøget beregningskraft, høj behandlingshastighed. Fremkomsten af interaktive slutbrugergrænseflader og bevist effektivitet af distribueret computing-paradigme til at håndtere store bunker af data, der er gjort dataanalyse til at gå videre i alle domæner, fremtrædende inden for detailhandel, bankvirksomhed, sundhedsvæsen, logistik, forsvar, offentlig administration osv.
Typer af dataanalyse
Data Analytics-processen er subjektivt kategoriseret i tre typer baseret på formålet med at analysere data som
- Beskrivende analyse
- Predictive Analytics
- Prescriptive Analytics
Funktionerne i de ovennævnte Analytics-typer er beskrevet nedenfor:
1. Beskrivende analyse
Beskrivende Analytics fokuserer på at opsummere tidligere data for at udlede konklusioner. De mest almindeligt anvendte mål til at karakterisere historisk datadistribution kvantitativt inkluderer
- Målinger af central tendens - gennemsnit, median, kvartiler, tilstand.
- Målinger af variabilitet eller spredning - Område, Mellemkvartilinterval, procentvis.
I den seneste tid overvindes vanskelighederne og begrænsningerne med at indsamle, opbevare og forstå massive databehov med statistisk inferensproces. Generaliserede konklusioner om statistik over populationsdatasæt udledes ved hjælp af samplingmetoder sammen med anvendelse af central begrænsningsteori.
En førende nyhedsudsender samler afstemningsoplysninger om tilfældigt valgte vælgere ved udgangen af en valgstation på valgdagen for at udlede statistiske konklusioner om præference for hele befolkningen.
Gentagen prøveudtagning af populationsdatasæt resulterer i dele af prøver med tilstrækkelig stor prøvestørrelse. Clustered sampling foretrækkes generelt til at generere vel-stratificerede, uvildige repræsentanter for populationens datasæt. Det statistiske mål for interesse beregnes på de samplede datamængder for at opnå en fordeling af prøvestatistiske værdier kaldet sampling distribution. Egenskaberne ved stikprøvefordeling er relateret til det for populationsdatasæt ved hjælp af central begrænsningsteori.
2. Predictive Analytics
Predictive Analytics udnytter mønstre i historiske eller tidligere data for at estimere fremtidige resultater, identificere tendenser, afsløre potentielle risici og muligheder eller forudsige procesadfærd. Da forudsigelsesanvendelsestilfælde er sandsynlige, benytter disse tilgange sandsynlighedsmodeller til at måle sandsynligheden for alle mulige resultater.
ChatBot i kundeserviceportalen hos det finansielle firma lærer proaktivt kundernes hensigt eller behov for at være baseret på hans / hendes tidligere aktiviteter på sit webdomæne. Med den forudsagte kontekst samtaler chatBot interaktivt med kunden for hurtigt at levere passende tjenester og opnå bedre kundetilfredshed.
Ud over ekstrapolationsscenarierne til at forudsige, hvad der sker i fremtiden baseret på tilgængelige tidligere data, er der få applikationer, der gætter på mistede dataindtastninger ved hjælp af tilgængelige dataprøver. Denne tilnærmelse af mistede værdier inden for området for givne dataprøver kaldes teknisk interpolation.
Et kraftfuldt billedredigeringsprogram understøtter rekonstruktion af ubesvarede dele af tekstur på grund af superpålagt tekst ved at interpolere funktionsfunktion ved den mistede blok. Funktionsfunktion kan fortolkes som en matematisk notation af mønstre i strukturen af et forvrænget billede.
De væsentlige faktorer, der påvirker valget af forudsigelige modeller / strategier er:
- Forudsigelsesnøjagtighed: Det formidler graden af nærhed mellem en forudsagt værdi og faktisk værdi. En lavere varians af forskellen mellem forudsagt værdi og faktisk værdi indebærer en højere forudsigelsesmodels nøjagtighed.
- Forudsigelseshastighed: Det prioriteres højt i realtidsporingsapplikationer
- Model indlæringshastighed: Det afhænger af modellens kompleksitet og beregninger involveret i beregningen af modelparametre.
3. Prescriptive Analytics
Prescriptive Analytics bruger viden opdaget som en del af både beskrivende og forudsigelig analyse til at anbefale et kontekstbevidst handlingsforløb. Avancerede statistiske teknikker og beregningsintensive optimeringsmetoder implementeres for at forstå fordelingen af estimerede forudsigelser.
På nøjagtige vilkår vurderes virkningen og fordelen ved hvert resultat, der estimeres under forudsigelig analyse, for at tage heuristiske og tidsfølsomme beslutninger for et givet sæt betingelser.
Et rådgivningsfirma for aktiemarkeder udfører SWOT (styrke, svaghed, muligheder og trussel) analyse af forudsagte priser for aktier i investorers portefølje og anbefaler de bedste muligheder for at købe salg til sine kunder.
Processflow i Data Analytics
Processen med dataanalyse har forskellige stadier af databehandling som forklaret nedenfor:
1. Dataekstraktion
Indtagelse af data fra flere datakilder af forskellige typer, herunder websider, databaser, ældre applikationer, resulterer i inputdatasæt af forskellige formater. Dataformaterne, der er indsat til dataanalysestrømmen, kan bredt klassificeres som
- Strukturerede data har en klar definition af datatyper sammen med tilhørende feltlængde eller feltafgrænsere. Denne type data kan let forespørges som det indhold, der er gemt i relationelle databasen (RDBMS)
- Semistrukturerede data mangler en præcis layoutdefinition, men dataelementer kan identificeres, adskilles og grupperes baseret på et standardskema eller andre metadataregler. En XML-fil anvender tagging til at indeholde data, mens Javascript-objektnotationsfil (JSON) indeholder data i navneværdipar. NoSQL (ikke kun SQL) databaser som MongoDB, men sofa base bruges også til at gemme semistrukturerede data.
- Ustrukturerede data inkluderer samtaler på sociale medier, billeder, lydklip osv. Traditionelle data-parsing metoder forstår ikke disse data. Ustrukturerede data gemmes i datasøer.
Implementering af dataparsering for strukturerede og semistrukturerede data er inkorporeret i forskellige ETL-værktøjer som Ab Initio, Informatica, Datastage og open source-alternativer som Talend.
2. Rengøring af data og transformation
Rengøring af parsede data udføres for at sikre datakonsistens og tilgængelighed af relevante data til de senere faser i en processtrøm. De største rensningsoperationer inden for dataanalyse er:
- Påvisning og eliminering af outliers i datamængderne
- Fjernelse af duplikater i datasættet
- Håndtering af manglende poster i dataregistre med forståelse af funktionalitet eller brugssager
- Valideringer af tilladte feltværdier i dataposter som "31. februar" kan ikke være en gyldig værdi i nogen af datafelterne.
Rensede data omdannes til et passende format til analyse af data. Datatransformationer inkluderer
- Et filter med uønskede dataposter.
- Sammenføjning af data hentet fra forskellige kilder.
- Aggregation eller gruppering af data
- Datatypecasting
3. KPI / Insight-afledning
Datamining, dyb indlæringsmetoder bruges til at evaluere Key Performance Indicators (KPI) eller udlede værdifuld indsigt fra de rensede og transformerede data. Baseret på målsætningen med analyse udføres dataanalyse ved hjælp af forskellige mønstergenkendelsesteknikker som k-middel-gruppering, SVM-klassificering, Bayesianske klassifikatorer osv. Og maskinindlæringsmodeller som Markov-modeller, Gaussian Mixture Models (GMM) osv.
Probabilistiske modeller i træningsfasen lærer optimale modelparametre, og i valideringsfasen testes modellen ved hjælp af k-fold krydsvalideringstest for at undgå overdreven tilpasning og undermontering af fejl.
Det mest almindeligt anvendte programmeringssprog til dataanalyse er R og Python. Begge har et rigt sæt biblioteker (SciPy, NumPy, Pandas), der er åbne for at udføre kompleks dataanalyse.
4. Data visualisering
Datavisualisering er processen med en klar og effektiv præsentation af afdækkede mønstre, afledte konklusioner fra dataene ved hjælp af grafer, diagrammer, kontrolpaneler og grafik.
- Datarapporteringsværktøjer som QlikView, Tableau osv. Viser KPI og andre afledte målinger på forskellige niveauer af granularitet.
- Rapporteringsværktøjer gør det muligt for slutbrugerne at oprette tilpassede rapporter med pivot-, drill-down-indstillinger vha. Brugervenlige træk- og slipgrænseflader
- Interaktive datavisualiseringsbiblioteker som D3.js (Datadrevne dokumenter), HTML5-Anycharts osv. Bruges til at øge muligheden for at udforske analyserede data
Anbefalede artikler
Dette har været en guide til Hvad er Data Analytics. Her diskuterede vi den forskellige type dataanalyse med processtrømmen. Du kan også gennemgå andre foreslåede artikler for at lære mere -
- Dataanalytiker Interview spørgsmål og svar
- Hvad er datavisualisering?
- Hvad er Big data analytics?
- Hvad er Minitab?