Type af minedrift - Komplet guide til type dataudvikling

Indholdsfortegnelse:

Anonim

Introduktion til typer af minedrift

Udtrykket “Data Mining” betyder, at vi er nødt til at undersøge et stort datasæt og mine data ud af det samme for at skildre essensen af, hvad data vil sige. Meget lig, hvordan kulminedrift udføres, hvor kul dybt under jorden udvindes ved hjælp af forskellige værktøjer, dataindvindingen har også tilknyttet værktøjer til at få det bedste ud af dataene. En meget almindelig fejlagtig fortolkning med data mining er, at det tænkes som noget, hvor vi forsøger at udtrække nye data, men ikke altid er det sandt. Det henviser også til noget, hvor vi forsøger at få mening ud af de data, vi allerede har. Således er dataindvinding i sig selv et stort felt, hvor vi de næste par afsnit dybt vil dykke ned i specifikt værktøjerne i Data Mining. I denne artikel vil vi diskutere typerne af datamining.

Hvad er datamining?

Som tidligere talt om data mining, er data mining en proces, hvor vi forsøger at få det bedste ud af dataene. Værktøjet til data mining fungerer som en bro mellem dataene og informationen fra dataene. I nogle få blogs kaldes data mining også som vidensopdagelse. Her vil vi gerne give en kort idé om implementeringen af ​​data mining, så intuitionen bag data mining er klar og bliver let for læserne at forstå. Under flowchart repræsenterer strømmen:

I den ovenfor beskrevne proces er der værktøjer på hvert niveau, og vi ville forsøge at tage et dyb dykke ned i de vigtigste.

Typer af dataudvinding

Data mining kan udføres på følgende typer data:

1. Udjævning (Forbered dataene)

Denne særlige metode til data mining-teknik hører under genren for at forberede dataene. Hovedformålet med denne teknik er at fjerne støj fra dataene. Her bruges algoritmer som enkel eksponentiel, det bevægende gennemsnit til at fjerne støj. Under efterforskningsanalyse er denne teknik meget praktisk til at visualisere tendenser / følelser.

2. Aggregation (Forbered dataene)

Som udtrykket antyder, er en gruppe af data samlet for at opnå mere information. Denne teknik anvendes til at give et overblik over forretningsmæssige mål og kan udføres manuelt eller ved hjælp af specialiseret software. Denne teknik anvendes generelt på big data, da big data ikke leverer de krævede oplysninger som helhed.

3. Generalisering (Forbered dataene)

Igen, som navnet antyder, anvendes denne teknik til at generalisere data som helhed. Dette adskiller sig fra aggregering på en måde, som dataene under generaliseringen ikke grupperes til sammen for at opnå mere information, men til gengæld generaliseres hele datasættet. Dette gør det muligt for en datavidenskabsmodel at tilpasse sig nyere datapunkter.

4. Normalisering (Forbered dataene)

I denne teknik anvendes speciel omhu til datapunkter for at bringe dem i samme skala til analyse. For eksempel falder en persons alder og løn i forskellige måleskalaer, hvorfor det at plot dem på en graf ikke hjælper os med at opnå nogen nyttig information om de tendenser, der findes som en kollektiv funktion. Ved hjælp af normalisering kan vi bringe dem i en lige skala, så sammenligning af æble til æble kan udføres.

5. Valg af attribut / funktion (Forbered dataene)

I denne teknik anvender vi metoder til at udføre et udvalg af funktioner, så modellen, der bruges til at træne datasættene, kan antyde værdi for at forudsige de data, den ikke har set. Dette er meget analogt med at vælge det rigtige tøj fra en garderobe fuld af tøj, så den passer til sig selv til begivenheden. Ikke-relevante funktioner kan have negativ indflydelse på modellens ydeevne, og ikke mindst forbedre ydelsen.

6. Klassificering (model data)

I denne teknik til data mining er vi grupper, der kendes som ”klasser”. I denne teknik anvender vi de valgte funktioner (som diskuteret i ovenstående punkt) samlet til grupper / kategorier. For eksempel i en butik, hvis vi er nødt til at evaluere, om en person vil købe et produkt eller ikke, er der et "n" antal funktioner, som vi samlet kan bruge til at få et resultat af sandt / falsk.

7. Sporing af mønstre

Dette er en af ​​de grundlæggende teknikker, der anvendes i data mining, for at få information om tendenser / mønstre, som måske udstilles af datapunkterne. For eksempel kan vi bestemme en tendens med mere salg i en weekend eller ferietid snarere end på hverdage eller arbejdsdage.

8. Tidligere analyse eller afvigelsesdetektion

Her, såvel som navnet antyder, bruges denne teknik til at finde eller analysere outliers eller anomalier. Outliers eller anomalier er ikke negative datapunkter, de er bare noget, der skiller sig ud fra den generelle tendens i hele datasættet. Når vi identificerer outliers, kan vi enten fjerne dem helt fra datasættet, som opstår, når forberedelsen af ​​data er udført. Ellers bruges denne teknik i vid udstrækning i modeldatasæt til også at forudsige outliers.

9. Klynge

Denne teknik ligner stort set klassificeringen, men den eneste forskel er, at vi ikke kender den gruppe, hvor datapunkter vil falde efter gruppering efter indsamling af funktioner. Denne metode bruges typisk til gruppering af mennesker for at målrette lignende produktanbefalinger.

10. Regression

Denne teknik bruges til at forudsige sandsynligheden for en funktion med tilstedeværelsen af ​​andre funktioner. For eksempel kan vi formulere sandsynligheden for prisen på en vare med hensyn til efterspørgsel, konkurrence og et par andre funktioner.

11. Neural netværk

Denne teknik er baseret på princippet om, hvordan biologiske neuroner fungerer. I lighed med hvad neuroner i den menneskelige krop gør, fungerer neuronerne i et neuralt netværk i dataindvindingsarbejde også som behandlingsenheden og forbinde en anden neuron for at videregive informationen langs kæden.

12. Forening

I denne metode til dataindvinding bestemmes forholdet mellem forskellige funktioner og anvendes til at finde enten skjulte mønstre eller relateret analyse som pr. Forretningsbehov. For eksempel ved at bruge foreningen kan vi finde funktioner, der er korreleret med hinanden og således understrege at fjerne enhver for at fjerne nogle overflødige funktioner og forbedre behandlingsstyrken / tiden.

Konklusion

Som konklusion er der forskellige krav, som man skal huske på, mens dataudvinding udføres. Man skal være meget forsigtig med, hvad output forventes at være, så tilsvarende teknikker kan bruges til at nå målet. Selvom data mining er et voksende rum, har vi forsøgt at oprette en udtømmende liste over alle typer værktøjer i Data mining ovenfor for læsere.

Anbefalede artikler

Dette er en vejledning til typen af ​​dataudvinding. Her diskuterer vi introduktionen og de top 12 typer datamining. Du kan også gennemgå vores andre foreslåede artikler -

  1. Fordele ved Data Mining
  2. Datamineringsarkitektur
  3. Metoderne til dataudvinding
  4. Data Mining Tool
  5. Typer af modeller i datamining