Hvad er dataindvindingsalgoritme?

En data mining algoritme er et sæt undersøgelses- og analytiske algoritmer, der hjælper med at skabe en model til dataene. For at få en konkret model skal algoritmen først analysere de data, du leverer, som kan finde specifikke typer mønstre eller tendenser. Resultatet af denne algoritme er en analyse af forskellige iterationer, der kan hjælpe med at finde optimale parametre til en ordentlig dataminingmodel. Disse sæt parametre kan anvendes på tværs af hele datasættet, og de hjælper med at udtrække handlingsmønstre og få en detaljeret statistik over dataene.

Top Data Mining Algorithms

Lad os se på de vigtigste algoritmer til dataindvinding:

1. C4.5 algoritme

Der er konstruktioner, der bruges af klassificeringsmaskiner, som er værktøjer til data mining. Disse systemer henter input fra en samling af sager, hvor hvert tilfælde hører til en af ​​de små klasser og er beskrevet af dens værdier for et fast sæt attributter. Outputklassificeringen kan nøjagtigt forudsige den klasse, den tilhører. Det gør brug af beslutningstræer, hvor det første oprindelige træ erhverves ved hjælp af en kløft og erobre algoritme.

Antag, at S er en klasse, og træet er bladmærket med den hyppigste klasse i S. Valg af en test baseret på en enkelt attribut med to eller flere resultater end at gøre denne test som rod en gren for hvert resultat af testen kan bruges. Partitionerne svarer til undergrupper S1, S2 osv., Som er resultater for hvert tilfælde. C4.5 giver mulighed for flere resultater. I tilfælde af komplekse beslutningstræer har C4.5 indført en alternativ formel, der består af en liste over regler, hvor disse regler er samlet for hver klasse. For at klassificere sagen kaldes den første klasse, hvis betingelser er opfyldt, som den første. Hvis sagen ikke overholder nogen regel, tildeles den en standardklasse. C4.5-regelsæt er dannet fra det oprindelige beslutningstræ. C4.5 forbedrer skalerbarheden ved multitrådning.

2. K-betyder algoritme

Denne algoritme er en simpel metode til at opdele et givet datasæt i det brugerdefinerede antal klynger. Denne algoritme fungerer på d-dimensionelle vektorer, D = (xi | i = 1, … N) hvor jeg er datapunktet. For at få disse første datafræ skal dataene samples tilfældigt. Dette sætter løsningen med at klynge et lille undermængde af data, det globale middelværdi af data k gange. Denne algoritme kan parres med en anden algoritme for at beskrive ikke-konvekse klynger. Det opretter k-grupper fra det givne sæt objekter. Det udforsker hele datasættet med sin klynge-analyse. Det er enkelt og hurtigere end andre algoritmer, når det bruges sammen med andre algoritmer. Denne algoritme klassificeres for det meste som semi-supervised. Sammen med at specificere antallet af klynger fortsætter det med at lære uden information. Den observerer klyngen og lærer.

3. Naive Bayes algoritme

Denne algoritme er baseret på Bayes teorem. Denne algoritme bruges hovedsageligt, når dimensionerne af input er høj. Denne klassificer kan nemt beregne den næste mulige output. Nye rådata kan tilføjes i løbet af runtime og det giver en bedre sandsynlighed klassificering. Hver klasse har et kendt sæt vektorer, der sigter mod at skabe en regel, der gør det muligt at tildele objekter til klasser i fremtiden. Vektorer af variabler beskriver de fremtidige objekter. Dette er en af ​​de letteste algoritmer, da det er let at konstruere og ikke har nogen komplicerede parameterestimationsskemaer. Det kan også let bruges til store datasæt. Det har ikke brug for nogen komplicerede iterative parameterestimeringsskemaer, og brugere, der er ufaglærte, kan derfor forstå, hvorfor klassificeringerne foretages.

4. Support vektormaskiner algoritme

Hvis en bruger ønsker robuste og nøjagtige metoder, skal algoritmen til Support Vector-maskiner forsøges. SVM'er bruges hovedsageligt til læring af klassificering, regression eller rankingfunktion. Det er dannet på grundlag af strukturel risikominimering og statistisk læringsteori. Afgørelsesgrænser skal identificeres, der er kendt som et hyperplan. Det hjælper med den optimale adskillelse af klasser. SVM's vigtigste opgave er at identificere den maksimerende margen mellem to klasser. Marginen er defineret som mængden af ​​plads mellem to klasser. En hyperplanfunktion er som en ligning for linjen, y = MX + b. SVM kan også udvides til at udføre numeriske beregninger. SVM bruger kernen, så den fungerer godt i højere dimensioner. Dette er en overvåget algoritme, og datasættet bruges til først at fortælle SVM om alle klasser. Når dette er gjort, kan SVM være i stand til at klassificere disse nye data.

5. Apriori-algoritmen

For at finde de hyppige artikelsæt fra et transaktionsdatasæt og udlede associeringsregler er Apriori-algoritmen meget udbredt. At finde hyppige varesæt er ikke vanskeligt på grund af dets kombinatoriske eksplosion. Når vi først har fået de hyppige artikelsæt, er det klart at generere tilknytningsregler for større eller lige specificeret minimumstillid. Apriori er en algoritme, der hjælper med at finde hyppige datasæt ved at gøre brug af kandidatgenerering. Det antages, at varesættet eller de tilstedeværende elementer sorteres i leksikografisk rækkefølge. Efter introduktionen af ​​Apriori er forskning inden for datamining blevet styrket specifikt. Det er enkelt og nemt at implementere. Den grundlæggende tilgang til denne algoritme er som nedenfor:

  • Deltag : Hele databasen bruges til det hyppige 1-artikelsæt.
  • Beskæring : Dette varesæt skal tilfredsstille understøttelsen og selvtilliden for at gå til næste runde for de 2 varesæt.
  • Gentag : Indtil den foruddefinerede størrelse ikke er nået, indtil dette gentages for hvert indstillingsniveau.

Konklusion

Med de fem algoritmer, der bruges fremtrædende, er der også andre, der hjælper med minedata og også lærer. Det integrerer forskellige teknikker, herunder maskinlæring, statistik, mønstergenkendelse, kunstig intelligens og databasesystemer. Alle disse hjælper med at analysere store datasæt og udføre forskellige dataanalyseopgaver. Derfor er de de mest nyttige og pålidelige analysealgoritmer.

Anbefalede artikler

Dette har været en guide til Data Mining Algorithms. Her diskuterede vi de grundlæggende koncepter og top data mining algoritmer. Du kan også gennemgå vores andre foreslåede artikler for at lære mere-

  1. Hvad er softwaretestning?
  2. Beslutningstræealgoritme
  3. Hvad er Generics i Java?
  4. Arkitektur af datamining
  5. Anvendelser af Data Mining
  6. Eksempler og hvordan generics fungerer i C #
  7. Modeller i datamining med fordele

Kategori: