Clustering Methods - Betydning og teknikker af klyngemetoder

Indholdsfortegnelse:

Anonim

Introduktion til klyngemetoder

Denne artikel giver en oversigt over forskellige klyngemetoder, der bruges i dataminingsteknikker med forskellige principper. Clustering er et sæt dataobjekter, der er organiseret i en anden logisk gruppering. Gruppering af lignende dataelementer og tildeling af lignende dataelementer i individuelle klynger. Clustering udføres i store datasæt til uovervåget læring. I løbet af dette udfører vi partition på datasættet i grupper. Strukturen af ​​klynger er repræsenteret som følger med undergrupper. C = c1, c2 … c n . Da klyngegrupper har lignende objekter, skal der træffes nogle mål i klyngemetoder for at bestemme afstand og lighedstiltag. Klyngemetoder er baseret på sandsynlige modeller. Data mining kræver gruppering for skalerbarhed til at håndtere høje databaser, håndtering af multidimensionelt rum, for at håndtere forkerte data og støj.

Forklar klyngemetoder?

Denne klyngemetode hjælper med at gruppere værdifulde data i klynger og vælger derfra passende resultater baseret på forskellige teknikker. Eksempel: ved indhentning af information grupperes resultaterne af forespørgslen i små klynger, og hver klynge har irrelevante resultater. Ved hjælp af klyngeteknikker grupperes de i lignende kategorier, og hver kategori er opdelt i underkategorier for at hjælpe med i udforskningen af ​​forespørgsler output. Der er forskellige typer klyngemetoder, de er

  • Hierarkiske metoder
  • Opdelingsmetoder
  • Densitet-baserede
  • Modelbaseret gruppering
  • Netbaseret model

I det følgende er der en oversigt over teknikker, der bruges i data mining og kunstig intelligens.

1. Hierarkisk metode

Denne metode opretter en klynge ved partitionering på enten top-down og bottom-up måde. Begge disse fremgangsmåder producerer dendrogram, de opretter forbindelse mellem dem. Dendrogrammet er et trælignende format, der bevarer sekvensen af ​​de fusionerede klynger. Hierarkiske metoder produceres adskillige partitioner med hensyn til lighedsniveauer. De er opdelt i agglomerativ hierarkisk klynge og opdelende hierarkisk klynge. Her oprettes et klyngetræ ved hjælp af fusioneringsteknikker. Til opdelingsproces anvendes der opdelende, sammenlægning bruger agglomerativ. Agglomerativ gruppering involverer:

  1. Oprindeligt at tage alle datapunkter og betragte dem som individuelle klynger starter fra top-down måde. Disse klynger flettes, indtil vi opnåede de ønskede resultater.
  2. De næste to lignende klynger er samlet sammen for at danne en enorm enkelt klynge.
  3. Igen beregner man nærhed i den enorme klynge og fletter de lignende klynger.
  4. Det sidste trin involverer sammenlægning af alle de udbyttede klynger på hvert trin for at danne en sidste enkelt klynge.

2. Opdelingsmetode:

Det vigtigste mål med partition er flytning. De flytter partitioner ved at skifte fra en klynge til en anden, hvilket udgør en indledende partitionering. Det opdeler 'n' dataobjekter i 'k' antal klynger. Denne delingsmetode foretrækkes mere end en hierarkisk model i mønstergenkendelse. Følgende kriterier er indstillet til at tilfredsstille teknikkerne:

  • Hver klynge skal have et objekt.
  • Hvert dataobjekt tilhører en enkelt klynge.

De mest almindeligt anvendte partitionsteknikker er K-middelalgoritmen. De opdeles i 'K' -klynger repræsenteret af centroider. Hvert klyngecenter beregnes som et middel af den klynge, og R-funktionen visualiserer resultatet. Denne algoritme har følgende trin:

  1. Valg af K-objekter tilfældigt fra datasættet og danner de indledende centre (centroider)
  2. Derefter tildeles euklidisk afstand mellem objekterne og middelværdien.
  3. Tildeling af en middelværdi for hver enkelt klynge.
  4. Centroid-opdateringstrin for hver k klynge.

3. Densitetsmodel:

I denne model defineres klynger ved at lokalisere regioner med højere tæthed i en klynge. Hovedprincippet bag dem er at koncentrere sig om to parametre: max radius for kvarteret og min antal point. Den tæthedsbaserede model identificerer klynger af forskellige former og støj. Det fungerer ved at detektere mønstre ved at estimere den geografiske placering og afstanden til naboens metode, der er anvendt her, er DBSCAN (Density-based spatial clustering), som giver hænder til store rumlige databaser. Brug af tre datapunkter til klynge, nemlig kernepunkter, grænsepunkter og outliers. Det primære mål er at identificere klyngerne og deres distributionsparametre. Klyngeprocessen stoppes med behovet for densitetsparametre. For at finde klyngerne er det vigtigt at have en parameter Mindste funktioner pr. Klynge til beregning af kerneafstand. De tre forskellige værktøjer, der leveres af denne model, er DBSCAN, HDBSCAN, Multi-skala.

4. Modelbaseret clustering

Denne model kombinerer to eller tre klynger sammen fra datadistributionen. Den grundlæggende idé bag denne model er, at det er nødvendigt at opdele data i to grupper baseret på sandsynlighedsmodellen (Multivariate normale fordelinger). Her tildeles hver gruppe som koncepter eller klasse. Hver komponent er defineret af en densitetsfunktion. For at finde parameteren i denne model bruges maksimal estimering af sandsynlighed for montering af blandingsfordelingen. Hver klynge 'K' modelleres ved gaussisk distribution med to-parameter μk middelvektor og £ k samvariationvektor.

5. Netbaseret model

I denne fremgangsmåde betragtes objekterne som et rumstyret ved at opdele rummet i et endeligt antal celler for at danne et gitter. Ved hjælp af gitteret anvendes klyngeteknikken til hurtigere behandling, som typisk er afhængig af celler ikke af genstande. De involverede trin er:

  • Oprettelse af gitterstruktur
  • Celledensitet beregnes for hver celle
  • Anvendelse af en sorteringsmekanisme på dens densitet.
  • Søgning i klyngecentre og gennemgang på naboceller for at gentage processen.

Betydningen af ​​klyngemetoder

  1. At have klyngemetoder hjælper med at genstarte den lokale søgeprocedure og fjerne ineffektiviteten. Clustering hjælper med til at bestemme den interne struktur af dataene.
  2. Denne klynge-analyse er blevet brugt til modelanalyse, vektorregistreringsattraktion.
  3. Clustering hjælper med at forstå den naturlige gruppering i et datasæt. Deres formål er at give mening at opdele dataene i en gruppe af logiske grupperinger.
  4. Clustering-kvalitet afhænger af metoderne og for at identificere skjulte mønstre.
  5. De spiller en bred rolle i applikationer som markedsføringsøkonomisk forskning, weblogs til at identificere mønstre i lighedstiltag, billedbehandling, rumlig forskning.
  6. De bruges i tidligere detektioner til at opdage svig med kreditkort.

Konklusion

Clustering betragtes som en generel opgave til at løse det problem, der formulerer optimeringsproblemet. Det spiller en central betydning inden for data mining og dataanalyse. Vi har set forskellige klyngemetoder, der deler datasættet afhænger af kravene. Det meste af forskningen er baseret på traditionelle teknikker som K-midler og hierarkiske modeller. Klyngeområder anvendes i højdimensionelle tilstande, som udgør et fremtidig anvendelsesområde for forskere.

Anbefalet artikel

Dette har været en guide til klyngemetoder. Her diskuterede vi konceptet, betydningen og teknikkerne til Clustering Methods. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Hvad er ETL?
  2. Hvad er datavidenskab
  3. Hvad er Teradata?
  4. Top 6 AWS-alternativer
  5. Klynge i maskinlæring
  6. Multivariat regression
  7. Hierarkisk klynge | Agglomerativ og opdelende klynge