Introduktion til K-Betyder Clustering-algoritme?

K- Betyder gruppering hører til den uovervågede læringsalgoritme. De bruges, når dataene ikke er defineret i grupper eller kategorier, dvs. umærkede data. Formålet med denne klyngerealgoritme er at søge og finde grupperne i dataene, hvor variabel K repræsenterer antallet af grupper.

Forståelse af K- betyder klynge-algoritme

Denne algoritme er en iterativ algoritme, der opdeler datasættet i henhold til deres funktioner i K-antal foruddefinerede ikke-overlappende distinkte klynger eller undergrupper. Det gør datapunkterne for interklynger så længe som muligt og forsøger også at holde klyngerne så vidt muligt. Det tildeler datapunkterne til en klynge, hvis summen af ​​den kvadratiske afstand mellem klyngens centroid og datapunkterne er på et minimum, hvor klyngens centroid er det aritmetiske gennemsnit af de datapunkter, der er i klyngen. En mindre variation i klyngen resulterer i lignende eller homogene datapunkter i klyngen.

Hvordan fungerer K-Betyder Clustering-algoritmen?

K- betyder Clustering Algorithm har brug for følgende input:

  • K = antal undergrupper eller klynger
  • Prøve- eller træningssæt = (x 1, x 2, x 3, ……… x n )

Lad os nu antage, at vi har et datasæt, der ikke er mærket, og vi er nødt til at opdele det i klynger.

Nu skal vi finde antallet af klynger. Dette kan gøres ved to metoder:

  • Albue-metode.
  • Formål Metode.

Lad os diskutere dem kort:

Albue-metode

I denne metode tegnes en kurve mellem "inden for summen af ​​firkanter" (WSS) og antallet af klynger. Den afbildede kurve ligner en menneskelig arm. Det kaldes albue-metoden, fordi albue-punktet i kurven giver os det optimale antal klynger. I grafen eller kurven ændres værdien af ​​WSS meget meget langsomt efter albue-punktet, så albue skal betragtes som den endelige værdi af antallet af klynger.

Formålet-Based

I denne metode er dataene opdelt baseret på forskellige målinger, og derefter vurderes det, hvor godt de har fungeret i det tilfælde. For eksempel arrangeres skjorterne i herretøjsafdelingen i et indkøbscenter efter kriterierne for størrelserne. Det kan gøres på grundlag af pris og mærkerne også. Den bedst egnede ville blive valgt for at give det optimale antal klynger, dvs. værdien af ​​K

Lad os nu vende tilbage til vores givne datasæt ovenfor. Vi kan beregne antallet af klynger, dvs. værdien af ​​K ved hjælp af en af ​​ovenstående metoder.

Hvordan bruges ovenstående metoder?

Lad os nu se udførelsesprocessen:

Trin 1: Initialisering

Først skal du initialisere eventuelle tilfældige punkter, der kaldes som centroider i klyngen. Mens du initialiserer, skal du passe på, at klyngens centroider skal være mindre end antallet af træningsdatapunkter. Denne algoritme er en iterativ algoritme, hvorfor de næste to trin udføres iterativt.

Trin 2: Cluster Assignment

Efter initialisering gennemgås alle datapunkter, og afstanden mellem alle centroider og datapunkter beregnes. Nu vil klyngerne blive dannet afhængigt af den minimale afstand fra centroiderne. I dette eksempel er dataene opdelt i to klynger.

Trin 3: Flytning af Centroid

Da klyngerne, der er dannet i ovennævnte trin, ikke optimeres, er vi nødt til at danne optimerede klynger. Til dette er vi nødt til at flytte centroiderne iterativt til et nyt sted. Tag datapunkter for en klynge, beregne deres gennemsnit, og flyt derefter klyngens centroid til dette nye sted. Gentag det samme trin for alle andre klynger.

Trin 4: Optimering

Ovenstående to trin udføres iterativt, indtil centroiderne holder op med at bevæge sig, dvs. de ændrer ikke deres position længere og er blevet statiske. Når dette er gjort, kaldes k-middelalgoritmen for at blive konvergeret.

Trin 5: Konvergens

Nu er denne algoritme konvergeret og forskellige klynger dannes og tydeligt synlige. Denne algoritme kan give forskellige resultater afhængigt af hvordan klyngerne blev initialiseret i det første trin.

Anvendelser af K- Means Clustering Algorithm

  • Markedssegmentering
  • Dokumentklynger
  • Billedsegmentering
  • Billedkomprimering
  • Vector kvantisering
  • Cluster analyse
  • Funktion af læring eller ordbogslæring
  • Identificering af kriminelle udsatte områder
  • Opdagelse af forsikringssvindel
  • Analyse af offentlig transport
  • Klynge af it-aktiver
  • Kundesegmentering
  • Identificering af kræftdata
  • Brugt i søgemaskiner
  • Forudsigelse om stofaktivitet

Fordele ved K- Means Clustering Algorithm

  • Det er hurtigt
  • Robust
  • Let at forstå
  • Forholdsvis effektiv
  • Hvis datasættene er forskellige, giver de de bedste resultater
  • Fremstil strammere klynger
  • Når centroider beregnes om, ændres klyngen.
  • Fleksibel
  • Let at fortolke
  • Bedre beregningsomkostninger
  • Forbedrer nøjagtigheden
  • Arbejder bedre med sfæriske klynger

Ulemper ved K-Betyder Clustering Algoritme

  • Har brug for forudgående specifikation for antallet af klyngecentre
  • Hvis der er to stærkt overlappende data, kan de ikke skelnes og kan ikke fortælle, at der er to klynger
  • Med den forskellige repræsentation af dataene er de opnåede resultater også forskellige
  • Euklidisk afstand kan ulige vægte faktorerne
  • Det giver den lokale optima for den kvadratiske fejlfunktion
  • Nogle gange kan valg af centroider tilfældigt ikke give frugtbare resultater
  • Kan kun bruges, hvis betydningen er defineret
  • Kan ikke håndtere outliers og støjende data
  • Arbejd ikke for det ikke-lineære datasæt
  • Mangler konsistens
  • Følsom over for skala
  • Hvis der opstår meget store datasæt, kan computeren muligvis gå ned.
  • Forudsigelsesproblemer

Anbefalede artikler

Dette har været en guide til K-Means klynge-algoritme. Her diskuterede vi arbejdet, applikationer, fordele og ulemper ved K-Means-klyngerealgoritme. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Hvad er neurale netværk?
  2. Hvad er datamining? | Dataminingens rolle
  3. Interview Mining Interview Data
  4. Machine Learning vs Neural Network
  5. Klynge i maskinlæring

Kategori: