K- betyder klynge-algoritme - Sådan fungerer det - Analyse og implementering

Introduktion til K-Betyder Clustering-algoritme?

K- Betyder gruppering hører til den uovervågede læringsalgoritme. De bruges, når dataene ikke er defineret i grupper eller kategorier, dvs. umærkede data. Formålet med denne klyngerealgoritme er at søge og finde grupperne i dataene, hvor variabel K repræsenterer antallet af grupper.

Forståelse af K- betyder klynge-algoritme

Denne algoritme er en iterativ algoritme, der opdeler datasættet i henhold til deres funktioner i K-antal foruddefinerede ikke-overlappende distinkte klynger eller undergrupper. Det gør datapunkterne for interklynger så længe som muligt og forsøger også at holde klyngerne så vidt muligt. Det tildeler datapunkterne til en klynge, hvis summen af den kvadratiske afstand mellem klyngens centroid og datapunkterne er på et minimum, hvor klyngens centroid er det aritmetiske gennemsnit af de datapunkter, der er i klyngen. En mindre variation i klyngen resulterer i lignende eller homogene datapunkter i klyngen.

Hvordan fungerer K-Betyder Clustering-algoritmen?

K- betyder Clustering Algorithm har brug for følgende input:

K = antal undergrupper eller klynger
Prøve- eller træningssæt = (x ₁, x ₂, x ₃, ……… x _n )

Lad os nu antage, at vi har et datasæt, der ikke er mærket, og vi er nødt til at opdele det i klynger.

Nu skal vi finde antallet af klynger. Dette kan gøres ved to metoder:

Albue-metode.
Formål Metode.

Lad os diskutere dem kort:

Albue-metode

I denne metode tegnes en kurve mellem "inden for summen af firkanter" (WSS) og antallet af klynger. Den afbildede kurve ligner en menneskelig arm. Det kaldes albue-metoden, fordi albue-punktet i kurven giver os det optimale antal klynger. I grafen eller kurven ændres værdien af WSS meget meget langsomt efter albue-punktet, så albue skal betragtes som den endelige værdi af antallet af klynger.

Formålet-Based

I denne metode er dataene opdelt baseret på forskellige målinger, og derefter vurderes det, hvor godt de har fungeret i det tilfælde. For eksempel arrangeres skjorterne i herretøjsafdelingen i et indkøbscenter efter kriterierne for størrelserne. Det kan gøres på grundlag af pris og mærkerne også. Den bedst egnede ville blive valgt for at give det optimale antal klynger, dvs. værdien af K

Lad os nu vende tilbage til vores givne datasæt ovenfor. Vi kan beregne antallet af klynger, dvs. værdien af K ved hjælp af en af ovenstående metoder.

Hvordan bruges ovenstående metoder?

Lad os nu se udførelsesprocessen:

Trin 1: Initialisering

Først skal du initialisere eventuelle tilfældige punkter, der kaldes som centroider i klyngen. Mens du initialiserer, skal du passe på, at klyngens centroider skal være mindre end antallet af træningsdatapunkter. Denne algoritme er en iterativ algoritme, hvorfor de næste to trin udføres iterativt.

Trin 2: Cluster Assignment

Efter initialisering gennemgås alle datapunkter, og afstanden mellem alle centroider og datapunkter beregnes. Nu vil klyngerne blive dannet afhængigt af den minimale afstand fra centroiderne. I dette eksempel er dataene opdelt i to klynger.

Trin 3: Flytning af Centroid

Da klyngerne, der er dannet i ovennævnte trin, ikke optimeres, er vi nødt til at danne optimerede klynger. Til dette er vi nødt til at flytte centroiderne iterativt til et nyt sted. Tag datapunkter for en klynge, beregne deres gennemsnit, og flyt derefter klyngens centroid til dette nye sted. Gentag det samme trin for alle andre klynger.

Trin 4: Optimering

Ovenstående to trin udføres iterativt, indtil centroiderne holder op med at bevæge sig, dvs. de ændrer ikke deres position længere og er blevet statiske. Når dette er gjort, kaldes k-middelalgoritmen for at blive konvergeret.

Trin 5: Konvergens

Nu er denne algoritme konvergeret og forskellige klynger dannes og tydeligt synlige. Denne algoritme kan give forskellige resultater afhængigt af hvordan klyngerne blev initialiseret i det første trin.

Anvendelser af K- Means Clustering Algorithm

Markedssegmentering
Dokumentklynger
Billedsegmentering
Billedkomprimering
Vector kvantisering
Cluster analyse
Funktion af læring eller ordbogslæring
Identificering af kriminelle udsatte områder
Opdagelse af forsikringssvindel
Analyse af offentlig transport
Klynge af it-aktiver
Kundesegmentering
Identificering af kræftdata
Brugt i søgemaskiner
Forudsigelse om stofaktivitet

Fordele ved K- Means Clustering Algorithm

Det er hurtigt
Robust
Let at forstå
Forholdsvis effektiv
Hvis datasættene er forskellige, giver de de bedste resultater
Fremstil strammere klynger
Når centroider beregnes om, ændres klyngen.
Fleksibel
Let at fortolke
Bedre beregningsomkostninger
Forbedrer nøjagtigheden
Arbejder bedre med sfæriske klynger

Ulemper ved K-Betyder Clustering Algoritme

Har brug for forudgående specifikation for antallet af klyngecentre
Hvis der er to stærkt overlappende data, kan de ikke skelnes og kan ikke fortælle, at der er to klynger
Med den forskellige repræsentation af dataene er de opnåede resultater også forskellige
Euklidisk afstand kan ulige vægte faktorerne
Det giver den lokale optima for den kvadratiske fejlfunktion
Nogle gange kan valg af centroider tilfældigt ikke give frugtbare resultater
Kan kun bruges, hvis betydningen er defineret
Kan ikke håndtere outliers og støjende data
Arbejd ikke for det ikke-lineære datasæt
Mangler konsistens
Følsom over for skala
Hvis der opstår meget store datasæt, kan computeren muligvis gå ned.
Forudsigelsesproblemer

Anbefalede artikler

Dette har været en guide til K-Means klynge-algoritme. Her diskuterede vi arbejdet, applikationer, fordele og ulemper ved K-Means-klyngerealgoritme. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

Hvad er neurale netværk?
Hvad er datamining? | Dataminingens rolle
Interview Mining Interview Data
Machine Learning vs Neural Network
Klynge i maskinlæring

K- betyder klynge-algoritme - Sådan fungerer det - Analyse og implementering

Indholdsfortegnelse:

Introduktion til K-Betyder Clustering-algoritme?

Forståelse af K- betyder klynge-algoritme

Hvordan fungerer K-Betyder Clustering-algoritmen?

Albue-metode

Formålet-Based

Hvordan bruges ovenstående metoder?

Trin 1: Initialisering

Trin 2: Cluster Assignment

Trin 3: Flytning af Centroid

Trin 4: Optimering

Trin 5: Konvergens

Anvendelser af K- Means Clustering Algorithm

Fordele ved K- Means Clustering Algorithm

Ulemper ved K-Betyder Clustering Algoritme

Anbefalede artikler

PE Ratio Formel - Pris til indtjeningsberegner (Excel-skabelon)

Penværktøj i Illustrator - Sådan bruges penværktøjet i Illustrator?

PERCENTIL Formel i Excel - Hvordan bruges PERCENTIL-formlen?

Evaluering af præstationer - Mål - Fordele og ulemper

Perfekt konkurrence vs monopolistisk konkurrence - Top 10 forskelle

SOAP vs HTTP - 9 mest fantastiske sammenligninger, du burde vide

Top 14 SoapUI-interviewspørgsmål og svar (Opdateret til 2019)

Udtværningsværktøj i Photoshop - Lær, hvordan du bruger smudge-værktøjet i Photoshop

SOAP vs REST - Top 13 bedste sammenligning, du skal lære

Smarte objekter i Photoshop - Oprettelse af smarte objekter i Adobe Photoshop

Hvad er .NET Core - .NET Core Architecture - Arbejder - Karrierevækst

Hvad er DSS? - Komponenter og forskellige typer DSS

Hvad er Drupal? - Webindholdsstyring ved hjælp af Drupal

Hvad er Dropbox? - Nøglefunktioner i Dropbox - Fordele

Hvad er EIGRP? - Grundlæggende elementer og fordele ved EIGRP Routing Protocol