Introduktion til bedst sammenligning af Cluster v / s faktoranalyse

Indholdsfortegnelse:

Anonim

Hvad er klynge-analyse

Klyngeanalyse grupperer data baseret på de egenskaber, de besidder. Klyngeanalyse grupperer objekter baseret på de faktorer, der gør dem ens. Cluster-analyse kaldes ellers Segmenteringsanalyse eller taksonomianalyse. Klyngeanalyse differentierer ikke afhængige og uafhængige variabler. Klyngeanalyse bruges inden for en lang række områder såsom psykologi, biologi, statistik, data mining, mønstergenkendelse og andre samfundsvidenskaber.

Formålet med klyngeanalyse

Det vigtigste klyngeanalysemål er at tackle heterogeniteten i hvert datasæt. De andre klyngeanalysemål er

  • Taxonomibeskrivelse - Identificering af grupper inden for dataene
  • Forenkling af data - Evnen til at analysere grupper af lignende observationer i stedet for al individuel observation
  • Hypotesegenerering eller -testning - Udvikle hypotese baseret på arten af ​​dataene eller for at teste den tidligere nævnte hypotese
  • Relationsidentifikation - Den forenklede struktur fra klyngeanalyse, der beskriver forholdene

Der er to hovedformål med klyngeanalyse - forståelse og værktøj.

Under forståelsestilfælde grupperer gruppeanalyse objekter, der har nogle fælles egenskaber

I formålet med Utility giver klyngeanalyse egenskaberne for hvert dataobjekt til de klynger, som de tilhører.

Klynge-analyse går hånd i hånd med faktoranalyse og diskriminerende analyse.

Du bør stille dig selv nogle spørgsmål om klynge-analyse, før du starter med det

  • Hvilke variabler er relevante?
  • Er prøvestørrelsen nok?
  • Kan detekteres outliers, og skal det fjernes?
  • Hvordan skal objektlighed måles?
  • Bør data standardiseres?

Typer af klynger

Der er tre hovedtyper af klynger

  • Hierarkisk klynge - som indeholder agglomerativ og splittende metode
  • Partitional Clustering - Indeholder K-Means, Fuzzy K-Means, Isodata under den
  • Tæthedsbaseret klynge - Har denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed under det

Antagelser i klynge-analyse

Der er altid to antagelser i klynge-analyse

  • Det antages, at stikprøven er en repræsentant for befolkningen
  • Det antages, at variablerne ikke er korrelerede. Selv hvis variabler er korrelerede, skal du fjerne korrelerede variabler eller bruge afstandsmålinger, der kompenserer for korrelationen.

Trin i klyngeanalyse

    • Trin 1: Definer problemet
    • Trin 2: Beslut den passende lighedstakt
    • Trin 3: Bestem, hvordan man grupperer objekterne
    • Trin 4: Bestemm antallet af klynger
    • Trin 5: Fortolk, beskriv og valider klyngen

Cluster Analyse i SPSS

I SPSS kan du finde indstillingen til klyngeanalyse i muligheden Analyse / klassificere. I SPSS er der tre metoder til klyngeanalyse - K-Means Cluster, Hierarchical Cluster og Two Step Cluster.

K-Means klyngemetode klassificerer et givet datasæt gennem et fast antal klynger. Denne metode er let at forstå og giver den bedste output, når dataene er adskilt fra hinanden.

To-trins klynge-analyse er et værktøj designet til at håndtere store datasæt. Det skaber klynger på både kategoriske og kontinuerlige variabler.

Hierarkisk klynge er den mest almindeligt anvendte metode til klyngeanalyse. Det kombinerer sager i homogene klynger ved at bringe dem sammen gennem en række sekventielle trin.

Hierarkisk klynge-analyse indeholder tre trin

  • Beregn afstanden
  • Knyt klyngerne sammen
  • Valg af en løsning ved at vælge det rigtige antal klynger

Nedenfor er trinnene til udførelse af Hierarkisk Cluster-analyse i SPSS.

  • Første trin er at vælge de variabler, der skal klynges. Nedenstående dialogboks forklarer det for dig
  • Ved at klikke på statistikindstillingen i ovenstående dialogboks, får du den dialogboks, hvor du vil specificere output
  • Tilføj dialogboksen i dialogboksen. Dendrogram er den grafiske repræsentation af den hierarkiske klyngeanalysemetode. Det viser, hvordan klyngerne kombineres på hvert trin, indtil det danner en enkelt klynge.
  • Dialogboksen metode er afgørende. Du kan nævne metoden for afstand og klynge her. I SPSS er der tre mål for interval, tællinger og binære data.
  • Den kvadratiske euklidiske afstand er summen af ​​de kvadratiske forskelle uden at tage kvadratroten.
  • I tællingerne kan du vælge mellem Chi Square og Phi Square måling
  • I afsnittet Binær har du en masse muligheder at vælge. Kvadratisk euklidisk afstand er den bedste mulighed at bruge.
  • Næste trin er at vælge klyngemetoden. Det anbefales altid at bruge Single Linkage eller nærmeste nabo, da det let hjælper med at identificere udliggerne. Når outliers er identificeret, kan du bruge Ward's Method.
  • Det sidste trin er standardisering

Kritik af Cluster Analyse

De mest almindelige kritikker er anført nedenfor

  • Det er beskrivende, teoretisk og ikke inferentielt.
  • Det vil producere klynger uanset den faktiske eksistens af nogen struktur
  • Det kan ikke bruges i vid udstrækning, da det helt afhænger af de variabler, der bruges som grundlag for ligheden

Hvad er faktoranalyse?

Faktoranalyse er en eksplorativ analyse, der hjælper med at gruppere lignende variabler i dimensioner. Det kan bruges til at forenkle dataene ved at reducere observationernes dimensioner. Faktoranalyse har flere forskellige rotationsmetoder.

Faktoranalyse bruges mest til datareduktionsformål.

Der er to typer faktoranalyse - Exploratory and Confirmatory

  • Undersøgelsesmetode bruges, når du ikke har en foruddefineret idé om strukturer eller dimensioner i et sæt af variabler.
  • Bekræftelsesmetode bruges, når du vil teste specifik hypotese om strukturer eller dimensioner i et sæt af variabler.

Formål med faktoranalyse

Der er to hovedmål med faktoranalyse, som er nævnt nedenfor

  • Identifikation af de underliggende faktorer - Dette inkluderer gruppering af variabler i homogene sæt, oprettelse af nye variabler og hjælp til at få viden om kategorierne
  • Screening af variabler - Det hjælper med regression og identificerer grupperinger for at give dig mulighed for at vælge en variabel, der repræsenterer mange.

Antagelser om faktoranalyse

Der er fire hovedantagelser om faktoranalyse, som er nævnt nedenfor

  • Modeller er normalt baseret på lineære forhold
  • Det antages, at de indsamlede data skaleres
  • Multikollinearitet i dataene er ønskelig, da målet er at finde ud af det indbyrdes forbundne sæt af variabler
  • Dataene skal være åbne og lydhøre for faktoranalyse. Det skal ikke være på en sådan måde, at en variabel kun er korreleret med sig selv, og at der ikke findes nogen sammenhæng med nogen anden variabel. Faktoranalyse kan ikke udføres på sådanne data.

Typer af factoring

  • Hovedkomponentfaktorering - Mest anvendte metode, hvor faktorvægten beregnes for at udtrække den maksimale mulige varians og fortsætter, indtil der ikke er nogen meningsfuld varians tilbage.
  • Kanonisk faktoranalyse - Finder faktorer, der har den højeste kanoniske sammenhæng med de observerede variabler
  • Fælles faktoranalyse - søger det mindste antal faktorer, der kan redegøre for den fælles varians af et sæt variabler
  • Billedfaktoring - Baseret på korrelationsmatrixen, hvor hver variabel er forudsagt fra de andre ved hjælp af multiple regression
  • Alpha Factoring - maksimerer pålideligheden af ​​faktorer
  • Faktorregressionsmodel - Kombination af faktormodel og regressionsmodel, hvis faktorer delvist er kendt

Kriterier for faktoranalyse

  1. Eigenvalue kriterier

  • Representerer mængden af ​​varians i de originale variabler, der er forbundet med en faktor
  • Summen af ​​kvadratet af faktorbelastningerne for hver variabel på en faktor repræsenterer egenværdien
  • Faktorer med egenværdier, der er større end 1, 0, holdes
  1. Kriterier for scree-plot

  • Et plot af egenværdierne mod antallet af faktorer i rækkefølge af ekstraktion.
  • Plottets form bestemmer antallet af faktorer
  1. Procentdel af variationskriterier

  • Antallet af ekstraherede faktorer konstateres, så den stigende procentdel af varians, der ekstraheres med faktorerne, når niveauet af tilfredshed.
  1. Kriterier for betydningstest

  • Den statistiske betydning af de separate egenværdier findes, og kun de faktorer, der er statistisk signifikante, bevares

Faktoranalyse bruges inden for forskellige områder som psykologi, sociologi, statsvidenskab, uddannelse og mental sundhed.

Faktoranalyse i SPSS

I SPSS findes faktoranalysemuligheden i Analyser à dimensionsreduktion à faktor

  • Start med at tilføje variablerne til listen over variabler
  • Klik på fanen Beskrivende, og tilføj få statistikker, hvor antagelserne om faktoranalyse verificeres.
  • Klik på ekstraktionsindstillingen, som giver dig mulighed for at vælge ekstraktionsmetode og afskæringsværdi for ekstraktion
  • Principal Components (PCA) er standardekstraktionsmetoden, der ekstraherer endda ukorrelerede lineære kombinationer af variablerne. PCA kan bruges, når en korrelationsmatrix er ental. Det ligner meget Canonical Correlation Analyse, hvor den første faktor har maksimal varians, og de følgende faktorer forklarer mindre del af variansen.
  • Den næst mest generelle analyse er principakse factoring. Det identificerer de latente konstruktioner bag observationer.
  • Næste trin er at vælge en rotationsmetode. Den mest anvendte metode er Varimax. Denne metode forenkler fortolkningen af ​​faktorer.
  • Den anden metode er Quartimax. Denne metode roterer faktorerne for at minimere antallet af faktorer. Det forenkler fortolkningen af ​​den observerede variabel.
  • Den næste metode er Equamax, som er en kombination af ovenstående to metoder.
  • I dialogboksen ved at klikke på “indstillingerne” kan du styre de manglende værdier
  • Før du gemmer resultaterne i datasættet, skal du først køre faktoranalysen og kontrollere for antagelser og bekræfte, at resultaterne er meningsfulde og nyttige.

Cluster Analyse vs Faktor Analyse

Både klyngeanalyse og faktoranalyse er en uovervåget indlæringsmetode, der bruges til segmentering af data. Mange forskere, der er nye inden for dette felt, føler, at klyngeanalysen og faktoranalysen er ens. Det kan virke ens, men de er forskellige på mange måder. Forskellene mellem klyngeanalyse og faktoranalyse er anført nedenfor

  • Objektiv

Målet med klynge og faktoranalyse er forskellige. Formålet med klyngenanalyse er at opdele observationer i homogene og adskilte grupper. Faktoranalysen på den anden side forklarer homogeniteten af ​​variablerne, der er resultatet af ligheden mellem værdier.

  • kompleksitet

Kompleksitet er en anden faktor, hvorpå klynge- og faktoranalyse er forskellige. Datastørrelsen påvirker analysen forskelligt. Hvis datastørrelsen er for stor, bliver den beregningsmæssigt ufravigelig i klynge-analyse.

  • Løsning

Løsningen på et problem er mere eller mindre ens i både faktor- og klyngeanalyse. Men faktoranalyse giver en bedre løsning til forskeren i et bedre aspekt. Cluster-analyse giver ikke det bedste resultat, da alle algoritmer i cluster-analyse er beregningsmæssigt ineffektive.

  • Applikationer

Faktoranalyse og klyngeanalyse anvendes forskelligt på reelle data. Faktoranalyse er velegnet til at forenkle komplekse modeller. Det reducerer det store sæt af variabler til et meget mindre sæt af faktorer. Forskeren kan udvikle et sæt hypotese og kørefaktoranalyse for at bekræfte eller benægte denne hypotese.

Klyngeanalyse er velegnet til klassificering af objekter baseret på visse kriterier. Forskeren kan måle bestemte aspekter af en gruppe og opdele dem i specifikke kategorier ved hjælp af klyngeanalyse.

Der er også mange andre forskelle, der er nævnt nedenfor

  • Cluster-analyse forsøger at gruppere sager, mens faktoranalyse forsøger at gruppefunktioner.
  • Klyngeanalyse bruges til at finde mindre grupper af sager, der er repræsentative for en data som helhed. Faktoranalyse bruges til at finde en mindre gruppe af funktioner, der er repræsentative for datasættets originale funktioner.
  • Den vigtigste del af klyngeanalysen er at finde antallet af klynger. Grundlæggende er klyngemetoder opdelt i to - Agglomerativ metode og Partitioneringsmetode. Agglomerativ metode starter med hvert enkelt tilfælde i sin egen klynge og stopper, når et kriterium er nået. Opdelingsmetoden starter med alle tilfælde i en klynge.
  • Faktoranalyse bruges til at finde ud af en underliggende struktur i et datasæt.

Konklusion

Håber, at denne artikel ville have hjulpet dig med at forstå det grundlæggende i Cluster-analyse og faktoranalyse og forskellene mellem de to.

Relaterede kurser: -

  1. Kursanalysekursus