Introduktion til KNN-algoritme i R

I KNN-algoritmen i R står KNN for K nærmeste nabo-algoritme, og R er et programmeringssprog. Det siges at være den enkleste af maskinlæringsalgoritmen. KNN er en overvåget algoritme klassificerer datapunkter i en målklasse ved at sammenligne funktioner med sin nærmeste nabo.

Eksempel: Lad os antage, at du vil klassificere en berøringsskærm og en tastaturstelefon. Der er forskellige faktorer, der involverer i at differentiere begge telefoner. Den faktor, der adskiller begge telefoner, er imidlertid tastaturet. Så når vi modtager et datapunkt (dvs. telefon). Vi sammenligner det med de lignende funktioner i nabo-datapunkterne for at klassificere det som et tastatur eller en berørings-telefon.

Funktioner ved KNN-algoritme

Her vil vi studere funktionerne i KNN-algoritmen:

  • KNN-algoritmen bruger inputdata til at forudsige output sæt datapunkter.
  • Algoritmen kan anvendes til forskellige sæt af problemer.
  • Fokuserer på funktionens lighed for at klassificere dataene.
  • KNN-algoritme håndterer realistiske data og tager ingen antagelser om datapunkterne.
  • KNN husker træningsdatasættet i stedet for at være intuitivt. Man kan også sige, at det har en doven tilgang.
  • Det kan løse klassificerings- og regressionsproblemer.

Adressering af problemer i KNN-algoritmen i R

Følgende adresseringsproblem:

1. Klassificeringsproblem

I klassificeringsproblemet er værdierne diskrete, ligesom om du kan lide at spise pizza med påfyldning eller uden. Der er fælles grund. KNN Algoritme hjælper med at løse et sådant problem.

2. Regression Problem

Regressionsproblemet kommer ind i billedet, når vi har en afhængig variabel og en uafhængig variabel. Eks .: BMI-indeks. Typisk indeholder hver række en observation eller datapunkt og et eksempel.

KNN-algoritmen i R

Lad os se på trinnene i algoritmen, der skal følges:

Trin 1: Indlæs inputdataene.

Trin 2: Initialiser K med antallet af nærmeste naboer.

Trin 3: Beregning af dataene (dvs. afstanden mellem den aktuelle og den nærmeste nabo)

Trin 4: Tilføje afstanden til det nuværende bestilte datasæt.

Trin 5: Hent K-poster og mærk dem.

Trin 6: Returner middelværdien for regressionsproblemet.

Trin 7: Returner funktionsværdien for klassificeringsproblemer.

Peger at huske på, mens KNN-algoritmen implementeres

  • Vi skal sørge for, at K-værdien er større end én, det forhindrer i forudsigelse at være nøjagtig.
  • Jo mere K-værdien er, desto mere nøjagtig kan forudsigelsen skyldes flertallet.
  • Det foretrækkes at have K som et ulige tal. Ellers kan det føre til en bindemaskine.

KNN Pseudocode

I formlen nedenfor repræsenterer variabler og repræsenterer datapunkter, hvor (i = 1, 2, 3….)

Set(, )

Brug sager

Følgende er brugssager i KNN-algoritme i R:

1. Sammenligning af produkter og hjælp til shoppinganbefalinger

Når vi køber en bærbar computer eller computer fra et online e-handelswebsted, ser vi også shoppinganbefalinger som at købe antivirus-software eller højttalere. Alt dette skyldes, at når en tidligere kunde køber en bærbar computer, købes det for det meste sammen med antivirus eller højttalere. Maskinlæring hjælper med e-handelsanbefalinger.

2. Madrådeanbefalinger

Maskinindlæring hjælper også med henstillinger baseret på tidligere bestilt mad og foreslår også restauranter i overensstemmelse hermed.

Eksempel på KNN-algoritmen

Følgende er eksemplerne på KNN-algoritmen:

1. Import af data

Lad os tage dummy-dataene om os, der forudsiger t-shirtstørrelsen på en fyr ved hjælp af højde og vægt.

Højde (cms) Vægt (kg) Størrelse
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Find ligheder ved at beregne afstand

Vi kan bruge både Manhattan og Euklidisk afstand, da dataene er kontinuerlige. Vi beregner afstanden mellem den nye prøve og træningsdatasættet og finder derefter K-nærmeste.

Eksempel: Lad os sige, at 'Raj' har en højde på 165 cm og vejer 63 kg. Vi beregner den euklidiske afstand ved hjælp af den første observation med den nye prøve: SQRT ((165-140) 2 + (63-58) 2)

3. Find K-nærmeste naboer

Lad os antage, at K = 4, der er 4 kunder, hvor 3 af dem havde mellemstor størrelse og 1 var stor størrelse. Den bedste forudsigelse er Raj i mellemstørrelse.

Forskel mellem KNN og K-middel

Følgende er forskellen:

  • KNN er en overvåget algoritme (afhængig variabel), mens K-middel er en ikke-overvåget algoritme (ingen afhængig variabel).
  • K-middel bruger en klyngeteknik til at opdele datapunkter, der danner K-klynger. KNN bruger K-nærmeste naboer til at klassificere datapunkter og kombinere dem.

Fordele og ulemper ved KNN

Følgende er fordelene:

  • KNN-algoritme er alsidig, kan bruges til klassificerings- og regressionsproblemer.
  • Intet behov for en tidligere model til at opbygge KNN-algoritmen.
  • Enkel og let at implementere.

Følgende er ulemperne:

  • Algoritmen efterhånden som antallet af prøver stiger (dvs. antal variabler)

Anbefalede artikler

Dette er en guide til KNN-algoritme i R. Her diskuterer vi funktioner, eksempler, pseudokode, trin, der skal følges i KNN-algoritme. Du kan også gennemgå vores andre relaterede artikler for at lære mere-

  1. Data Science algoritmer
  2. Hvad er genetisk algoritme?
  3. Routing-algoritmer
  4. Neurale netværksalgoritmer
  5. C ++ algoritme | Eksempler på C ++ algoritme

Kategori: