KNN-algoritme i R - Komplet detalje i KNN-algoritme i R

Introduktion til KNN-algoritme i R

I KNN-algoritmen i R står KNN for K nærmeste nabo-algoritme, og R er et programmeringssprog. Det siges at være den enkleste af maskinlæringsalgoritmen. KNN er en overvåget algoritme klassificerer datapunkter i en målklasse ved at sammenligne funktioner med sin nærmeste nabo.

Eksempel: Lad os antage, at du vil klassificere en berøringsskærm og en tastaturstelefon. Der er forskellige faktorer, der involverer i at differentiere begge telefoner. Den faktor, der adskiller begge telefoner, er imidlertid tastaturet. Så når vi modtager et datapunkt (dvs. telefon). Vi sammenligner det med de lignende funktioner i nabo-datapunkterne for at klassificere det som et tastatur eller en berørings-telefon.

Funktioner ved KNN-algoritme

Her vil vi studere funktionerne i KNN-algoritmen:

KNN-algoritmen bruger inputdata til at forudsige output sæt datapunkter.
Algoritmen kan anvendes til forskellige sæt af problemer.
Fokuserer på funktionens lighed for at klassificere dataene.
KNN-algoritme håndterer realistiske data og tager ingen antagelser om datapunkterne.
KNN husker træningsdatasættet i stedet for at være intuitivt. Man kan også sige, at det har en doven tilgang.
Det kan løse klassificerings- og regressionsproblemer.

Adressering af problemer i KNN-algoritmen i R

Følgende adresseringsproblem:

1. Klassificeringsproblem

I klassificeringsproblemet er værdierne diskrete, ligesom om du kan lide at spise pizza med påfyldning eller uden. Der er fælles grund. KNN Algoritme hjælper med at løse et sådant problem.

2. Regression Problem

Regressionsproblemet kommer ind i billedet, når vi har en afhængig variabel og en uafhængig variabel. Eks .: BMI-indeks. Typisk indeholder hver række en observation eller datapunkt og et eksempel.

KNN-algoritmen i R

Lad os se på trinnene i algoritmen, der skal følges:

Trin 1: Indlæs inputdataene.

Trin 2: Initialiser K med antallet af nærmeste naboer.

Trin 3: Beregning af dataene (dvs. afstanden mellem den aktuelle og den nærmeste nabo)

Trin 4: Tilføje afstanden til det nuværende bestilte datasæt.

Trin 5: Hent K-poster og mærk dem.

Trin 6: Returner middelværdien for regressionsproblemet.

Trin 7: Returner funktionsværdien for klassificeringsproblemer.

Peger at huske på, mens KNN-algoritmen implementeres

Vi skal sørge for, at K-værdien er større end én, det forhindrer i forudsigelse at være nøjagtig.
Jo mere K-værdien er, desto mere nøjagtig kan forudsigelsen skyldes flertallet.
Det foretrækkes at have K som et ulige tal. Ellers kan det føre til en bindemaskine.

KNN Pseudocode

I formlen nedenfor repræsenterer variabler og repræsenterer datapunkter, hvor (i = 1, 2, 3….)

Set(, )

Brug sager

Følgende er brugssager i KNN-algoritme i R:

1. Sammenligning af produkter og hjælp til shoppinganbefalinger

Når vi køber en bærbar computer eller computer fra et online e-handelswebsted, ser vi også shoppinganbefalinger som at købe antivirus-software eller højttalere. Alt dette skyldes, at når en tidligere kunde køber en bærbar computer, købes det for det meste sammen med antivirus eller højttalere. Maskinlæring hjælper med e-handelsanbefalinger.

2. Madrådeanbefalinger

Maskinindlæring hjælper også med henstillinger baseret på tidligere bestilt mad og foreslår også restauranter i overensstemmelse hermed.

Eksempel på KNN-algoritmen

Følgende er eksemplerne på KNN-algoritmen:

1. Import af data

Lad os tage dummy-dataene om os, der forudsiger t-shirtstørrelsen på en fyr ved hjælp af højde og vægt.

Højde (cms)	Vægt (kg)	Størrelse
140	58	S
140	59	S
140	63	S
150	59	M
152	60	M
153	60	M
154	61	M
155	64	M
156	64	M
157	61	M
160	62	L
161	65	L
162	62	L
163	63	L
163	66	L
165	63	L
165	64	L
165	68	L

2. Find ligheder ved at beregne afstand

Vi kan bruge både Manhattan og Euklidisk afstand, da dataene er kontinuerlige. Vi beregner afstanden mellem den nye prøve og træningsdatasættet og finder derefter K-nærmeste.

Eksempel: Lad os sige, at 'Raj' har en højde på 165 cm og vejer 63 kg. Vi beregner den euklidiske afstand ved hjælp af den første observation med den nye prøve: SQRT ((165-140) 2 + (63-58) 2)

3. Find K-nærmeste naboer

Lad os antage, at K = 4, der er 4 kunder, hvor 3 af dem havde mellemstor størrelse og 1 var stor størrelse. Den bedste forudsigelse er Raj i mellemstørrelse.

Forskel mellem KNN og K-middel

Følgende er forskellen:

KNN er en overvåget algoritme (afhængig variabel), mens K-middel er en ikke-overvåget algoritme (ingen afhængig variabel).
K-middel bruger en klyngeteknik til at opdele datapunkter, der danner K-klynger. KNN bruger K-nærmeste naboer til at klassificere datapunkter og kombinere dem.

Fordele og ulemper ved KNN

Følgende er fordelene:

KNN-algoritme er alsidig, kan bruges til klassificerings- og regressionsproblemer.
Intet behov for en tidligere model til at opbygge KNN-algoritmen.
Enkel og let at implementere.

Følgende er ulemperne:

Algoritmen efterhånden som antallet af prøver stiger (dvs. antal variabler)

Anbefalede artikler

Dette er en guide til KNN-algoritme i R. Her diskuterer vi funktioner, eksempler, pseudokode, trin, der skal følges i KNN-algoritme. Du kan også gennemgå vores andre relaterede artikler for at lære mere-

Data Science algoritmer
Hvad er genetisk algoritme?
Routing-algoritmer
Neurale netværksalgoritmer
C ++ algoritme | Eksempler på C ++ algoritme

KNN-algoritme i R - Komplet detalje i KNN-algoritme i R

Indholdsfortegnelse:

Introduktion til KNN-algoritme i R

Funktioner ved KNN-algoritme

Adressering af problemer i KNN-algoritmen i R

1. Klassificeringsproblem

2. Regression Problem

KNN-algoritmen i R

Peger at huske på, mens KNN-algoritmen implementeres

KNN Pseudocode

Brug sager

1. Sammenligning af produkter og hjælp til shoppinganbefalinger

2. Madrådeanbefalinger

Eksempel på KNN-algoritmen

1. Import af data

2. Find ligheder ved at beregne afstand

3. Find K-nærmeste naboer

Forskel mellem KNN og K-middel

Fordele og ulemper ved KNN

Anbefalede artikler

Harde penge vs bløde penge - Top 13 bedste forskelle (med infografik)

HashSet vs HashMap - Top 5 terminologier af HashSet og HashMap

Harmonisk middelformel - Lommeregner (Excel-skabelon)

Hashmap i Java - Top 13 metoder til Hashmap i Java med eksempler

Haskell vs Erlang - 6 Nyttige forskelle, du skal lære

JQuery Elements - Top 8 jQuery-vælgere med implementering af kode

Top 10 væsentlige JSF-interviewspørgsmål og svar (Opdateret til 2019)

JRE vs JVM - Top 8 forskelle, du skal lære (Infographics)

JSF Livscyklus - Seks forskellige regelmæssige faser af JSF-livscyklus

JQuery Progress Bar - Vejledning til eksempler på JQuery Progress Bar

Bruttoløn vs nettoløn - Top 6 forskelle (med infografik)

Grafiske stilarter i Illustrator - Creatie grafiske stilarter med udseende panel

Bruttofortjeneste (formel) - Top 3 eksempler på bruttofortjeneste

Bruttoprocentprocent - Formel og top 3-eksempler med Excel-skabelon

Vigtige gruppediskussionstip til interview - eduCBA