Hvad er forstærkningslæring? - Funktion og forskellige faktorer

Introduktion til forstærkningslæring

Forstærkningslæring er en type maskinlæring, og det er derfor også en del af kunstig intelligens, når de anvendes til systemer, udfører systemerne trin og lærer baseret på resultatet af trin for at opnå et komplekst mål, der er sat for, at systemet skal nå.

Forstå forstærkningslæring

Lad os forsøge at arbejde under forstærkningslæring ved hjælp af 2 tilfælde af enkel brug:

Sag nr. 1

Der er en baby i familien, og hun er lige begyndt at gå, og alle er ganske glade for det. En dag forsøger forældrene at sætte sig et mål, lad os baby nå sofaen og se, om babyen er i stand til det.

Resultat af sag 1: Babyen når frem til sofaen, og derfor er alle i familien meget glade for at se dette. Den valgte vej kommer nu med en positiv belønning.

Punkter: Belønning + (+ n) → Positiv belønning.

Kilde: https://images.app.goo.gl/pGCXJ1N1bzLAer126

Sag nr. 2

Babyen kunne ikke nå sofaen, og babyen er faldet. Det gør ondt! Hvad kan muligvis være årsagen? Der kan være nogle forhindringer i stien til sofaen, og babyen var faldet til forhindringer.

Resultat af sag 2: Babyen falder på nogle forhindringer, og hun græder! Åh, det var dårligt, lærte hun, ikke at falde i fælden med forhindring næste gang. Den valgte vej kommer nu med en negativ belønning.

Point: Belønning + (-n) → Negativ belønning.

Kilde: https://images.app.goo.gl/FRfd8cUqrQRLe6sZ7

Dette har vi nu set tilfælde 1 og 2, forstærkningslæring, i koncept, gør det samme bortset fra at det ikke er menneskeligt, men i stedet udføres beregningsmæssigt.

Brug af armering trinvis

Lad os forstå forstærkningsindlæringen ved at bringe et forstærkningsagent på en trinvis måde. I dette eksempel er vores forstærkningslæringsagent Mario, som vil lære at spille på egen hånd:

Kilde: https://images.app.goo.gl/Kj44uvBzWzMw1QzE9

Den aktuelle tilstand i Mario-spilmiljøet er S_0. Fordi spillet endnu ikke er startet, og Mario er på sin plads.
Derefter starter spillet, og Mario bevæger sig, Mario dvs. RL-agenten tager og handler, lad os sige A_0.
Nu er spilmiljøets tilstand blevet S_1.
Desuden er RL-agenten, dvs. Mario nu tildelt et positivt belønningspunkt, R_1, sandsynligvis fordi Mario stadig er i live, og der ikke var nogen fare.

Nu vil ovennævnte loop fortsætte med at køre, indtil Mario endelig er død, eller Mario når sin destination. Denne model udsender løbende handlingen, belønningen og tilstanden.

Maksimering belønninger

Målet med forstærkningslæring er at maksimere belønningerne ved at tage hensyn til visse andre faktorer, såsom belønningsrabatten; vi vil kort forklare, hvad der menes med rabatten ved hjælp af en illustration.

Den kumulative formel for nedsatte belønninger er som:

Rabatbelønninger

Lad os forstå dette gennem et eksempel:

I den givne figur er målet, musen i spillet skal spise lige så meget ost, før den bliver spist af en kat eller uden at blive elektrosjokket.
Nu kan vi antage, at jo tættere vi er på katten eller den elektriske fælde, jo større er sandsynligheden for, at musen bliver spist eller chokeret.
Dette indebærer, at selvom vi har den fulde ost nær den elektriske stødblok eller i nærheden af katten, jo mere risikabelt det er at gå der, er det bedre at spise osten, der er i nærheden, for at undgå enhver risiko.
Så selvom vi har en "blok1" af ost, som er fuld og er langt fra katten og den elektriske stødblok og den anden en "blok2", som også er fuld, men enten er i nærheden af katten eller den elektriske stødblok, den senere osteblokke, dvs. “blok2”, vil være mere diskonteret i belønninger end den foregående.

Kilde: https://images.app.goo.gl/8QrH78FjmRVs5Wxk8

Kilde: https://cdn-images-1.medium.com/max/800/1*l8wl4hZvZAiLU56hT9vLlg.png.webp

Typer af forstærkningslæring

Nedenfor er de to typer forstærkningslæring med deres fordele og ulemper:

1. Positiv

Når styrken og hyppigheden af adfærden øges på grund af forekomsten af en bestemt adfærd, kaldes det Positive Reinforcement Learning.

Fordele: Ydelsen maksimeres, og ændringen forbliver i længere tid.

Ulemper: Resultater kan mindskes, hvis vi har for meget forstærkning.

2. Negativ

Det er styrkelse af adfærd, mest på grund af at det negative udtryk forsvinder.

Fordele: Opførsel øges.

Ulemper: Kun den minimale opførsel af modellen kan nås ved hjælp af negativ forstærkningslæring.

Hvor forstærkningslæring skal bruges?

Ting, der kan gøres med forstærkningslæring / eksempler. Følgende er de områder, hvor forstærkningslæring anvendes i disse dage:

Healthcare
Uddannelse
Spil
Computer vision
Forretningsledelse
Robotics
Finansiere
NLP (Natural Language Processing)
Transportmidler
Energi

Karrierer inden for forstærkningslæring

Der er faktisk en rapport fra jobstedet, da RL er en gren af maskinlæring, ifølge rapporten er maskinlæring det bedste job i 2019. Nedenfor er snapshot af rapporten. I henhold til de nuværende tendenser kommer en Machine Learning Engineers med en enorm gennemsnitlig løn på $ 146.085 og med en vækstrate på 344 procent.

Kilde: https://i0.wp.com/www.artificialintelligence-news.com/wp-content/uploads/2019/03/indeed-top-jobs-2019-best.jpg.webp?w=654&ssl=1

Færdigheder til styrkelse af læring

Nedenfor er de færdigheder, der kræves til forstærkningslæring:

1. Grundlæggende færdigheder

Sandsynlighed
Statistikker
Datamodellering

2. Programmeringsfærdigheder

Grundlæggende om programmering og datalogi
Design af software
I stand til at anvende Machine Learning-biblioteker og algoritmer

3. Sprog til programmering af maskinlæring

Python
R
Selvom der også er andre sprog, hvor Machine Learning-modeller kan designes som Java, C / C ++, men Python og R er de mest foretrukne sprog, der bruges.

Konklusion

I denne artikel startede vi med en kort introduktion om forstærkningsindlæring, og derefter dybt dykkede ind i arbejdet med RL og forskellige faktorer, der er involveret i arbejdet med RL-modeller. Derefter havde vi sat nogle eksempler fra den virkelige verden for at forstå endnu bedre om emnet. Ved udgangen af denne artikel skal man have en god forståelse af arbejdet med forstærkningslæring.

Anbefalede artikler

Dette er en guide til Hvad er forstærkningslæring? Her diskuterer vi funktionen og forskellige faktorer, der er involveret i udvikling af modeller for forstærkningslæring, med eksempler. Du kan også gennemgå vores andre relaterede artikler for at lære mere -

Typer af maskinlæringsalgoritmer
Introduktion til kunstig intelligens
Kunstig intelligens værktøjer
IoT-platform
Top 6 Machine Learning Programmeringssprog

Hvad er forstærkningslæring? - Funktion og forskellige faktorer

Indholdsfortegnelse:

Introduktion til forstærkningslæring

Forstå forstærkningslæring

Sag nr. 1

Sag nr. 2

Brug af armering trinvis

Maksimering belønninger

Rabatbelønninger

Typer af forstærkningslæring

1. Positiv

2. Negativ

Hvor forstærkningslæring skal bruges?

Karrierer inden for forstærkningslæring

Færdigheder til styrkelse af læring

1. Grundlæggende færdigheder

2. Programmeringsfærdigheder

3. Sprog til programmering af maskinlæring

Konklusion

Anbefalede artikler

GIT versionskontrolsystem - Vejledning til forskellige typer versionskontroller

GitHub-klon - Process til oprettelse af en kopi af mållageret

Git terminologi - Funktioner og fordele ved Git-terminologi

GLM i R - GLM-funktion og hvordan oprettes GLM i R?

Git livscyklus - De tre faser i Git-livscyklus med arbejdsgangen

Regnskabsmetode - Typer og eksempel på regnskabsmetode

Regnskab vs økonomistyring Top 9 forskelle med infografik

Regnskab kontra CPA - Top 9 forskelle, du burde vide

Betalbar konto mod påløbet udgift - Top 6 forskelle at lære

Periodisering vs udsættelse - 6 mest fantastiske sammenligninger at lære

JavaFX Line Chart - Sådan oprettes JavaFX-linjekort? (Prøvekode)

JavaFX farve - Forskellige metoder til at oprette JavaFX-farve

JavaFX Layouts - Top 5 layouts af JavaFX med eksempler

JavaFX Menu - Sådan oprettes menu i JavaFX med eksempler?

JavaFX Slider - Programmer Implementere JavaFX-skyderen