Nøkkelforskjell – overvåket vs uovervåket maskinlæring
Supervised learning og unsupervised learning er to kjernebegreper innen maskinlæring. Overvåket læring er en maskinlæringsoppgave for å lære en funksjon som kartlegger en inngang til en utgang basert på eksempelinngang-utgang-parene. Uovervåket læring er maskinlæringsoppgaven med å utlede en funksjon for å beskrive skjult struktur fra umerkede data. Hovedforskjellen mellom overvåket og uovervåket maskinlæring er at overvåket læring bruker merkede data mens uovervåket læring bruker umerkede data.
Machine Learning er et felt innen informatikk som gir et datasystem muligheten til å lære av data uten å være eksplisitt programmert. Det lar deg analysere dataene og forutsi mønstre i dem. Det er mange bruksområder for maskinlæring. Noen av dem er ansiktsgjenkjenning, gestgjenkjenning og talegjenkjenning. Det finnes ulike algoritmer knyttet til maskinlæring. Noen av dem er regresjon, klassifisering og clustering. De vanligste programmeringsspråkene for utvikling av maskinlæringsbaserte applikasjoner er R og Python. Andre språk som Java, C++ og Matlab kan også brukes.
Hva er veiledet læring?
I maskinlæringsbaserte systemer fungerer modellen etter en algoritme. I veiledet læring veiledes modellen. Først er det nødvendig å trene modellen. Med den oppnådde kunnskapen kan den forutsi svar for fremtidige instanser. Modellen trenes ved hjelp av et merket datasett. Når en ut av prøvedata gis til systemet, kan det forutsi resultatet. Følgende er et lite utdrag fra det populære IRIS-datasettet.
I henhold til tabellen ovenfor kalles begerbladlengde, begerbladbredde, patelllengde, patellbredde og arter attributtene. Kolonnene er kjent som funksjoner. Én rad har data for alle attributter. Derfor kalles en rad en observasjon. Dataene kan enten være numeriske eller kategoriske. Modellen er gitt observasjonene med tilsvarende artsnavn som input. Når en ny observasjon gis, bør modellen forutsi hvilken type art den tilhører.
I veiledet læring finnes det algoritmer for klassifisering og regresjon. Klassifisering er prosessen med å klassifisere de merkede dataene. Modellen skapte grenser som skilte kategoriene av data. Når nye data leveres til modellen, kan den kategorisere basert på hvor punktet eksisterer. K-Nærmeste Naboer (KNN) er en klassifiseringsmodell. Avhengig av k-verdien bestemmes kategorien. For eksempel, når k er 5, hvis et bestemt datapunkt er nær åtte datapunkter i kategori A og seks datapunkter i kategori B, vil datapunktet bli klassifisert som A.
Regresjonen er prosessen med å forutsi trenden til de tidligere dataene for å forutsi utfallet av de nye dataene. Ved regresjon kan utgangen bestå av en eller flere kontinuerlige variabler. Prediksjon gjøres ved å bruke en linje som dekker de fleste datapunkter. Den enkleste regresjonsmodellen er en lineær regresjon. Den er rask og krever ikke innstillingsparametere som i KNN. Hvis dataene viser en parabolsk trend, er den lineære regresjonsmodellen ikke egnet.
Dette er noen eksempler på veiledede læringsalgoritmer. Generelt er resultatene generert fra veiledede læringsmetoder mer nøyaktige og pålitelige fordi inndataene er velkjente og merket. Derfor må maskinen kun analysere de skjulte mønstrene.
Hva er uovervåket læring?
I uveiledet læring er modellen ikke veiledet. Modellen fungerer på egen hånd for å forutsi resultatene. Den bruker maskinlæringsalgoritmer for å komme til konklusjoner på umerkede data. Generelt er de uovervåkede læringsalgoritmene vanskeligere enn overvåkede læringsalgoritmer fordi det er lite informasjon. Clustering er en type uovervåket læring. Den kan brukes til å gruppere de ukjente dataene ved hjelp av algoritmer. K-gjennomsnittet og densitetsbaserte klyngingen er to klyngealgoritmer.
k-middelalgoritme, plasserer k tyngdepunkt tilfeldig for hver klynge. Deretter tilordnes hvert datapunkt til nærmeste tyngdepunkt. Euklidisk avstand brukes til å beregne avstanden fra datapunktet til tyngdepunktet. Datapunktene er klassifisert i grupper. Posisjonene for k sentroider beregnes på nytt. Den nye tyngdepunktsposisjonen bestemmes av gjennomsnittet av alle punktene i gruppen. Igjen er hvert datapunkt tilordnet det nærmeste tyngdepunktet. Denne prosessen gjentas til tyngdepunktene ikke lenger endres. k-mean er en rask klyngealgoritme, men det er ingen spesifisert initialisering av klyngepunkter. Det er også en stor variasjon av klyngemodeller basert på initialisering av klyngepunkter.
En annen klyngealgoritme er tetthetsbasert klynging. Det er også kjent som Density Based Spatial Clustering Applications with noise. Det fungerer ved å definere en klynge som det maksimale settet med tetthetskoblede punkter. De er to parametere som brukes for tetthetsbasert gruppering. De er Ɛ (epsilon) og minimumspoeng. Ɛ er den maksimale radiusen til nabolaget. Minimum poeng er minimum antall punkter i Ɛ nabolaget for å definere en klynge. Dette er noen eksempler på klynging som faller inn i uovervåket læring.
Generelt er resultatene generert fra uovervåket læringsalgoritmer ikke mye nøyaktige og pålitelige fordi maskinen må definere og merke inndataene før den bestemmer de skjulte mønstrene og funksjonene.
Hva er likheten mellom overvåket og uovervåket maskinlæring?
Både overvåket og uovervåket læring er typer maskinlæring
Hva er forskjellen mellom overvåket og uovervåket maskinlæring?
overvåket vs uovervåket maskinlæring |
|
Supervised Learning er maskinlæringsoppgaven med å lære en funksjon som kartlegger en inngang til en utgang basert på eksempler på input-output-par. | Usupervised Learning er maskinlæringsoppgaven med å utlede en funksjon for å beskrive skjult struktur fra umerkede data. |
Hovedfunksjonalitet | |
I veiledet læring forutsier modellen resultatet basert på de merkede inndataene. | I uovervåket læring forutsier modellen utfallet uten merkede data ved å identifisere mønstrene på egen hånd. |
Nøyaktighet av resultatene | |
Resultatene generert fra veiledede læringsmetoder er mer nøyaktige og pålitelige. | Resultatene generert fra læringsmetoder uten tilsyn er ikke mye nøyaktige og pålitelige. |
Hovedalgoritmer | |
Det finnes algoritmer for regresjon og klassifisering i veiledet læring. | Det finnes algoritmer for clustering i uovervåket læring. |
Sammendrag – overvåket vs uovervåket maskinlæring
Supervised Learning og Unsupervised Learning er to typer maskinlæring. Overvåket læring er maskinlæringsoppgaven med å lære en funksjon som kartlegger en inngang til en utgang basert på eksempler på input-output-par. Uovervåket læring er maskinlæringsoppgaven med å utlede en funksjon for å beskrive skjult struktur fra umerkede data. Forskjellen mellom overvåket og uovervåket maskinlæring er at overvåket læring bruker merkede data, mens uovervåket læring bruker umerkede data.