Nøkkelforskjellen mellom klynging og klassifisering er at klynging er en uovervåket læringsteknikk som grupperer lignende forekomster på grunnlag av funksjoner, mens klassifisering er en overvåket læringsteknikk som tilordner forhåndsdefinerte tagger til forekomster på grunnlag av funksjoner.
Selv om klynging og klassifisering ser ut til å være lignende prosesser, er det en forskjell mellom dem basert på betydningen. I data mining-verdenen er klynging og klassifisering to typer læringsmetoder. Begge disse metodene karakteriserer objekter i grupper ved hjelp av en eller flere funksjoner.
Hva er gruppering?
Klynger er en metode for å gruppere objekter på en slik måte at objekter med lignende funksjoner kommer sammen, og objekter med ulike egenskaper går fra hverandre. Det er en vanlig teknikk for statistisk dataanalyse for maskinlæring og datautvinning. Undersøkende dataanalyse og generalisering er også et område som bruker klynging.
Figur 01: Clustering
Clustering tilhører uovervåket datautvinning. Det er ikke en enkelt spesifikk algoritme, men det er en generell metode for å løse en oppgave. Derfor er det mulig å oppnå klynging ved hjelp av ulike algoritmer. Den riktige klyngealgoritmen og parameterinnstillingene avhenger av de individuelle datasettene. Det er ikke en automatisk oppgave, men det er en iterativ oppdagelsesprosess. Derfor er det nødvendig å modifisere databehandling og parametermodellering til resultatet oppnår de ønskede egenskapene. K-betyr clustering og hierarkisk clustering er to vanlige clustering algoritmer i data mining.
Hva er klassifisering?
Klassifisering er en kategoriseringsprosess som bruker et treningssett med data for å gjenkjenne, differensiere og forstå objekter. Klassifisering er en overvåket læringsteknikk der et treningssett og korrekt definerte observasjoner er tilgjengelig.
Figur 02: Klassifisering
Algorithmen som implementerer klassifisering er klassifisereren, mens observasjonene er forekomstene. K-Nearest Neighbor-algoritmen og beslutningstre-algoritmene er de mest kjente klassifiseringsalgoritmene innen datautvinning.
Hva er forskjellen mellom gruppering og klassifisering?
Klynger er uovervåket læring mens klassifisering er en veiledet læringsteknikk. Den grupperer lignende forekomster på grunnlag av funksjoner, mens klassifisering tildeler forhåndsdefinerte tagger til forekomster på grunnlag av funksjoner. Klynger deler opp datasettet i delsett for å gruppere forekomstene med lignende funksjoner. Den bruker ikke merkede data eller et treningssett. På den annen side, kategoriser de nye dataene i henhold til observasjonene fra treningssettet. Treningssettet er merket.
Målet med klynging er å gruppere et sett med objekter for å finne ut om det er noen relasjon mellom dem, mens klassifisering tar sikte på å finne hvilken klasse et nytt objekt tilhører fra settet med forhåndsdefinerte klasser.
Summary – Clustering vs Classification
Clustering og klassifisering kan virke like fordi begge data mining-algoritmene deler datasettet inn i delsett, men de er to forskjellige læringsteknikker, i data mining for å få pålitelig informasjon fra en samling av rådata. Forskjellen mellom clustering og klassifisering er at clustering er en uovervåket læringsteknikk som grupperer lignende instanser på grunnlag av funksjoner, mens klassifisering er en overvåket læringsteknikk som tildeler forhåndsdefinerte tagger til instanser på grunnlag av funksjoner.
Bilde:
1.”Cluster-2″ av Cluster-2.gif: hellisp derivative work: (Public Domain) via Wikimedia Commons 2.”Magnetism” av John Aplessed – Eget arbeid. (Public Domain) via Wikimedia Commons