Hierarkisk kontra partisjonell gruppering
Clustering er en maskinlæringsteknikk for å analysere data og dele inn i grupper med lignende data. Disse gruppene eller settene med lignende data er kjent som klynger. Klyngeanalyse ser på klyngealgoritmer som kan identifisere klynger automatisk. Hierarkisk og partisjonell er to slike klasser av klyngealgoritmer. Hierarkiske klyngealgoritmer deler opp dataene i et hierarki av klynger. Parisjonsalgoritmer deler opp datasettet i gjensidig usammenhengende partisjoner.
Hva er hierarkisk gruppering?
Hierarkiske klyngealgoritmer gjentar syklusen med enten å slå sammen mindre klynger til større eller dele større klynger til mindre. Uansett produserer det et hierarki av klynger k alt et dendogram. Agglomerativ klyngestrategi bruker nedenfra-og-opp-tilnærmingen for å slå sammen klynger til større, mens splittende klyngestrategi bruker ovenfra-og-ned-tilnærmingen med å dele opp i mindre. Vanligvis brukes den grådige tilnærmingen for å avgjøre hvilke større/mindre klynger som brukes til å slå sammen/dele. Euklidisk avstand, Manhattan-avstand og cosinuslikhet er noen av de mest brukte beregningene for likhet for numeriske data. For ikke-numeriske data brukes beregninger som Hamming-avstanden. Det er viktig å merke seg at de faktiske observasjonene (forekomstene) ikke er nødvendige for hierarkisk clustering, fordi bare matrisen av avstander er tilstrekkelig. Dendogram er en visuell representasjon av klyngene, som viser hierarkiet veldig tydelig. Brukeren kan oppnå forskjellige grupperinger avhengig av nivået som dendogrammet kuttes på.
Hva er partisjonell klynging?
Partisjonelle klyngealgoritmer genererer forskjellige partisjoner og evaluerer dem deretter etter et eller annet kriterium. De blir også referert til som ikke-hierarkiske ettersom hver forekomst er plassert i nøyaktig en av k gjensidig utelukkende klynger. Fordi bare ett sett med klynger er utdata fra en typisk partisjonsklyngealgoritme, må brukeren legge inn ønsket antall klynger (vanligvis k alt k). En av de mest brukte partisjonelle klyngealgoritmene er k-betyr klyngealgoritmen. Brukeren må oppgi antall klynger (k) før start, og algoritmen starter først sentrene (eller sentroidene) til k-partisjonene. I et nøtteskall, k-betyr klyngealgoritmen tildeler deretter medlemmer basert på gjeldende sentre og re-estimerer sentre basert på gjeldende medlemmer. Disse to trinnene gjentas inntil en viss intra-klynge likhetsobjektivfunksjon og inter-cluster-ulikhetsmålfunksjon er optimalisert. Derfor er fornuftig initialisering av sentre en svært viktig faktor for å oppnå kvalitetsresultater fra partisjonelle klyngealgoritmer.
Hva er forskjellen mellom hierarkisk og partisjonell gruppering?
Hierarkisk og partisjonell klynging har viktige forskjeller i kjøretid, forutsetninger, inngangsparametere og resulterende klynger. Vanligvis er partisjonell klynging raskere enn hierarkisk klynging. Hierarkisk clustering krever bare et likhetsmål, mens partisjonell clustering krever sterkere antakelser som antall klynger og de første sentrene. Hierarkisk klynging krever ingen inndataparametere, mens partisjonelle klyngealgoritmer krever antall klynger for å begynne å kjøre. Hierarkisk clustering gir en mye mer meningsfull og subjektiv inndeling av klynger, men partisjonell clustering resulterer i nøyaktig k klynger. Hierarkiske klyngealgoritmer er mer egnet for kategoriske data så lenge et likhetsmål kan defineres deretter.