KDD vs Data mining
KDD (Knowledge Discovery in Databases) er et felt innen datavitenskap, som inkluderer verktøy og teorier for å hjelpe mennesker med å trekke ut nyttig og tidligere ukjent informasjon (dvs. kunnskap) fra store samlinger av digitalisert data. KDD består av flere trinn, og Data Mining er ett av dem. Data Mining er bruk av en spesifikk algoritme for å trekke ut mønstre fra data. Ikke desto mindre brukes KDD og Data Mining om hverandre.
Hva er KDD?
Som nevnt ovenfor er KDD et felt innen informatikk, som omhandler utvinning av tidligere ukjent og interessant informasjon fra rådata. KDD er hele prosessen med å prøve å forstå data ved å utvikle passende metoder eller teknikker. Denne prosessen omhandler kartlegging av data på lavt nivå til andre former som er mer kompakte, abstrakte og nyttige. Dette oppnås ved å lage korte rapporter, modellere prosessen med å generere data og utvikle prediktive modeller som kan forutsi fremtidige tilfeller. På grunn av den eksponentielle veksten av data, spesielt innen områder som forretninger, har KDD blitt en svært viktig prosess for å konvertere denne store mengde data til business intelligence, ettersom manuell utvinning av mønstre har blitt tilsynelatende umulig de siste tiårene. For eksempel er det i dag brukt til ulike applikasjoner som sosiale nettverksanalyser, svindeloppdagelse, vitenskap, investering, produksjon, telekommunikasjon, datarensing, sport, informasjonsinnhenting og i stor grad for markedsføring. KDD brukes vanligvis til å svare på spørsmål som hva er hovedproduktene som kan bidra til å oppnå høy fortjeneste neste år i Wal-Mart?. Denne prosessen har flere trinn. Det starter med å utvikle en forståelse av applikasjonsdomenet og målet og deretter lage et måldatasett. Deretter følger rengjøring, forbehandling, reduksjon og projeksjon av data. Neste trinn er å bruke Data Mining (forklart nedenfor) for å identifisere mønster. Til slutt konsolideres oppdaget kunnskap ved å visualisere og/eller tolke.
Hva er Data Mining?
Som nevnt ovenfor, er Data Mining bare et trinn i den generelle KDD-prosessen. Det er to store Data Mining-mål som definert av målet for applikasjonen, og de er nemlig verifisering eller oppdagelse. Verifikasjon er å verifisere brukerens hypotese om data, mens oppdagelse automatisk finner interessante mønstre. Det er fire hovedoppgaver for datautvinning: klynging, klassifisering, regresjon og assosiasjon (oppsummering). Clustering er å identifisere lignende grupper fra ustrukturerte data. Klassifisering er læringsregler som kan brukes på nye data. Regresjon er å finne funksjoner med minimal feil for å modellere data. Og assosiasjon ser etter sammenhenger mellom variabler. Deretter må den spesifikke datautvinningsalgoritmen velges. Avhengig av målet kan forskjellige algoritmer som lineær regresjon, logistisk regresjon, beslutningstrær og Naive Bayes velges. Deretter søkes det etter mønstre av interesse i en eller flere representasjonsformer. Til slutt blir modellene evaluert enten ved å bruke prediktiv nøyaktighet eller forståelighet.
Hva er forskjellen mellom KDD og Data mining?
Selv om de to begrepene KDD og Data Mining er mye brukt om hverandre, refererer de til to relaterte, men litt forskjellige konsepter. KDD er den overordnede prosessen med å trekke ut kunnskap fra data, mens Data Mining er et trinn i KDD-prosessen, som omhandler identifisering av mønstre i data. Med andre ord er Data Mining bare anvendelsen av en spesifikk algoritme basert på det overordnede målet for KDD-prosessen.