Data Mining vs OLAP
Både datautvinning og OLAP er to av de vanlige Business Intelligence-teknologiene (BI). Business intelligence refererer til datamaskinbaserte metoder for å identifisere og trekke ut nyttig informasjon fra forretningsdata. Data mining er feltet innen informatikk som omhandler å trekke ut interessante mønstre fra store sett med data. Den kombinerer mange metoder fra kunstig intelligens, statistikk og databasehåndtering. OLAP (online analytical processing) som navnet antyder er en samling av måter å søke i flerdimensjonale databaser på.
Data mining er også kjent som Knowledge Discovery in data (KDD). Som nevnt ovenfor er det et felt innen informatikk, som omhandler utvinning av tidligere ukjent og interessant informasjon fra rådata. På grunn av den eksponentielle veksten av data, spesielt innen områder som forretninger, har datautvinning blitt et svært viktig verktøy for å konvertere denne store mengde data til forretningsintelligens, ettersom manuell utvinning av mønstre har blitt tilsynelatende umulig de siste tiårene. For eksempel er det i dag blitt brukt til ulike applikasjoner som sosiale nettverksanalyser, svindeloppdagelse og markedsføring. Data mining omhandler vanligvis følgende fire oppgaver: klynging, klassifisering, regresjon og assosiasjon. Clustering er å identifisere lignende grupper fra ustrukturerte data. Klassifisering er læringsregler som kan brukes på nye data og vil typisk inkludere følgende trinn: forbehandling av data, design av modellering, læring/funksjonsvalg og evaluering/validering. Regresjon er å finne funksjoner med minimal feil for å modellere data. Og assosiasjon ser etter sammenhenger mellom variabler. Data mining brukes vanligvis til å svare på spørsmål som hva er hovedproduktene som kan bidra til å oppnå høy fortjeneste neste år i Wal-Mart.
OLAP er en klasse av systemer som gir svar på flerdimensjonale spørsmål. Vanligvis brukes OLAP til markedsføring, budsjettering, prognoser og lignende applikasjoner. Det sier seg selv at databasene som brukes for OLAP er konfigurert for komplekse og ad-hoc-spørringer med tanke på rask ytelse. Vanligvis brukes en matrise for å vise utdataene til en OLAP. Radene og kolonnene dannes av dimensjonene til spørringen. De bruker ofte metoder for aggregering på flere tabeller for å få sammendrag. For eksempel kan den brukes til å finne ut om årets salg i Wal-Mart sammenlignet med i fjor? Hva er spådommen om salget i neste kvartal? Hva kan sies om trenden ved å se på prosentvis endring?
Selv om det er åpenbart at Data mining og OLAP er like fordi de opererer på data for å få intelligens, kommer hovedforskjellen fra hvordan de opererer på data. OLAP-verktøy gir flerdimensjonal dataanalyse og de gir sammendrag av dataene, men i motsetning til dette fokuserer datautvinning på forhold, mønstre og påvirkninger i datasettet. Det er en OLAP-avtale med aggregering, som koker ned til drift av data via "addition", men data mining tilsvarer "divisjon". En annen bemerkelsesverdig forskjell er at mens datautvinningsverktøy modellerer data og returnerer handlingsdyktige regler, vil OLAP utføre sammenlignings- og kontrastteknikker langs forretningsdimensjonen i sanntid.