Kategoriske data vs. numeriske data
Data er fakta eller informasjon som samles inn for referanse eller analyse. Ofte samles disse dataene inn som et attributt til det aktuelle emnet. Dette attributtet kan variere fra én til en annen, og derfor kan denne varierende egenskapen betraktes som en variabel. Variablene kan anta ulike former for verdier, og disse er iboende i de innsamlede dataene.
Variabler kan enten være kvalitative eller kvantitative; dvs. hvis variabelen er kvantitativ, er svarene tall og størrelsen på den målte attributten kan angis med en viss grad av nøyaktighet. Den andre typen, de kvalitative variablene, måler de kvalitative egenskapene, og verdiene antatt av variablene kan ikke gis i form av størrelse eller størrelse. Selve variablene er kjent som kategoriske variabler, og dataene som samles inn ved hjelp av en kategorisk variabel er kategoriske data.
Mer om numeriske data
Numeriske data er i utgangspunktet kvantitative data hentet fra en variabel, og verdien har en følelse av størrelse/størrelse. De innhentede numeriske dataene er videre delt inn i ytterligere tre kategorier basert på teorien utviklet av Stanley Smith Stevens. Numeriske data kan være enten ordinal, intervall eller ratio. Datatypen bestemmes av målemetoden for verdiene, og typene er kjent som målenivåer.
Vekten til en person, avstanden mellom to punkter, temperatur og prisen på en aksje er eksempler på numeriske data.
I statistikk er flertallet av metodene avledet for analyse av numeriske data. Grunnleggende beskrivende statistikk og regresjon og andre inferensielle metoder brukes hovedsakelig for analyse av numeriske data.
Mer om kategoriske data
Kategoriske data er verdier for en kvalitativ variabel, ofte et tall, et ord eller et symbol. De får frem det faktum at variabelen i det vurderte tilfellet tilhører ett av de flere tilgjengelige valgene. Derfor tilhører de en av kategoriene; derav navnet kategorisk.
En persons politiske tilhørighet, en persons nasjonalitet, favorittfargen til en person og pasientens blodgruppe er kvalitative egenskaper. Noen ganger kan et tall oppnås som en kategorisk verdi, men tallet i seg selv representerer ikke størrelsen på den målte attributten. Postnummer er ett eksempel.
Alle kategoriske verdier tilhører også den nominelle datatypen, som er en annen type basert på målenivåene. Metoder som brukes for å analysere kategoriske data er forskjellige fra numeriske data, men det underliggende prinsippet kan være det samme.
Hva er forskjellen mellom kategoriske og numeriske data?
• Numeriske data er verdier innhentet for kvantitativ variabel, og har en følelse av størrelse knyttet til konteksten til variabelen (derfor er de alltid tall eller symboler som har en numerisk verdi). Kategoriske data er verdier innhentet for en kvalitativ variabel; kategoriske datatall gir ikke en følelse av størrelse.
• Numeriske data tilhører alltid enten ordinal-, forholds- eller intervalltype, mens kategoriske data tilhører nominell type.
• Metoder som brukes til å analysere kvantitative data er forskjellige fra metodene som brukes for kategoriske data, selv om prinsippene er de samme, har i det minste applikasjonen betydelige forskjeller.
• Numeriske data analyseres ved hjelp av statistiske metoder i beskrivende statistikk, regresjon, tidsserier og mye mer.
• For kategoriske data brukes vanligvis beskrivende metoder og grafiske metoder. Noen ikke-parametriske tester brukes også.