Standardavvik vs gjennomsnitt
I beskrivende og inferensiell statistikk brukes flere indekser for å beskrive et datasett som svarer til dets sentrale tendens, spredning og skjevhet. I statistisk slutning er disse ofte kjent som estimatorer siden de estimerer populasjonsparameterverdiene.
Sentral tendens refererer til og lokaliserer sentrum for fordelingen av verdier. Gjennomsnitt, modus og median er de mest brukte indeksene for å beskrive den sentrale tendensen til et datasett. Spredning er mengden spredning av data fra sentrum av distribusjonen. Rekkevidde og standardavvik er de mest brukte målene for spredning. Pearsons skjevhetskoeffisienter brukes til å beskrive skjevheten til en fordeling av data. Her refererer skjevhet til om datasettet er symmetrisk om senteret eller ikke, og hvis ikke hvor skjevt det er.
Hva betyr det?
Mean er den mest brukte indeksen for sentral tendens. Gitt et datasett beregnes gjennomsnittet ved å ta summen av alle dataverdiene og deretter dele det med antall data. For eksempel er vekten til 10 personer (i kilo) målt til å være 70, 62, 65, 72, 80, 70, 63, 72, 77 og 79. Da kan gjennomsnittsvekten til de ti personene (i kilo) være beregnet som følger. Summen av vektene er 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Gjennomsnitt=(sum) / (antall data)=710 / 10=71 (i kilogram).
Som i dette spesifikke eksemplet, kan gjennomsnittsverdien til et datasett ikke være et datapunkt i settet, men vil være unikt for et gitt datasett. Gjennomsnitt vil ha de samme enhetene som de opprinnelige dataene. Derfor kan den merkes på samme akse som dataene og kan brukes i sammenligninger. Det er heller ingen tegnbegrensning for gjennomsnittet av et datasett. Den kan være negativ, null eller positiv, ettersom summen av datasettet kan være negativ, null eller positiv.
Hva er standardavvik?
Standardavvik er den mest brukte spredningsindeksen. For å beregne standardavviket, beregnes først avvikene til dataverdiene fra gjennomsnittet. Rotkvadratgjennomsnittet av avvik kalles standardavviket.
I forrige eksempel er de respektive avvikene fra gjennomsnittet (70 – 71)=-1, (62-71)=-9, (65-71)=-6, (72-71)=1, (80-71)=9, (70-71)=-1, (63-71)=-8, (72-71)=1, (77-71)=6 og (79-71)=8. Summen av kvadrater av avvik er (-1)2+ (-9)2+ (-6)2+ 1 2+92+ (-1)2+ (-8)2 + 12+ 62 + 82=366. Standardavviket er √(366/10)=6,05 (i kilo). Fra dette kan det konkluderes med at majoriteten av dataene er i intervallet 71±6.05, forutsatt at datasettet ikke er veldig skjevt, og det er det i dette spesielle eksempelet.
Siden standardavviket har de samme enhetene som de opprinnelige dataene, gir det oss et mål på hvor mye dataene avviker fra sentrum; større standardavvik større spredning. Standardavviket vil også være en ikke-negativ verdi uavhengig av typen data i datasettet.
Hva er forskjellen mellom standardavvik og gjennomsnitt?
• Standardavvik er et mål på spredning fra sentrum, mens gjennomsnitt måler plasseringen til midten av et datasett.
• Standardavvik er alltid en ikke-negativ verdi, men gjennomsnittet kan ha en hvilken som helst reell verdi.