Befolkning vs eksempel på standardavvik
I statistikk brukes flere indekser for å beskrive et datasett som svarer til dets sentrale tendens, spredning og skjevhet. Standardavvik er et av de vanligste målene for spredning av data fra midten av datasettet.
På grunn av praktiske vanskeligheter vil det ikke være mulig å bruke data fra hele befolkningen når en hypotese testes. Derfor bruker vi dataverdier fra utvalg for å trekke slutninger om populasjonen. I en slik situasjon kalles disse estimatorer siden de estimerer populasjonsparameterverdiene.
Det er ekstremt viktig å bruke objektive estimatorer i slutninger. En estimator sies å være objektiv hvis den forventede verdien til den estimatoren er lik populasjonsparameteren. For eksempel bruker vi utvalgets gjennomsnitt som en objektiv estimator for populasjonsgjennomsnittet. (Matematisk kan det vises at forventet verdi av utvalgsgjennomsnittet er lik populasjonsgjennomsnittet). Når det gjelder estimering av populasjonsstandardavviket, er utvalgets standardavvik også en objektiv estimator.
Hva er populasjonsstandardavvik?
Når data fra hele populasjonen kan tas i betraktning (for eksempel ved folketelling) er det mulig å beregne populasjonsstandardavviket. For å beregne standardavviket til populasjonen, beregnes først avvikene til dataverdier fra populasjonsgjennomsnittet. Rotmiddelkvadraten (kvadratisk gjennomsnitt) av avvik kalles standardavviket for populasjonen.
I en klasse på 10 elever kan data om elevene enkelt samles inn. Hvis en hypotese testes på denne populasjonen av studenter, er det ikke nødvendig å bruke utvalgsverdier. For eksempel er vekten til de 10 elevene (i kilo) målt til å være 70, 62, 65, 72, 80, 70, 63, 72, 77 og 79. Da er gjennomsnittsvekten til de ti personene (i kilo). (70+62+65+72+80+70+63+72+77+79)/10, som er 71 (i kilo). Dette er gjennomsnittet for befolkningen.
Nå for å beregne populasjonsstandardavviket, beregner vi avvik fra gjennomsnittet. De respektive avvikene fra gjennomsnittet er (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 og (79 – 71)=8. Summen av kvadrater av avvik er (-1)2 + (-9)2 + (-6)2 + 1 2 + 92 + (-1)2 + (-8)2+ 12 + 62 + 82 =366. Populasjonens standardavvik er √(366/10)=6,05 (i kilo). 71 er den nøyaktige gjennomsnittsvekten til elevene i klassen og 6.05 er det nøyaktige standardavviket for vekt fra 71.
Hva er prøvestandardavvik?
Når data fra et utvalg (av størrelse n) brukes til å estimere parametere for populasjonen, beregnes utvalgets standardavvik. Først beregnes avvikene til dataverdiene fra prøvegjennomsnittet. Siden prøvegjennomsnittet brukes i stedet for populasjonsgjennomsnittet (som er ukjent), er det ikke hensiktsmessig å ta det kvadratiske gjennomsnittet. For å kompensere for bruken av prøvegjennomsnitt divideres summen av kvadrater av avvik på (n-1) i stedet for n. Utvalgets standardavvik er kvadratroten av dette. I matematiske symboler er S=√{∑(xi-ẍ)2 / (n-1)}, der S er prøvestandardavviket, ẍ er prøvegjennomsnittet og xi er datapunktene.
Anta nå at i forrige eksempel er populasjonen elevene på hele skolen. Da vil klassen bare være et eksempel. Hvis denne prøven brukes i estimeringen, vil prøvens standardavvik være √(366/9)=6.38 (i kilo) siden 366 ble delt med 9 i stedet for 10 (prøvestørrelsen). Faktum å observere er at dette ikke er garantert å være den eksakte populasjonsstandardavviksverdien. Det er bare et estimat for det.
Hva er forskjellen mellom populasjonsstandardavvik og utvalgsstandardavvik?
• Populasjonsstandardavvik er den eksakte parameterverdien som brukes til å måle spredningen fra sentrum, mens prøvestandardavviket er en objektiv estimator for det.
• Populasjonsstandardavvik beregnes når alle data for hvert individ i populasjonen er kjent. Ellers beregnes prøvestandardavviket.
• Populasjonsstandardavvik er gitt ved σ=√{ ∑(xi-µ)2/ n} der µ er populasjonsgjennomsnittet og n er populasjonsstørrelsen, men prøvestandardavviket er gitt av S=√{ ∑(xi-ẍ)2 / (n-1)} der ẍ er prøvegjennomsnittet og n er prøvestørrelsen.