Mean vs Median vs Mode
Gjennomsnitt, median og modus er de primære målene for sentral tendens som brukes i beskrivende statistikk. De er helt forskjellige fra hverandre, og tilfeller der de brukes til å oppsummere dataene er også forskjellige.
Mean
Det aritmetiske gjennomsnittet er summen av dataverdiene delt på antall dataverdier, dvs.
[latex]\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{x_{1}+x_{2} +x_{3}+…+x_{n}}{n}[/latex]
Hvis dataene er fra et utvalgsrom, kalles det et utvalgsmiddelverdi ([latex]\bar{x} [/latex]), som er en beskrivende statistikk over utvalget. Selv om det er det mest brukte beskrivende målet for et utvalg, er det ikke en robust statistikk. Den er veldig følsom for uteliggere og svingninger.
Vurder for eksempel gjennomsnittsinntekten til innbyggerne i en bestemt by. Siden alle dataverdiene summeres og deretter deles, påvirker inntekten til en ekstremt velstående person gjennomsnittet betydelig. Derfor er ikke gjennomsnittsverdiene alltid en god representasjon av dataene.
I tilfellet med et vekslende signal, varierer strømmen som går gjennom et element periodisk fra positiv retning til negativ retning og omvendt. Hvis vi tar den gjennomsnittlige strømmen som går gjennom elementet i en enkelt periode, vil det gi en 0, noe som betyr at ingen strøm har gått gjennom elementet, noe som åpenbart ikke er sant. Derfor, også i dette tilfellet, er ikke aritmetisk gjennomsnitt et godt mål.
Det aritmetiske gjennomsnittet er en god indikator når dataene er jevnt fordelt. For en normalfordeling er gjennomsnittet lik modusen og medianen. Den har også de laveste residualene når man vurderer rotmiddelkvadratfeilen; derfor det beste beskrivende målet når det kreves å representere et datasett med et enkelt tall.
Median
Verdiene til det midterste datapunktet etter å ha ordnet alle dataverdiene i stigende rekkefølge er definert som medianen til datasettet. Medianen er 2. kvartil, 5. desil og 50. persentil.
• Hvis antallet observasjoner (datapunkter) er oddetall, er medianen observasjonen nøyaktig midt på den ordnede listen.
• Hvis antallet observasjoner (datapunkter) er partall, er medianen gjennomsnittet av de to midterste observasjonene i den ordnede listen.
Median deler observasjonen inn i to grupper; dvs. en gruppe (50 %) verdier høyere og en gruppe (50 %) verdier lavere enn medianen. Medianer brukes spesifikt i skjeve fordelinger og representerer data ganske bedre enn det aritmetiske gjennomsnittet.
Mode
Modus er det mest forekommende tallet i et sett med observasjoner. Modusen til et datasett beregnes ved å finne frekvensen til hvert element i settet.
• Hvis ingen verdi forekommer mer enn én gang, har datasettet ingen modus.
• Ellers er enhver verdi som forekommer med størst frekvens en modus for datasettet.
Mer enn 1 modus kan eksistere i et sett; Derfor er ikke modus en unik statistikk for et datasett. I en enhetlig fordeling er det én modus. Modusen for en diskret sannsynlighetsfordeling er punktet der sannsynlighetsmassefunksjonen når sitt høyeste punkt. Gjengivelse fra tolkningene ovenfor kan vi si at globale maksima er moduser.
Vurder bruken av alle tre tiltakene på følgende datasett.
DATA: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Mean=(1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25=8,12
Median=9 (13. element)
Mode=9 (frekvens på 9=5)
Hva er forskjellen mellom gjennomsnitt, median og modus?
• Aritmetisk gjennomsnitt er summen av verdiene (observasjonene) delt på antall observasjoner. Det er ikke en robust statistikk, og sterkt avhengig av normalfordelingen innenfor den betraktede fordelingen. En enkelt uteligger kan forårsake en betydelig forskyvning i gjennomsnittet og gir relativt misvisende verdier. Konseptet kan utvides til geometrisk gjennomsnitt, harmonisk gjennomsnitt, vektet gjennomsnitt og så videre.
• Median er de midterste verdiene i settet med observasjoner, og det er relativt mindre påvirket av uteliggere. Det kan gi et godt estimat som oppsummeringsstatistikk i svært skjeve tilfeller.
• Modus er de vanligste observasjonsverdiene i datasettet. Hvis fordelingen er positiv skjev, ligger modusen til venstre til medianen og, hvis negativ skjev, ligger modusen rett til medianen.
• Hvis positivt skjev, er gjennomsnittet rett til medianen; hvis negativt skjev gjennomsnitt er til venstre for medianen.
• I normalfordelingen er alle tre, gjennomsnitt, modus og median like.