Regresjon vs korrelasjon
I statistikk er det viktig å bestemme forholdet mellom to tilfeldige variabler. Det gir muligheten til å forutsi en variabel i forhold til andre. Regresjonsanalyse og korrelasjon brukes i værmeldinger, finansmarkedsatferd, etablering av fysiske relasjoner ved eksperimenter og i mye mer virkelige scenarier.
Hva er regresjon?
Regresjon er en statistisk metode som brukes til å tegne sammenhengen mellom to variabler. Når data samles inn kan det ofte være variabler som er avhengige av andre. Den nøyaktige relasjonen mellom disse variablene kan bare etableres ved hjelp av regresjonsmetodene. Å bestemme dette forholdet hjelper til med å forstå og forutsi oppførselen til en variabel til den andre.
Den vanligste bruken av regresjonsanalysen er å estimere verdien av den avhengige variabelen for en gitt verdi eller verdiområde for de uavhengige variablene. Ved å bruke regresjon kan vi for eksempel etablere sammenhengen mellom vareprisen og forbruket, basert på data samlet inn fra et tilfeldig utvalg. Regresjonsanalyse produserer regresjonsfunksjonen til et datasett, som er en matematisk modell som passer best til tilgjengelige data. Dette kan lett representeres av et spredningsplott. Grafisk tilsvarer regresjon å finne den beste tilpasningskurven for gitt datasett. Funksjonen til kurven er regresjonsfunksjonen. Ved å bruke den matematiske modellen kan etterspørselen etter en vare forutsies for en gitt pris.
Derfor er regresjonsanalysen mye brukt i prediksjon og prognoser. Det brukes også til å etablere relasjoner i eksperimentelle data, innen fysikk, kjemi og mange naturvitenskapelige og ingeniørfaglige disipliner. Hvis forholdet eller regresjonsfunksjonen er en lineær funksjon, er prosessen kjent som en lineær regresjon. I spredningsplottet kan det representeres som en rett linje. Hvis funksjonen ikke er en lineær kombinasjon av parameterne, er regresjonen ikke-lineær.
Hva er korrelasjon?
Korrelasjon er et mål på styrken til forholdet mellom to variabler. Korrelasjonskoeffisienten kvantifiserer graden av endring i en variabel basert på endringen i den andre variabelen. I statistikk er korrelasjon knyttet til begrepet avhengighet, som er den statistiske sammenhengen mellom to variabler.
Pearsons korrelasjonskoeffisient eller bare korrelasjonskoeffisienten r er en verdi mellom -1 og 1 (-1≤r≤+1). Det er den mest brukte korrelasjonskoeffisienten og gyldig kun for et lineært forhold mellom variablene. Hvis r=0, eksisterer ingen sammenheng, og hvis r≥0, er sammenhengen direkte proporsjonal; dvs. verdien av en variabel øker med økningen av den andre. Hvis r≤0, er forholdet omvendt proporsjon alt; dvs. én variabel reduseres når den andre øker.
På grunn av linearitetsbetingelsen kan korrelasjonskoeffisient r også brukes til å etablere tilstedeværelsen av en lineær sammenheng mellom variablene.
Hva er forskjellen mellom regresjon og korrelasjon?
Regresjon gir formen til sammenhengen mellom to tilfeldige variabler, og korrelasjonen gir styrkegraden til sammenhengen.
Regresjonsanalyse produserer en regresjonsfunksjon, som hjelper til med å ekstrapolere og forutsi resultater, mens korrelasjon kanskje bare gir informasjon om hvilken retning den kan endres.
De mer nøyaktige lineære regresjonsmodellene er gitt av analysen, hvis korrelasjonskoeffisienten er høyere. (|r|≥0,8)