Lineær regresjon

Innenfor matematikken betyr lineær regresjon at man ønsker å finne den lineære funksjonen hvis kurve/graf passer best med innsamlede data, som inneholder en eller annen statistisk feilkilde også kalt residual. Lineær regresjon brukes ofte for å lage prognoser.

Gitte opplysninger og antagelser

Man har gitt en mengde datapunkter på formen $(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})$ hvor minst 2 x_i er forskjellige og man ønsker å finne en funksjon $y=f(x)$ som på best mulig måte passer med de gitte datapunktene. For denne oppgaven formulerer man Gauss' minste kvadraters metode som følger:

Minste kvadraters prinsipp. [...] linjen skal trekkes gjennom de gitte punktene slik at summen av kvadratene av avstandene fra disse punktene til linjen minimeres, hvor avstanden måles i vertikalretningen (y-retningen).^[1]

Funksjonen man søker antas å være lineær, hvilket betyr at den uttrykkes matematisk som

f(x)=\sum _{i=0}^{n}a_{i}x^{i}=a_{0}+a_{1}x+\dots +a_{n}x^{n}

og det er koeffisientene a_i som man ønsker å bestemme. Hvis man ønsker en rett linje betyr at alle koeffisientene unntatt a₀ og a₁ er 0.

Minste kvadraters metode for rett linje

For n gitte datapunkter ønsker man å finne en linje på formen

$y=a_{0}+a_{1}x$

Som angitt i minste kvadraters prinsipp ovenfor ønsker man å beregne

$|y_{j}-(a_{0}+a_{1}x_{j})|$

for alle j, og deretter bestemnme a₀ og a₁ slik at man minimaliserer summen av kvadratene av disse, dvs

$\min _{a_{0},a_{1}}q=\left(\sum _{j=1}^{n}(y_{j}-a_{0}-a_{1}x_{j})^{2}\right)$

Fra elementær analyse er det kjent at de nødvendige kravene for at dette er et bunnpunkt er

${\frac {\partial q}{\partial a_{0}}}=0\quad og\quad {\frac {\partial q}{\partial a_{1}}}=0$

Ved å derivere uttrykket for q med hensyn på a₀ og a₁ (se detaljer i underavsnittet) kommer man til slutt frem til at regresjonslinjen har formelen

$y-{\bar {y}}=k_{1}(x-{\bar {x}})$

hvor

${\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i},\quad {\bar {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i},\quad og\quad k_{1}={\frac {s_{xy}}{s_{x^{2}}}}$

Teller og nevner i regresjonskoeffisienten til linjen kalles utvalgets kovarians

$s_{xy}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})={\frac {1}{n-1}}\left[\sum _{i=1}^{n}x_{i}y_{i}-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)\left(\sum _{j=1}^{n}y_{j}\right)\right]$

og variansen til x verdiene (merk at dette ikke er helt riktig da x er å betrakte som en ordinær og ikke tilfeldig variabel)

$s_{x}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n-1}}\left[\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)^{2}\right]$

Utledning av formelen for regresjonslinjen

Ved å utføre de to derivasjonene får man

${\frac {\partial q}{\partial a_{0}}}=-2\sum _{i=1}^{n}(y_{i}-a_{0}-a_{1}x_{i})\quad og\quad {\frac {\partial q}{\partial a_{1}}}=-2\sum _{i=1}^{n}x_{i}(y_{i}-a_{0}-a_{1}x_{i})$

Ved å dividere på 2 skrive ut hver sum for seg og stokke om på uttrykkene får man de såkalte normalligningene

${\begin{array}{c}a_{0}n+a_{1}\sum x_{i}=\sum y_{i}\\a_{0}\sum x_{i}+a_{1}\sum x_{i}^{2}=\sum x_{i}y_{i}\end{array}}$

Dette systemet av to ukjente har en determinant

$\left|{\begin{array}{cc}n&\sum x_{i}\\\sum x_{i}&\sum x_{i}^{2}\end{array}}\right|=n\sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}=n(n-1)s_{x}^{2}=n\sum (x_{i}-{\bar {x}})^{2}$

som er ulik 0 på grunn av antakelsen om minst to forskjellige x_i og garanterer derfor at løsningen eksisterer og er unik. Ved å dividere den første ligningen med n og omskriving ved hjelp av gjennomsnittsformlene får man $a_{0}={\bar {y}}-a_{1}{\bar {x}}$ som sammen med $y=a_{0}+a_{1}x$ gir den ønskede regresjonskurven

$y-{\bar {y}}=a_{1}(x-{\bar {x}})$

Eliminasjonsmetoden gir uttrykket

$a_{1}=k_{1}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{j}}{n(n-1)s_{x}^{2}}}$

Hvor godt passer linjen til punktene

Når man har funnet den regresjonslinjen som passer best til punktene, bør man beregne hvor godt den passer. Det enkleste målet som er vanlig å benytte er korrelasjonskoeffisienten R². En R²-verdi nær 1 (nær 100 %) angir at regresjonslinjen passer veldig bra, mens en verdi nær null angir at linjen ikke passer.^[2] Pearsons korrelasjonskoeffisient er et annet mye brukt mål.^[3]

Referanser

^ E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999
^ A. H. Studenmund (1997). Using Econometrics: A Practical Guide. Addison-Wesley. s. 50-52, 414. ISBN 0-673-52486-8.
^ Fred Wenstøp (1994). Statistikk og dataanalyse. Tano. s. 424. ISBN 82-518-2938-0.

[1] E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999

[UsingEconometrics-2] A. H. Studenmund (1997). Using Econometrics: A Practical Guide. Addison-Wesley. s. 50-52, 414. ISBN 0-673-52486-8.

[3] Fred Wenstøp (1994). Statistikk og dataanalyse. Tano. s. 424. ISBN 82-518-2938-0.

[1]

[2]

[3]