Standardafvigelse

Standardafvigelsen eller spredningen bruges inden for sandsynlighedsregning og statistik og er et udtryk for, hvor meget en stokastisk variabel fordeler sig omkring sin middelværdi. Standardafvigelse er lig med kvadratroden af varians og er dermed mål for det samme. Derfor har standardafvigelse i modsætning til varians samme enhed som den stokastiske variabel og kan derfor være lettere at fortolke. Ligesom varians er standardafvigelse afhængig af skala, hvilket for eksempel betyder, at de samme størrelser i centimeter vil have 100 gange så stor standardafvigelse, end hvis de bliver målt i meter.

Definition

Standardafvigelsen for en stokastisk variabel $X$ benævnes $\sigma$ (eller eventuelt $\sigma _{X}$ hvis det skal gøres klart, hvilken stokastiske variabel der er tale om) og er defineret som:

\sigma ={\sqrt {{\mbox{E}}[(X-\mu )^{2}}}]

Her angiver $\mu =E\left(X\right)$ middelværdien for $X$ (det sande gennemsnit).

Standardafvigelsen er altså kvadratroden af middelværdien af kvadraterne på den enkelte observations afvigelse fra middelværdien. Det betyder, at én stor afvigelse har større indflydelse end mange små. Således vil 1 observation med afvigelse på 2 bidrage med en størrelsesorden af 4, hvor 2 observationer med en afvigelse på 1 samlet kun vil bidrage med en størrelsesorden af 2. Dette betyder igen, at blot en enkelt fejlobservation kan påvirke den estimerede standardafvigelsen meget – hvor det vil påvirke gennemsnittet i mindre grad.

Estimation af standardafvigelse

Hvis middelværdien af en stokastisk variabel vides at være $\mu$ kan den teoretiske standardafvigelse estimeres som kvadratroden af den empiriske varians:

{\hat {\sigma }}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}}}

,

hvor x_i for i = 1..n er observationerne. For en stikprøve med stokastisk variabel med ukendt middelværdi estimeres den teoretiske standardafvigelse normalt som:

s={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}

,

hvor ${\overline {x}}$ er gennemsnittet af observationerne. Selvom $s^{2}$ er et centralt estimat for variansen, er s ikke et centralt estimat for standardafvigelsen^[1]. Dette betyder, at der er en systematisk negativ afvigelse mellem den teoretiske standardafvigelse og stikprøvens standardafvigelse, hvis denne formel bruges. Forskellen bliver dog lille, når der er mange observationer og i praksis ses bort fra, at det ikke er et centralt estimat.

For et lille antal observationer (5 eller mindre), kan følgende formel bruges for at opnå et centralt estimat.

{\hat {\sigma }}={\frac {{\mbox{max}}(X)-{\mbox{min}}(X)}{d}}

,

hvor ${\mbox{max}}(X)-{\mbox{min}}(X)=R$ angiver variationsbredden for stikprøven. d er en konstant, som afhænger af hvor mange observationer, man har i stikprøven. Nedenstående tabel viser værdier af d for N = 2 ... 10 observationer.

n	2	3	4	5	6	7	8	9	10
d	1,128	1,693	2,059	2,326	2,534	2,704	2,847	2,970	3,078

Man skal være opmærksom på, at for større datasæt vil s være den bedste af de to estimater. Den alternative formel bruges mest indenfor industriel kvalitetskontrol i tilfælde, hvor det ikke er muligt at have en stor stikprøve.

Estimation af standardafvigelsen kan lettes ved brug af formlen

{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\bar {x}}^{2}

,

hvilket betyder, at man kan summere data op løbende uden at beholde de enkelte observationer.

Tolkning af standardafvigelse for normalfordelte variable

For en normalfordelt variabel er det let at tolke standardafvigelsen: 68% af datapunkterne vil være maksimalt én standardafvigelse væk fra gennemsnittet, 95% maksimalt to standardafvigelser og 99,7 maksimalt tre standardafvigelser.

Tabellen viser, hvor mange data der vil ligge indenfor et interval af middelværdien plus/minus de givne spredninger.

σ	68,26894921371%
2σ	95,44997361036%
3σ	99,73002039367%
4σ	99,99366575163%
5σ	99,99994266969%
6σ	99,99999980268%
7σ	99,99999999974%

Referencer

^ Probability and Statistics for Engineers (2000) af Miller & Freund (Prentice Hall), ISBN 0-13-017974-4, 6. udgave, side 275

[1] Probability and Statistics for Engineers (2000) af Miller & Freund (Prentice Hall), ISBN 0-13-017974-4, 6. udgave, side 275

[1]