En probablo-teorio kaj en statistiko, la korelacio, aŭ korelativeco, inter du aŭ pluraj hazardaj variabloj aŭ statistikaj samploj permesas taksi la gradon de ligiteco inter tiuj variabloj aŭ samploj.

La mezuro de tia korelacio estas akirita per kalkulo de la koeficiento de lineara koeficiento. Tiu koeficiento egalas al kvociento inter la kunvarianco de la variabloj kaj la nenula produto de iliaj variancaj devioj. Korelaciokoeficiento[1] estas nombro (sen mezurunuo), kiu valoras inter -1 kaj +1.

Rekto de regreso

redakti

Kalkuli koeficienton de korelacio inter du nombraj variabloj estas serĉi resumi la ligon, kiu ekzistas inter la variabloj per rekto. Oni ial nomas ĝin lineara alĝustigo.

Kiel kalkuli la parametrojn de tia rekto? per minimumigo de la eraro, kiun ni kulpas fare de la reprezento de la ligo inter niaj variabloj per tia rekto. La formala kriterio ofte uzata, sed ne la ununura, estas minimumigi la sumon de ĉiuj kvadratoj de enhavantaj eraroj. Oni ial nomas ĝin alĝustigo laŭ la metodo de kvadrataj minimumoj. La rekto rezultigata de tia alĝustigo nomiĝas rekto de regreso.

Lineara korelaciokoeficiento de Pearson

redakti

Formulo

redakti

Kiam oni studas du hazardajn variabojn X kaj Y pri statistika loĝantaro, komune uzata metodo estas per la korelaciokoeficiento de Pearson, kies nomo devenas de la metodo kreita de la brita matematikisto Karl Pearson. Tiu koeficiento simboliĝas per  , kaj kalkuliĝas per la sekvanta matematika esprimo:

 

kie

  •   estas la kunvarianco de la paro de variabloj (X,Y) ,
  •   estas la varianca devio de la variablo X (aŭ nefinia, aŭ kun N elementoj) ,
  •   estas la varianca devio de la variablo Y (aŭ nefinia, aŭ kun N elementoj) .

Se oni konsideras parton de la matematika loĝantaro, kun finia specimeno de la du vicoj   kaj  , kie n < N, la korelaciokoeficiento estas:

 

kie

  •   estas la specimena kunvarianco de la paro de variabloj (X,Y) ,
  •   estas la specimena varianca devio de la variablo X (kun n elementoj) ,
  •   estas la specimena varianca devio de la variablo Y (kun n elementoj) .

Oni povas demonstri ke la korelaciokoeficientoj ĉiam valoras inter -1 kaj +1. Ankaŭ, oni povas konsideri ke la du esprimoj egalas, kiam n estas sufiĉe granda:

 

Empiria korelaciokoeficiento

redakti

Se oni anstataŭas la atenditaj valoroj   kaj  , respektive de X kaj Y per iliaj empiriaj meznombroj   kaj  , tiam la korelaciokoeficiento estas:

 

Se nun oni konsideras ke la n elementoj de ambaŭ vocoj estas subloĝantaro, tiam oni difinas:

 

Ĉi tie la du koeficientoj do egalas:

 

Korelacio kaj lineareco

redakti

La korelaciokoeficiento de Pearson intervenas en la angula koeficiento[2] de la proksimuma rekto de regreso, tiel:

 

kaj

 

Oni povas demonstri ke tiuj parametroj de rektoj kongruas kun la metodo de kvadrataj minimumoj.

Interpreto

redakti

Tiuj ekvacioj supozas ke kresko ( ) aŭ malkresko ( ) de la eraroj de la variablo X (resp. Y) varias proporcie al la eraroj de la variablo Y (resp. X).

Kiam la variabloj estas nedependaj, tial   (la angula koeficiento de la rekto nulas); sed nereciproke, ĉar eblas ke  , eĉ kiam variabloj estas interdependaj.

Ju pli la korelaciokoeficiento estas for de 0, des pli la variabloj estas korelativaj. Kiam la korelaciokoeficiento proksimumas +1 aŭ -1, oni diras ke la variabloj estas forte korelativaj.

Kvarteto de Ascombe

redakti
 
Kvar aroj de datenoj kun sama korelacio egala al 0.816

La korelaciokoeficiento de Pearson indikas la intensecon de la lineara rilato inter du variabloj, sed ĝia valoro ĝenerale ne tute karakterizas iliajn rilatojn. Aparte kiam la rilato inter X kaj Y estas forte nelineara, la korelaciokoeficiento ne klare determinas la formon de la rilato.

La bildo dekstre montras la kvarteton de Ascombe, aro de kvar malsamaj paroj de hazardaj variabloj kreita de brita statistikisto Francis Ascombe[3]. La kvar Y variabloj enhavas samajn meznombron  , variancon  , korelacion   kaj rekton de regreso:  

Tamen oni povas vidi sur la grafikaĵoj, ke la distribuoj de la variabloj estas tre malsamaj. La unua (supre kaj maldekstre) ŝajnas esti ordinara distribuo, kaj korespondas al la atentitaĵo, kiam oni konsideras du korelativajn variablojn, kiuj sekvas la hipotezon de normaleco. La dua (supre kaj dekstre) estas ne ordinara distribuo, malgraŭ evidenta rilato inter la du variabloj vidiĝas, kiu estas nelineara. Pri tiu kazo, la korelaciokoeficiento de Pearson ne indikas ke ekzistas ekzakta funkcia rilato. La tria (malsupre kaj maldekstre) vidigas, ke la lineara rilato estas perfekta, krom pri ununura fora valoro, kiu malaltigas la korelaciokoeficienton de 1 al 0,816. Finfine, la kvara (malsupre kaj dekstre) montras alian ekzemplon, kie ununura aliloka valoro sufiĉas por implici grandan korelaciokoeficienton, malgraŭ ke la rilato inter la du variabloj estas tute nelineara.

Ĉi tiuj ekzemploj indikas ke la korelaciokoeficiento, kiel statistika resumo, ne permesas anstataŭigi vidan ekzamenon de la datenoj.

Matrico de korelacio

redakti

La matrico de korelacio de n hazardaj variabloj X1, ..., Xn estas la n  ×  n matrico, kies i,j elemento estas kor(XiXj). Se la korelacio estas taksita per linearaj korelaciokoeficientoj, la matrico de korelacio estas la sama ol la matrico de varianco-kunvarianco de la normigitaj hazardaj variabloj: Xi / σ(Xi) for i = 1, ..., n. Tio validas pri ambaŭ matrico de korelacioj de loĝantaro (tiel "σ" estas la loĝantara norma diferenco), kaj la matrico de specimenaj korelacioj (tiel "σ" estas la specimena norma diferenco). Konsekvence, ĉiu estas nepre pozitive duondifinita matrico.

La matrico de korelacio estas ankaŭ simetria, ĉar la korelacio inter Xi kaj Xj estas la sama ol la korelacio inter Xj kaj  Xi.

Vidu ankaŭ

redakti

Referencoj

redakti
  1.    korelacio en ReVo
  2.    Inklino en ReVo
  3. Anscombe (1973). Grafikaĵoj pri statistika analizo. The American Statistician 27.(angle)

Eksteraj ligiloj

redakti