Analiza korelacji

Statystyczne i graficzne podstawy geowizualizacji

Anna Dmowska, dmowska@amu.edu.pl

Analiza korelacji

  • Analiza korelacji służy do określenia

    • czy między badanymi zmiennymi występuje związek? Czy te zależności są istotne statystycznie?
    • Jak silny jest związek między zmiennymi?
    • Jaki jest kierunek zależności?
  • Wyniki analizy korelacji graficznie prezentuje się na wykresie rozrzutu.

Analiza korelacji

  • Miarą korelacji jest współczynnik korelacji.

  • Współczynnik korelacji dostarcza informacji o tym jaka jest siła związku (wartość współczynnika) oraz jaki jest kierunek związku (znak wspólczynnika korelacji). Obliczany współczynnik zawsze waha się od -1 do 1.

  • Najczęściej stosowane współczynniki korelacji to współczynnik korelacji Pearsona oraz współczynnik korelacji rang Spearmana.

Analiza korelacji

Analiza korelacji

Liczba piratów maleje a temperatura rośnie

Źródło: wikipedia

Analiza korelacji

Źródło: https://tylervigen.com/

Analiza korelacji

Analiza korelacji

Źródło: http://xkcd.com

Analiza korelacji

  • Correlation does not imply causation

  • Korelacja nie wskazuje na istnienie związku przyczynowo-skutkowego a po prostu związek/współwystępowanie dwóch zmiennych. Innymi słowy: Istnienie korelacji liczbowej nie potwierdza, że jedno zjawisko powoduje drugie.

    • A może powodować B
    • B może powodować A
    • A lub B może być wywołane przez C
    • Zależność między A i B może być przypadkowa

Analiza korelacji

  • Wartość współczynnika korelacji nawet bliska 0 nie zawsze oznacza brak zależności. Może oznaczać jedynie brak zależności liniowej.

Źródło: wikipedia

Analiza korelacji

  • Wielkość współczynnika podlega wpływom wartości skrajnych i odstających.

Analiza korelacji

  • Najważniejsza jest isotność korelacji. Niepotrzebna nam korelacja nawet bardzo wysoka, jeśli nie jest istotna statystycznie.

  • Dla każdego współczynnika korelacji należy także obliczyć jego istotność statystyczną, stosujac jeden z testów istotności przeznaczonych dla współczynników korelacji.

    • Hipoteza zerowa: ρ x,y=0
    • Hipoteza alternatywna: ρ x,y≠0 lub ρ x,y<0 lub ρ x,y>0

Współczynnik korelacji

Współczynnik korelacji Pearsona Współczynnik korelacji rang Spearmana
zmienne ilościowe zmienne o charakterze porządkowym
rozkład normalny lub zbliżony do normalnego bardzo silnie skośne rozkłady
brak wartości nietypowych/odstających obecność wielu obserwacji odstających
zależność liniowa dowolny typ zależności

Korelacja liniowa

  • Miarą korelacji liniowej jest współczynnik korelacji Pearsona.

  • Współczynniki korelacji przyjmują wartości z przedziału od -1,00 do +1,00.

    • Wartość -1,00 - reprezentuje doskonałą korelację ujemną (współzależność pomiędzy zmiennymi kształtująca się w taki sposób, że gdy wartości jednej zmiennej wykazują tendencję rosnącą, wówczas wartości drugiej zmiennej wykazują tendencję malejącą)

    • wartość +1,00 - reprezentuje doskonałą korelacją dodatnią (współzależność pomiędzy zmiennymi przedstawia się w taki sposób, że gdy wartości jednej zmiennej wykazują tendencję wzrastającą, wówczas wartości drugiej zmiennej także wykazują tendencję wzrastającą).

    • Wartość 0.00 wyraża brak korelacji.

Współczynnik korelacji Pearsona

\[r = \frac{\sum(x - m_{x})(y - m_{y})}{\sqrt{\sum(x - m_{x})^2\sum(y - m_{y})^2}}\] gdzie x, y to wartości zmiennej, a \(m_x, m_y\) to średnie wartości zmiennej x oraz y.

  • Współczynnik korelacji Perasona nie ma sensownej interpretacji dla zmiennych na skali porządkowej, gdyż uzależniony jest od różnic między wartościami zmiennych, które dla cech porządkowych nie są określone.

Współczynnik korelacji Pearsona

Zgadnij wartość współczynnika korelacji - https://gallery.shinyapps.io/correlation_game/

Jak silna jest korelacja?

Do opisu i interpretacji istotnej korelacji pomocne może być przyjęcie pewnej skali określającą siłę związku. Nie ma jednej przyjętej skali. Jedna ze skal wskazuje:

  • 0 - brak korelacji
  • 0,1 do 0,3 - słaba korelacja
  • 0,3 do 0,5 - przeciętna korelacja
  • 0,5 do 0,7 - korelacja wysoka
  • 0,7 do 0,9 - korelacja bardzo wysoka
  • 0,9 do 1 - korelacja prawie pełna

Współczynnik korelacji rang Spearmana

  • rodzaj korelacji nieparametrycznej, która oparta jest na rangach

    • każda obserwacja jest rangowana, następnie korelowane są ze sobą rangi, a nie wartości “surowe”
  • zależy wyłącznie od uporządkowania zaobserwowanych wartości. Może zatem być stosowany do dowolnych zmiennych, których wartości można uporządkować rosnąco.

  • stosowany gdy zmienne są zmierzone na skali porządkowej lub nie mają rozkładu normalnego

  • w niewielkim stopniu wrażliwy na obserwacje odstające

Współczynnik korelacji rang Spearmana

\[rho = \frac{\sum(x' - m_{x'})(y' - m_{y'})}{\sqrt{\sum(x' - m_{x'})^2\sum(y' - m_{y'})^2}}\] gdzie \(x'\) to ranga x, a \(y'\) to ranga y.

Testy korelacji

  • test korelacji liniowej Pearsona

    • stosowany gdy zmienne mają zależnośc liniową
    • zmienne mają rozkład normalny
  • test korelacji rang Spearman

    • stosowany gdy naruszone jest założenie o normalności rozkładu (np. gdy istnieją wartości odstające)

Testy korelacji

  • test korelacji liniowej Pearsona

    • stosowany gdy zmienne mają zależnośc liniową
    • zmienne mają rozkład normalny
  • test korelacji rang Spearman

    • stosowany gdy naruszone jest założenie o normalności rozkładu (np. gdy istnieją wartości odstające)

Przykład 1: Korelacja liniowa

Przykład 1: Korelacja liniowa

  • Zbadanie normalności rozkładu

Przykład 1: Korelacja liniowa

  • Zbadanie normalności rozkładu z wykorzytstaniem testu Shapiro-Wilka

    • Hipoteza zerowa: dane mają rozkład normalny
    • Hipoteza alternatywna: dane nie mają rozkładu normalnego
    • Intepretacja: p-value powyżej 0.05 wskazuje na rozkład normalny

    Shapiro-Wilk normality test

data:  x
W = 0.99811, p-value = 0.3298

    Shapiro-Wilk normality test

data:  y
W = 0.99854, p-value = 0.5832

Zmienna x oraz y mają rozkład normalny.

Przykład 1: Korelacja liniowa

  • współczynnik korelacji Pearsona
[1] 0.679556
  • Współczynnik korelacji rang Spearmana
[1] 0.6636062

Przykład 1: Korelacja liniowa

  • Test korelacji

    Pearson's product-moment correlation

data:  df$x and df$y
t = 29.263, df = 998, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.6447237 0.7115721
sample estimates:
     cor 
0.679556 

W wyniku testu:

  • p-value określa poziom istotności, jeśli p-value < 0.05 współczynnik korelacji jest istotny statystycznie
  • conf.int to 95% przedział ufności, w którym mieści się prawdziwa wartość współczynnika korelacji
  • sample estimates is to wartość współczynnika korelacji

Wynik testu korelacji wskazuje na istnieie istotnej korelacji między zmienną x oraz y.

Przykład 2: Współczynnik korelacji Spearmana

Przebadano 30 osób prosząc ich o określenie w skali 1 (bardzo niezadowolony) do 5 (bardzo zadowolony) poziom obsługi klienta oraz jakość sprzedawanego produktu. Czy istnieje istotna statystycznie korelacja między oceną obsługi a oceną produktu.

obsluga produkt
3 4
3 2
2 1
2 2
3 4
5 5
4 3

Przykład 2: Współczynnik korelacji Spearmana

Przykład 2: Współczynnik korelacji Spearmana


    Spearman's rank correlation rho

data:  service_satisfaction and product_satisfaction
S = 828.14, p-value = 3.963e-08
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.8157631 

Przykład 3: Określanie korelacji dla wielu zmiennych

mpg disp hp wt
Mazda RX4 21.0 160 110 2.620
Mazda RX4 Wag 21.0 160 110 2.875
Datsun 710 22.8 108 93 2.320
Hornet 4 Drive 21.4 258 110 3.215
Hornet Sportabout 18.7 360 175 3.440
Valiant 18.1 225 105 3.460

Macierz wykresów korelacji

Macierz wykresów korelacji: współczynnik korelacji Pearsona

Przykład 3: Jaki współczynnik korelacji wybrać?


    Shapiro-Wilk normality test

data:  my_data$mpg
W = 0.94756, p-value = 0.1229

    Shapiro-Wilk normality test

data:  my_data$wt
W = 0.94326, p-value = 0.09265

    Shapiro-Wilk normality test

data:  my_data$hp
W = 0.93342, p-value = 0.04881

    Shapiro-Wilk normality test

data:  my_data$disp
W = 0.92001, p-value = 0.02081

Przykład 3: Macierz wykresów korelacji

Przykład 3: Macierz wykresów korelacji

mpg disp hp wt
mpg 1.0000 -0.9089 -0.8947 -0.8864
disp -0.9089 1.0000 0.8510 0.8977
hp -0.8947 0.8510 1.0000 0.7747
wt -0.8864 0.8977 0.7747 1.0000

Przykład 3: Macierz współczynników korelacji

       mpg  disp    hp    wt
mpg   1.00 -0.91 -0.89 -0.89
disp -0.91  1.00  0.85  0.90
hp   -0.89  0.85  1.00  0.77
wt   -0.89  0.90  0.77  1.00

n= 32 


P
     mpg disp hp wt
mpg       0    0  0
disp  0        0  0
hp    0   0       0
wt    0   0    0   

Pierwsza macierz zawiera współczynnik korelacji, druga liczbę obiektów a trzecia wartość poziomu istotności p. Wartość jest istotna statystycznie jeśli p jest mniejsze od założonego poziomu isotntości (np. 0,05)

Podsumowanie

  • Co to jest analiza korelacji?
  • Różnica między współczynnikiem korelacji Pearsona a współczynnikiem korelacji rang Spearmana.
  • Korelacja dodatnia i korelacja ujemna