Shapiro-Wilk normality test
data: x
W = 0.99811, p-value = 0.3298
Statystyczne i graficzne podstawy geowizualizacji
Analiza korelacji służy do określenia
Wyniki analizy korelacji graficznie prezentuje się na wykresie rozrzutu.
Miarą korelacji jest współczynnik korelacji.
Współczynnik korelacji dostarcza informacji o tym jaka jest siła związku (wartość współczynnika) oraz jaki jest kierunek związku (znak wspólczynnika korelacji). Obliczany współczynnik zawsze waha się od -1 do 1.
Najczęściej stosowane współczynniki korelacji to współczynnik korelacji Pearsona oraz współczynnik korelacji rang Spearmana.
Liczba piratów maleje a temperatura rośnie
Źródło: wikipedia
Źródło: https://tylervigen.com/
Przykłady korelacji zestawione przez Tyler Vigen: https://www.tylervigen.com/spurious-correlations
Źródło: http://xkcd.com
Correlation does not imply causation
Korelacja nie wskazuje na istnienie związku przyczynowo-skutkowego a po prostu związek/współwystępowanie dwóch zmiennych. Innymi słowy: Istnienie korelacji liczbowej nie potwierdza, że jedno zjawisko powoduje drugie.
Źródło: wikipedia
Najważniejsza jest isotność korelacji. Niepotrzebna nam korelacja nawet bardzo wysoka, jeśli nie jest istotna statystycznie.
Dla każdego współczynnika korelacji należy także obliczyć jego istotność statystyczną, stosujac jeden z testów istotności przeznaczonych dla współczynników korelacji.
| Współczynnik korelacji Pearsona | Współczynnik korelacji rang Spearmana |
|---|---|
| zmienne ilościowe | zmienne o charakterze porządkowym |
| rozkład normalny lub zbliżony do normalnego | bardzo silnie skośne rozkłady |
| brak wartości nietypowych/odstających | obecność wielu obserwacji odstających |
| zależność liniowa | dowolny typ zależności |
Miarą korelacji liniowej jest współczynnik korelacji Pearsona.
Współczynniki korelacji przyjmują wartości z przedziału od -1,00 do +1,00.
Wartość -1,00 - reprezentuje doskonałą korelację ujemną (współzależność pomiędzy zmiennymi kształtująca się w taki sposób, że gdy wartości jednej zmiennej wykazują tendencję rosnącą, wówczas wartości drugiej zmiennej wykazują tendencję malejącą)
wartość +1,00 - reprezentuje doskonałą korelacją dodatnią (współzależność pomiędzy zmiennymi przedstawia się w taki sposób, że gdy wartości jednej zmiennej wykazują tendencję wzrastającą, wówczas wartości drugiej zmiennej także wykazują tendencję wzrastającą).
Wartość 0.00 wyraża brak korelacji.
\[r = \frac{\sum(x - m_{x})(y - m_{y})}{\sqrt{\sum(x - m_{x})^2\sum(y - m_{y})^2}}\] gdzie x, y to wartości zmiennej, a \(m_x, m_y\) to średnie wartości zmiennej x oraz y.
Zgadnij wartość współczynnika korelacji - https://gallery.shinyapps.io/correlation_game/
Do opisu i interpretacji istotnej korelacji pomocne może być przyjęcie pewnej skali określającą siłę związku. Nie ma jednej przyjętej skali. Jedna ze skal wskazuje:
rodzaj korelacji nieparametrycznej, która oparta jest na rangach
zależy wyłącznie od uporządkowania zaobserwowanych wartości. Może zatem być stosowany do dowolnych zmiennych, których wartości można uporządkować rosnąco.
stosowany gdy zmienne są zmierzone na skali porządkowej lub nie mają rozkładu normalnego
w niewielkim stopniu wrażliwy na obserwacje odstające
\[rho = \frac{\sum(x' - m_{x'})(y' - m_{y'})}{\sqrt{\sum(x' - m_{x'})^2\sum(y' - m_{y'})^2}}\] gdzie \(x'\) to ranga x, a \(y'\) to ranga y.
test korelacji liniowej Pearsona
test korelacji rang Spearman
test korelacji liniowej Pearsona
test korelacji rang Spearman
Zbadanie normalności rozkładu z wykorzytstaniem testu Shapiro-Wilka
Shapiro-Wilk normality test
data: x
W = 0.99811, p-value = 0.3298
Shapiro-Wilk normality test
data: y
W = 0.99854, p-value = 0.5832
Zmienna x oraz y mają rozkład normalny.
[1] 0.679556
[1] 0.6636062
Pearson's product-moment correlation
data: df$x and df$y
t = 29.263, df = 998, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.6447237 0.7115721
sample estimates:
cor
0.679556
W wyniku testu:
Wynik testu korelacji wskazuje na istnieie istotnej korelacji między zmienną x oraz y.
Przebadano 30 osób prosząc ich o określenie w skali 1 (bardzo niezadowolony) do 5 (bardzo zadowolony) poziom obsługi klienta oraz jakość sprzedawanego produktu. Czy istnieje istotna statystycznie korelacja między oceną obsługi a oceną produktu.
| obsluga | produkt |
|---|---|
| 3 | 4 |
| 3 | 2 |
| 2 | 1 |
| 2 | 2 |
| 3 | 4 |
| 5 | 5 |
| 4 | 3 |
Spearman's rank correlation rho
data: service_satisfaction and product_satisfaction
S = 828.14, p-value = 3.963e-08
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.8157631
| mpg | disp | hp | wt | |
|---|---|---|---|---|
| Mazda RX4 | 21.0 | 160 | 110 | 2.620 |
| Mazda RX4 Wag | 21.0 | 160 | 110 | 2.875 |
| Datsun 710 | 22.8 | 108 | 93 | 2.320 |
| Hornet 4 Drive | 21.4 | 258 | 110 | 3.215 |
| Hornet Sportabout | 18.7 | 360 | 175 | 3.440 |
| Valiant | 18.1 | 225 | 105 | 3.460 |
Shapiro-Wilk normality test
data: my_data$mpg
W = 0.94756, p-value = 0.1229
Shapiro-Wilk normality test
data: my_data$wt
W = 0.94326, p-value = 0.09265
Shapiro-Wilk normality test
data: my_data$hp
W = 0.93342, p-value = 0.04881
Shapiro-Wilk normality test
data: my_data$disp
W = 0.92001, p-value = 0.02081
| mpg | disp | hp | wt | |
|---|---|---|---|---|
| mpg | 1.0000 | -0.9089 | -0.8947 | -0.8864 |
| disp | -0.9089 | 1.0000 | 0.8510 | 0.8977 |
| hp | -0.8947 | 0.8510 | 1.0000 | 0.7747 |
| wt | -0.8864 | 0.8977 | 0.7747 | 1.0000 |
mpg disp hp wt
mpg 1.00 -0.91 -0.89 -0.89
disp -0.91 1.00 0.85 0.90
hp -0.89 0.85 1.00 0.77
wt -0.89 0.90 0.77 1.00
n= 32
P
mpg disp hp wt
mpg 0 0 0
disp 0 0 0
hp 0 0 0
wt 0 0 0
Pierwsza macierz zawiera współczynnik korelacji, druga liczbę obiektów a trzecia wartość poziomu istotności p. Wartość jest istotna statystycznie jeśli p jest mniejsze od założonego poziomu isotntości (np. 0,05)