library(ggplot2)

1 Rozkłady danych

  • teoretyczne - rozkłady oparte o pewne założenia
  • empiryczne - rozkład wartości oparty o obserwowane dane

2 Rozkłady empiryczne

2.1 Histogram

  • graficzny sposób przedstawiania rozkładu liczebności dla wybranej zmiennej.
  • Wykres został poraz pierwszy wprowadzony przez Pearsona w 1895 roku.
  • Wykres powstaje w 2 etapach:
      1. Zakres wartości danych dzielony jest na rozłączne przedziały o równej szerokości,
      1. Dla każdego przedziału rysowane są słupki o wysokości równej liczbie obserwacji w każdym przedziale.

2.2 Często spotykane kształty rozkładów danych

2.3 Jaki jest rozkład zmiennych w danych gapminder?

data("gapminder", package = "gapminder")
library(ggplot2)

Rozkład oczekiwanej długości trwania życia (lifeExp)

ggplot(data = gapminder, aes(x = lifeExp)) + geom_histogram(binwidth = 2) + theme_bw()

Określ jaki rozkład ma oczekiwana długość trwania życia: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?

Rozkład produktu krajowego brutto (gdpPercap)

ggplot(data = gapminder, aes(x = gdpPercap)) + geom_histogram(binwidth=10000) + theme_bw()

Określ jaki rozkład ma produkt krajowy brutto: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?

Wykonaj histogram dla zmiennej gdpPercap, ustaw szerokość przedziałów na 5000 (binwidth = 5000) Jaki rozkład ma zmienna gdpPercap?

Wykonaj histogram dla zmiennej pop. Określ jaki rozkład ma zmienna pop: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?

Rozkład oczekiwanej długości trwania życia (lifeExp) według kontynentów

ggplot(gapminder, aes(x = lifeExp)) + 
  geom_histogram() + 
  facet_wrap(~continent, ncol = 3) + 
  theme_bw()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Określ jaki rozkład ma oczekiwana długość trwania życia na poszczególnych kontynentach: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?

Wykonaj histogram dla zmiennej gdpPercap w podziale na kontynenty.

2.4 Analiza rozkładów danych - wykres pudełkowy.

2.4.1 Wykres pudełkowy

  • obrazuje podstawowe statystyki opisowe:

    • dolny kwartyl - dolna krawędz pudełka
    • mediana - linia środkowa
    • górny kwartyl - górna krawędź pudełka
    • minimum
    • maksimum
  • pozwala na identyfikację wartości odstających (punkty 1,5*IQR ponad krawędź pudełka)

  • pozwala na określenie rozkładu danych (symetryczny, asymetryczny)

2.4.2 Rozkłady danych a wykres pudełkowy

  • Rozkład symetryczny

    • mediana wypada na środku pudełka,
    • wąsy równej długości po obu stronach pudełka
  • Rozkład asymetryczny lewostronnie

    • mediana wypada bliżej górnej krawędzi pudełka,
    • mediana > średnia
    • wąsy wychodzące z dolnej krawędzi pudełka są dłuższe.
  • Rozkład asymetryczny prawostronnie

    • mediana wypada bliżej dolnej krawędzi pudełka,
    • mediana < średnia
    • wąsy wychodzące z górnej krawędzi pudełka są dłuższe.

Wykres pudełkowy dla oczekiwanej długości trwania życia według kontynentów

ggplot(data = gapminder, aes(x = continent, y = lifeExp)) + 
  geom_boxplot() + 
  stat_summary(fun = mean, geom="point", shape=20, size=4) +
  labs(x = "Kontynent", 
       y = "Oczekiwana długość trwania życia", 
       title = "Zróżnicowanie oczekiwanej długości trwania życia na kontynentach") + 
  theme_bw() 

Proszę wykonać wykres pudełkowy przedstawiający rozkład wartości gdpPercap według kontynentów. Jak określisz rozkłady danych na poszczególnych kontynentach?

3 Miary asymetrii i koncentracji

3.1 Miary asymetrii

  • skośność = 0 - rozkład symetryczny
  • skośność < 0 - rozkład asymetryczny lewostronnie (rozkład ma dłuższy lewy ogon)
  • skośność > 0 - rozkład asymetryczny prawostronnie (rozkład ma dłuższy prawy ogon)

3.1.1 Miary asymetrii w R

library(e1071)
skewness(x)

3.2 Miary koncentracji

Miary koncentracji opisują koncentrację wartości cechy wokół średniej.

  • K > 0 - Im wyższa kurtoza, tym bardziej wysmukła jest krzywa liczebności,a zatem większa koncentracja wokół średniej
  • K < 0 - rozkład bardziej spłaszczony niż rozkład normalny.

3.2.1 Miary koncentracji w R

library(e1071)
kurtosis(x)

3.3 Dane gapminder - miary asymetrii oraz koncentracji

3.3.1 Produkt krajowy brutto

library(e1071)
#skosnosc
skewness(gapminder$gdpPercap)
## [1] 3.843496

Wartość skośności większa od 0 wskazuje na rozkład asymetryczny prawostronnie (dłuższy ogon wartości wyciągniętych w prawo).

3.3.2 Statystyki dla oczekiwanej długości życia w podziale na kontynenty

library(e1071)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
by_continent = group_by(gapminder, continent)
smr = summarize(by_continent,
                skosnosc=skewness(lifeExp),
                kurtoza=kurtosis(lifeExp),
                min=min(lifeExp),
                srednia=mean(lifeExp),
                mediana=median(lifeExp),
                max=max(lifeExp))
smr
## # A tibble: 5 × 7
##   continent skosnosc kurtoza   min srednia mediana   max
##   <fct>        <dbl>   <dbl> <dbl>   <dbl>   <dbl> <dbl>
## 1 Africa       0.563   0.134  23.6    48.9    47.8  76.4
## 2 Americas    -0.735  -0.207  37.6    64.7    67.0  80.7
## 3 Asia        -0.401  -0.666  28.8    60.1    61.8  82.6
## 4 Europe      -1.25    3.29   43.6    71.9    72.2  81.8
## 5 Oceania      0.368  -1.33   69.1    74.3    73.7  81.2

Jaką informację o rozkładzie danych uzyskujemy na podstawie tych statystyk?

Oblicz statystyki (średnią, medianę, kurtozę, skośność, minimum, maksimum) dla zmiennej gdpPercap w podziale na kontynenty. Jaką informację o rozkładzie danych uzyskujemy na podstawie tych statystyk?

3.4 Porównanie rozkładów

W statystyce wykres kwantylowy (QQ-plot) jest wykresem prawdopodobieństwa, który porównuje (w graficzny sposób) 2 rozkłady prawdopodobieństwa przez wykreślenie ich kwantyli na przeciwnych osiach (x,y). Jeśli 2 porównywane rozkłady są podobne, punkty na wykresie kwantylowym ułożą się wzdłuż linii y=x Wykres normalności (Norm QQ Plot) porównuje rozkład próbki z rozkładem normalnym.

W R wykresy te można wykreślić używając funkcji qqplot() orazqqnorm() z grafiki podstawowej. Wykonując wykres za pomocą pakietu ggplot2 należy dodać geometrię geom_qq.

3.4.1 Przykład

#wyselekcjonować dane dla kontynentu Afryka dotyczące średniej długości trwania życia
dane_Africa <- gapminder[gapminder$continent == 'Africa',]

Porównanie rozkładu danych (sample) dla zmiennej lifeExp z rozkładem teoretycznym

ggplot(data = dane_Africa, aes(sample = lifeExp)) + stat_qq()

qqnorm(dane_Africa$lifeExp)

4 Rozkład normalny

  • Zwany inaczej rozkładem Gaussa.
  • Opisuje on sytuacje, gdy większość przypadków ma wartość zbliżoną do średniej, a im wartość jest dalsza od średniej tym jest ich coraz mniej.
  • Rozkład ten spełnia ważną rolę w statystyce.
  • Obserwacja wielu zjawisk przyrodniczych pozwoliła stwierdzić, że podlegają one prawu rozkładu normalnego lub bardzo zbliżonego do niego.

4.1 Rozkład obserwacji w rozkładzie normalnym.

4.2 Sprawdzanie zgodności z rozkładem normalnym - test Shapiro Wilka

  • służy do sprawdzenia czy analizowna zmienna ma rozkład zbliżony do rozkładu normalnego.
  • hipoteza zerowa testu: rozkład analizowanej zmiennej jest zbliżony do rozkładu normalnego.
  • istotny wynik testu Shapiro-Wilka (p-value <0.05) świadczy o tym, że rozkład zmiennej obserwowanej nie jest podobny do rozkładu normalnego
  • w R obliczany za pomocą shapiro.test()
  • rozkład normalny jest wymagany przy stosowaniu wielu metod statystycznych - analiza wariancji, testy t-Studenta.

4.3 Przykład: Czy rozkład długości trwania życia w Afryce jest zbliżony do rozkładu normalnego?

dane_Africa <- gapminder[gapminder$continent == 'Africa',]
shapiro.test(dane_Africa$lifeExp)
## 
##  Shapiro-Wilk normality test
## 
## data:  dane_Africa$lifeExp
## W = 0.97674, p-value = 2.132e-08

Wartość p-value testu wynosi p-value = 2.132e-08, a zatem jest mniejsza od 0.05. Rozkład nie jest zbliżony do rozkładu normalnego.

4.4 Przykład 2.

set.seed(123456)
x <- rnorm(1000, mean = 10, sd = 2)
hist(x)

shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.99881, p-value = 0.7595

Wartość p-value wynosi p-value = 0.7595 (jest większa od 0.05), zatem powyższy rozkład jest zbliżony rozkładu normalnego.

5 Zadanie

Plik storkowo2007.rds w folderze dane zawiera dane z 2007 roku dotyczące temperatury dobowej (temp_dobowa), opadu oraz prędkości wiatru (wiatr_v) dla Stacji Bazowej Zintegrowanego Monitoringu Środowiska Przyrodniczego w Storkowie.

  1. Obliczyć podstawowe statystyki opisowe dla temp. dobowej, opadu oraz prędkości wiatru.
  2. Wykonać histogramy dla temp. dobowej, opadu oraz prędkości wiatru.
  3. Jaki rozkład mają poszczególne parametry meteorologiczne - temp. dobowa, opad oraz prędkość wiatru?