library(ggplot2)

1 Rozkłady danych

teoretyczne - rozkłady oparte o pewne założenia
empiryczne - rozkład wartości oparty o obserwowane dane

2 Rozkłady empiryczne

2.1 Histogram

graficzny sposób przedstawiania rozkładu liczebności dla wybranej zmiennej.
Wykres został poraz pierwszy wprowadzony przez Pearsona w 1895 roku.
Wykres powstaje w 2 etapach:
- 1. Zakres wartości danych dzielony jest na rozłączne przedziały o równej szerokości,
- 1. Dla każdego przedziału rysowane są słupki o wysokości równej liczbie obserwacji w każdym przedziale.

2.2 Często spotykane kształty rozkładów danych

2.3 Jaki jest rozkład zmiennych w danych `gapminder`?

data("gapminder", package = "gapminder")

library(ggplot2)

Rozkład oczekiwanej długości trwania życia (lifeExp)

ggplot(data = gapminder, aes(x = lifeExp)) + geom_histogram(binwidth = 2) + theme_bw()

Określ jaki rozkład ma oczekiwana długość trwania życia: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?

Rozkład produktu krajowego brutto (gdpPercap)

ggplot(data = gapminder, aes(x = gdpPercap)) + geom_histogram(binwidth=10000) + theme_bw()

Określ jaki rozkład ma produkt krajowy brutto: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?

Wykonaj histogram dla zmiennej gdpPercap, ustaw szerokość przedziałów na 5000 (binwidth = 5000) Jaki rozkład ma zmienna gdpPercap?

Wykonaj histogram dla zmiennej pop. Określ jaki rozkład ma zmienna pop: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?

Rozkład oczekiwanej długości trwania życia (lifeExp) według kontynentów

ggplot(gapminder, aes(x = lifeExp)) + 
  geom_histogram() + 
  facet_wrap(~continent, ncol = 3) + 
  theme_bw()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Określ jaki rozkład ma oczekiwana długość trwania życia na poszczególnych kontynentach: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?

Wykonaj histogram dla zmiennej gdpPercap w podziale na kontynenty.

2.4 Analiza rozkładów danych - wykres pudełkowy.

2.4.1 Wykres pudełkowy

obrazuje podstawowe statystyki opisowe:
- dolny kwartyl - dolna krawędz pudełka
- mediana - linia środkowa
- górny kwartyl - górna krawędź pudełka
- minimum
- maksimum
pozwala na identyfikację wartości odstających (punkty 1,5*IQR ponad krawędź pudełka)
pozwala na określenie rozkładu danych (symetryczny, asymetryczny)

2.4.2 Rozkłady danych a wykres pudełkowy

Rozkład symetryczny
- mediana wypada na środku pudełka,
- wąsy równej długości po obu stronach pudełka
Rozkład asymetryczny lewostronnie
- mediana wypada bliżej górnej krawędzi pudełka,
- mediana > średnia
- wąsy wychodzące z dolnej krawędzi pudełka są dłuższe.
Rozkład asymetryczny prawostronnie
- mediana wypada bliżej dolnej krawędzi pudełka,
- mediana < średnia
- wąsy wychodzące z górnej krawędzi pudełka są dłuższe.

Wykres pudełkowy dla oczekiwanej długości trwania życia według kontynentów

ggplot(data = gapminder, aes(x = continent, y = lifeExp)) + 
  geom_boxplot() + 
  stat_summary(fun = mean, geom="point", shape=20, size=4) +
  labs(x = "Kontynent", 
       y = "Oczekiwana długość trwania życia", 
       title = "Zróżnicowanie oczekiwanej długości trwania życia na kontynentach") + 
  theme_bw()

Proszę wykonać wykres pudełkowy przedstawiający rozkład wartości gdpPercap według kontynentów. Jak określisz rozkłady danych na poszczególnych kontynentach?

3 Miary asymetrii i koncentracji

3.1 Miary asymetrii

skośność = 0 - rozkład symetryczny
skośność < 0 - rozkład asymetryczny lewostronnie (rozkład ma dłuższy lewy ogon)
skośność > 0 - rozkład asymetryczny prawostronnie (rozkład ma dłuższy prawy ogon)

3.1.1 Miary asymetrii w R

library(e1071)
skewness(x)

3.2 Miary koncentracji

Miary koncentracji opisują koncentrację wartości cechy wokół średniej.

K > 0 - Im wyższa kurtoza, tym bardziej wysmukła jest krzywa liczebności,a zatem większa koncentracja wokół średniej
K < 0 - rozkład bardziej spłaszczony niż rozkład normalny.

3.2.1 Miary koncentracji w R

library(e1071)
kurtosis(x)

3.3 Dane gapminder - miary asymetrii oraz koncentracji

3.3.1 Produkt krajowy brutto

library(e1071)
#skosnosc
skewness(gapminder$gdpPercap)

## [1] 3.843496

Wartość skośności większa od 0 wskazuje na rozkład asymetryczny prawostronnie (dłuższy ogon wartości wyciągniętych w prawo).

3.3.2 Statystyki dla oczekiwanej długości życia w podziale na kontynenty

library(e1071)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

by_continent = group_by(gapminder, continent)
smr = summarize(by_continent,
                skosnosc=skewness(lifeExp),
                kurtoza=kurtosis(lifeExp),
                min=min(lifeExp),
                srednia=mean(lifeExp),
                mediana=median(lifeExp),
                max=max(lifeExp))
smr

## # A tibble: 5 × 7
##   continent skosnosc kurtoza   min srednia mediana   max
##   <fct>        <dbl>   <dbl> <dbl>   <dbl>   <dbl> <dbl>
## 1 Africa       0.563   0.134  23.6    48.9    47.8  76.4
## 2 Americas    -0.735  -0.207  37.6    64.7    67.0  80.7
## 3 Asia        -0.401  -0.666  28.8    60.1    61.8  82.6
## 4 Europe      -1.25    3.29   43.6    71.9    72.2  81.8
## 5 Oceania      0.368  -1.33   69.1    74.3    73.7  81.2

Jaką informację o rozkładzie danych uzyskujemy na podstawie tych statystyk?

Oblicz statystyki (średnią, medianę, kurtozę, skośność, minimum, maksimum) dla zmiennej gdpPercap w podziale na kontynenty. Jaką informację o rozkładzie danych uzyskujemy na podstawie tych statystyk?

3.4 Porównanie rozkładów

W statystyce wykres kwantylowy (QQ-plot) jest wykresem prawdopodobieństwa, który porównuje (w graficzny sposób) 2 rozkłady prawdopodobieństwa przez wykreślenie ich kwantyli na przeciwnych osiach (x,y). Jeśli 2 porównywane rozkłady są podobne, punkty na wykresie kwantylowym ułożą się wzdłuż linii y=x Wykres normalności (Norm QQ Plot) porównuje rozkład próbki z rozkładem normalnym.

W R wykresy te można wykreślić używając funkcji qqplot() orazqqnorm() z grafiki podstawowej. Wykonując wykres za pomocą pakietu ggplot2 należy dodać geometrię geom_qq.

3.4.1 Przykład

#wyselekcjonować dane dla kontynentu Afryka dotyczące średniej długości trwania życia
dane_Africa <- gapminder[gapminder$continent == 'Africa',]

Porównanie rozkładu danych (sample) dla zmiennej lifeExp z rozkładem teoretycznym

ggplot(data = dane_Africa, aes(sample = lifeExp)) + stat_qq()

qqnorm(dane_Africa$lifeExp)

4 Rozkład normalny

Zwany inaczej rozkładem Gaussa.
Opisuje on sytuacje, gdy większość przypadków ma wartość zbliżoną do średniej, a im wartość jest dalsza od średniej tym jest ich coraz mniej.
Rozkład ten spełnia ważną rolę w statystyce.
Obserwacja wielu zjawisk przyrodniczych pozwoliła stwierdzić, że podlegają one prawu rozkładu normalnego lub bardzo zbliżonego do niego.

4.1 Rozkład obserwacji w rozkładzie normalnym.

4.2 Sprawdzanie zgodności z rozkładem normalnym - test Shapiro Wilka

służy do sprawdzenia czy analizowna zmienna ma rozkład zbliżony do rozkładu normalnego.
hipoteza zerowa testu: rozkład analizowanej zmiennej jest zbliżony do rozkładu normalnego.
istotny wynik testu Shapiro-Wilka (p-value <0.05) świadczy o tym, że rozkład zmiennej obserwowanej nie jest podobny do rozkładu normalnego
w R obliczany za pomocą shapiro.test()
rozkład normalny jest wymagany przy stosowaniu wielu metod statystycznych - analiza wariancji, testy t-Studenta.

4.3 Przykład: Czy rozkład długości trwania życia w Afryce jest zbliżony do rozkładu normalnego?

dane_Africa <- gapminder[gapminder$continent == 'Africa',]

shapiro.test(dane_Africa$lifeExp)

## 
##  Shapiro-Wilk normality test
## 
## data:  dane_Africa$lifeExp
## W = 0.97674, p-value = 2.132e-08

Wartość p-value testu wynosi p-value = 2.132e-08, a zatem jest mniejsza od 0.05. Rozkład nie jest zbliżony do rozkładu normalnego.

4.4 Przykład 2.

set.seed(123456)
x <- rnorm(1000, mean = 10, sd = 2)

hist(x)

shapiro.test(x)

## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.99881, p-value = 0.7595

Wartość p-value wynosi p-value = 0.7595 (jest większa od 0.05), zatem powyższy rozkład jest zbliżony rozkładu normalnego.

5 Zadanie

Plik storkowo2007.rds w folderze dane zawiera dane z 2007 roku dotyczące temperatury dobowej (temp_dobowa), opadu oraz prędkości wiatru (wiatr_v) dla Stacji Bazowej Zintegrowanego Monitoringu Środowiska Przyrodniczego w Storkowie.

Obliczyć podstawowe statystyki opisowe dla temp. dobowej, opadu oraz prędkości wiatru.
Wykonać histogramy dla temp. dobowej, opadu oraz prędkości wiatru.
Jaki rozkład mają poszczególne parametry meteorologiczne - temp. dobowa, opad oraz prędkość wiatru?

Rozkłady zmiennych losowych

Statystyka i wizulizacja danych

1 Rozkłady danych

2 Rozkłady empiryczne

2.1 Histogram

2.2 Często spotykane kształty rozkładów danych

2.3 Jaki jest rozkład zmiennych w danych `gapminder`?

Rozkład oczekiwanej długości trwania życia (lifeExp)

Rozkład produktu krajowego brutto (gdpPercap)

Rozkład oczekiwanej długości trwania życia (lifeExp) według kontynentów

2.4 Analiza rozkładów danych - wykres pudełkowy.

2.4.1 Wykres pudełkowy

2.4.2 Rozkłady danych a wykres pudełkowy

Wykres pudełkowy dla oczekiwanej długości trwania życia według kontynentów

3 Miary asymetrii i koncentracji

3.1 Miary asymetrii

3.1.1 Miary asymetrii w R

3.2 Miary koncentracji

3.2.1 Miary koncentracji w R

3.3 Dane gapminder - miary asymetrii oraz koncentracji

3.3.1 Produkt krajowy brutto

3.3.2 Statystyki dla oczekiwanej długości życia w podziale na kontynenty

3.4 Porównanie rozkładów

3.4.1 Przykład

4 Rozkład normalny

4.1 Rozkład obserwacji w rozkładzie normalnym.

4.2 Sprawdzanie zgodności z rozkładem normalnym - test Shapiro Wilka

4.3 Przykład: Czy rozkład długości trwania życia w Afryce jest zbliżony do rozkładu normalnego?

4.4 Przykład 2.

5 Zadanie

Rozkłady zmiennych losowych

Statystyka i wizulizacja danych

1 Rozkłady danych

2 Rozkłady empiryczne

2.1 Histogram

2.2 Często spotykane kształty rozkładów danych

2.3 Jaki jest rozkład zmiennych w danych gapminder?

Rozkład oczekiwanej długości trwania życia (lifeExp)

Rozkład produktu krajowego brutto (gdpPercap)

Rozkład oczekiwanej długości trwania życia (lifeExp) według kontynentów

2.4 Analiza rozkładów danych - wykres pudełkowy.

2.4.1 Wykres pudełkowy

2.4.2 Rozkłady danych a wykres pudełkowy

Wykres pudełkowy dla oczekiwanej długości trwania życia według kontynentów

3 Miary asymetrii i koncentracji

3.1 Miary asymetrii

3.1.1 Miary asymetrii w R

3.2 Miary koncentracji

3.2.1 Miary koncentracji w R

3.3 Dane gapminder - miary asymetrii oraz koncentracji

3.3.1 Produkt krajowy brutto

3.3.2 Statystyki dla oczekiwanej długości życia w podziale na kontynenty

3.4 Porównanie rozkładów

3.4.1 Przykład

4 Rozkład normalny

4.1 Rozkład obserwacji w rozkładzie normalnym.

4.2 Sprawdzanie zgodności z rozkładem normalnym - test Shapiro Wilka

4.3 Przykład: Czy rozkład długości trwania życia w Afryce jest zbliżony do rozkładu normalnego?

4.4 Przykład 2.

5 Zadanie

2.3 Jaki jest rozkład zmiennych w danych `gapminder`?