library(ggplot2)
gapminder
?data("gapminder", package = "gapminder")
library(ggplot2)
ggplot(data = gapminder, aes(x = lifeExp)) + geom_histogram(binwidth = 2) + theme_bw()
Określ jaki rozkład ma oczekiwana długość trwania życia: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?
ggplot(data = gapminder, aes(x = gdpPercap)) + geom_histogram(binwidth=10000) + theme_bw()
Określ jaki rozkład ma produkt krajowy brutto: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?
Wykonaj histogram dla zmiennej gdpPercap, ustaw szerokość przedziałów na 5000 (binwidth = 5000) Jaki rozkład ma zmienna gdpPercap?
Wykonaj histogram dla zmiennej pop. Określ jaki rozkład ma zmienna pop: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?
ggplot(gapminder, aes(x = lifeExp)) +
geom_histogram() +
facet_wrap(~continent, ncol = 3) +
theme_bw()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Określ jaki rozkład ma oczekiwana długość trwania życia na poszczególnych kontynentach: symetryczny/asymetryczny lewostronnie/asymetryczny prawostronnie, jednomodalny/dwumodalny/wielomodalny?
Wykonaj histogram dla zmiennej gdpPercap w podziale na kontynenty.
obrazuje podstawowe statystyki opisowe:
pozwala na identyfikację wartości odstających (punkty 1,5*IQR ponad krawędź pudełka)
pozwala na określenie rozkładu danych (symetryczny, asymetryczny)
Rozkład symetryczny
Rozkład asymetryczny lewostronnie
Rozkład asymetryczny prawostronnie
ggplot(data = gapminder, aes(x = continent, y = lifeExp)) +
geom_boxplot() +
stat_summary(fun = mean, geom="point", shape=20, size=4) +
labs(x = "Kontynent",
y = "Oczekiwana długość trwania życia",
title = "Zróżnicowanie oczekiwanej długości trwania życia na kontynentach") +
theme_bw()
Proszę wykonać wykres pudełkowy przedstawiający rozkład wartości gdpPercap według kontynentów. Jak określisz rozkłady danych na poszczególnych kontynentach?
library(e1071)
skewness(x)
Miary koncentracji opisują koncentrację wartości cechy wokół średniej.
library(e1071)
kurtosis(x)
library(e1071)
#skosnosc
skewness(gapminder$gdpPercap)
## [1] 3.843496
Wartość skośności większa od 0 wskazuje na rozkład asymetryczny prawostronnie (dłuższy ogon wartości wyciągniętych w prawo).
library(e1071)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
= group_by(gapminder, continent)
by_continent = summarize(by_continent,
smr skosnosc=skewness(lifeExp),
kurtoza=kurtosis(lifeExp),
min=min(lifeExp),
srednia=mean(lifeExp),
mediana=median(lifeExp),
max=max(lifeExp))
smr
## # A tibble: 5 × 7
## continent skosnosc kurtoza min srednia mediana max
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Africa 0.563 0.134 23.6 48.9 47.8 76.4
## 2 Americas -0.735 -0.207 37.6 64.7 67.0 80.7
## 3 Asia -0.401 -0.666 28.8 60.1 61.8 82.6
## 4 Europe -1.25 3.29 43.6 71.9 72.2 81.8
## 5 Oceania 0.368 -1.33 69.1 74.3 73.7 81.2
Jaką informację o rozkładzie danych uzyskujemy na podstawie tych statystyk?
Oblicz statystyki (średnią, medianę, kurtozę, skośność, minimum, maksimum) dla zmiennej gdpPercap w podziale na kontynenty. Jaką informację o rozkładzie danych uzyskujemy na podstawie tych statystyk?
W statystyce wykres kwantylowy (QQ-plot) jest wykresem prawdopodobieństwa, który porównuje (w graficzny sposób) 2 rozkłady prawdopodobieństwa przez wykreślenie ich kwantyli na przeciwnych osiach (x,y). Jeśli 2 porównywane rozkłady są podobne, punkty na wykresie kwantylowym ułożą się wzdłuż linii y=x Wykres normalności (Norm QQ Plot) porównuje rozkład próbki z rozkładem normalnym.
W R wykresy te można wykreślić używając funkcji qqplot()
orazqqnorm()
z grafiki podstawowej. Wykonując wykres za
pomocą pakietu ggplot2
należy dodać geometrię
geom_qq
.
#wyselekcjonować dane dla kontynentu Afryka dotyczące średniej długości trwania życia
<- gapminder[gapminder$continent == 'Africa',] dane_Africa
Porównanie rozkładu danych (sample) dla zmiennej lifeExp z rozkładem teoretycznym
ggplot(data = dane_Africa, aes(sample = lifeExp)) + stat_qq()
qqnorm(dane_Africa$lifeExp)
shapiro.test()
<- gapminder[gapminder$continent == 'Africa',] dane_Africa
shapiro.test(dane_Africa$lifeExp)
##
## Shapiro-Wilk normality test
##
## data: dane_Africa$lifeExp
## W = 0.97674, p-value = 2.132e-08
Wartość p-value testu wynosi p-value = 2.132e-08, a zatem jest mniejsza od 0.05. Rozkład nie jest zbliżony do rozkładu normalnego.
set.seed(123456)
<- rnorm(1000, mean = 10, sd = 2) x
hist(x)
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.99881, p-value = 0.7595
Wartość p-value wynosi p-value = 0.7595 (jest większa od 0.05), zatem powyższy rozkład jest zbliżony rozkładu normalnego.
Plik storkowo2007.rds w folderze dane zawiera dane z 2007 roku dotyczące temperatury dobowej (temp_dobowa), opadu oraz prędkości wiatru (wiatr_v) dla Stacji Bazowej Zintegrowanego Monitoringu Środowiska Przyrodniczego w Storkowie.