1 Statystyki opisowe

Statystyki opisowe wykorzystuje się do przedstawienia ogólnej charakterystyki danych.

Statystyki opisowe dzielimy na:

  1. Miary położenia - określają przeciętny poziom oraz rozmieszczenie wartości zmiennej:

    • Miary przeciętne - np. średnia arytemtyczna - charakteryzują średni lub typowy poziom wartości zmiennej; mówią zatem o przeciętnym poziomie rozważanej zmiennej
    • Wartość modalna - wartość najczęściej występująca w zbiorze danych
    • Kwantyle - dzielą zbiorowość na określone części, np. 4, 10, 100 części.
  2. Miary zmienności - określają granice zmienności danej zmiennej:

    • rozstęp
    • rozstęp kwartylowy
    • odchylenie standardowe
  3. Miary asymetrii i koncentracji.

2 Dane

Dane z pakietu gapminder zawierają dane dla 142 krajów dla lat 1952-2007. Zbiór danych zawiera następujące informacje:

  • oczekiwana długość trwania życia (ang. lifeExp),
  • produkt krajowy brutto (ang. gdpPercap),
  • liczba ludności (ang. pop)

Dane pochodzą z projektu GAPMINDER (http://www.gapminder.org/data/). Kilka informacji po polsku o projekcie GAPMINDER znajduje się na stronie http://analizy.investio.pl/statystyka-jest-ciekawa/.

library(gapminder)
data('gapminder', package ='gapminder')
dane2007 = subset(gapminder, year==2007)

3 Podstawowe statystyki

Zestaw podstawowych statystyk opisowych obliczany jest za pomocą funkcji summary(). Funkcja ta oblicza wartość minimalną, wartość maksymalną, pierwszy i trzeci kwartyl, medianę oraz średnią.

summary(dane2007)
##         country       continent       year         lifeExp     
##  Afghanistan:  1   Africa  :52   Min.   :2007   Min.   :39.61  
##  Albania    :  1   Americas:25   1st Qu.:2007   1st Qu.:57.16  
##  Algeria    :  1   Asia    :33   Median :2007   Median :71.94  
##  Angola     :  1   Europe  :30   Mean   :2007   Mean   :67.01  
##  Argentina  :  1   Oceania : 2   3rd Qu.:2007   3rd Qu.:76.41  
##  Australia  :  1                 Max.   :2007   Max.   :82.60  
##  (Other)    :136                                               
##       pop              gdpPercap      
##  Min.   :1.996e+05   Min.   :  277.6  
##  1st Qu.:4.508e+06   1st Qu.: 1624.8  
##  Median :1.052e+07   Median : 6124.4  
##  Mean   :4.402e+07   Mean   :11680.1  
##  3rd Qu.:3.121e+07   3rd Qu.:18008.8  
##  Max.   :1.319e+09   Max.   :49357.2  
## 

4 Braki danych

W R braki danych zazwyczaj kodowane są jako NA - Not Available.

NA + 1 
## [1] NA
2*NA 
## [1] NA
x = c(1,2,NA)
mean(x)
## [1] NA
mean(x, na.rm = TRUE)
## [1] 1.5

5 Statystyki opisowe: Miary położenia

5.1 Średnia arytmetyczna

  • Obliczana jest jako iloraz sumy liczb i ilości tych liczb.
  • Jest najczęściej używaną miarą charakteryzującą rozkład cechy
  • Wady: czuła na wartości odstające
srednia_lifeExp <- mean(dane2007$lifeExp)
srednia_lifeExp 
## [1] 67.00742

Obliczyć średnią wartość dla PKB (gdpPercap) w 2007 roku.

5.2 Kwantyle

Kwantyle to wartości cechy, które dzielą analizowany zbiór danych na określone części pod względem liczby jednostek. Części te pozostają w stosunku do siebie w określonych proporcjach:

  • Kwartyle - podział na 4 części:
    • Kwartyl pierwszy (Q1)
    • Mediana - kwartyl drugi
    • Kwartyl trzeci (Q3)
  • Decyle - podzial na 10 części
  • Percentyle - podział na 100 częsci

Funkcja quantile() oblicza dowolną wartość kwantyli. Argument probs pozwala na zdefyniowanie dowolnych wartości, które mają zostać wyliczone. Argument ten przyjmuje wartości z przedziału od 0 do 1.

5.2.1 Kwartyle

Funkcja quantile() domyślnie zwraca wartośći kwartyli.

kwartyle <- quantile(dane2007$lifeExp)
kwartyle
##       0%      25%      50%      75%     100% 
## 39.61300 57.16025 71.93550 76.41325 82.60300

Kwartyle są także obliczane przez funkcję summary(), która dodatkowo zwraca także wartości minimalną, maksymalną oraz średnią.

5.2.2 Decyle

W poniższym przykładzie seq(0,1,0.1) zwraca sekwencję wartości od 0 do 1 z krokiem co 0.1. Odpowiada to podziałowi danych na 10 równych części.

decyle <- quantile(dane2007$lifeExp, probs = seq(0, 1, 0.1))
decyle
##      0%     10%     20%     30%     40%     50%     60%     70%     80%     90% 
## 39.6130 48.1734 54.1814 59.8127 67.0006 71.9355 73.2048 75.4719 78.2668 79.8223 
##    100% 
## 82.6030

5.2.3 Percentyle

W poniższym przykładzie zbiór zostanie podzielony na 100 równych części.

percentyle <- quantile(dane2007$lifeExp, probs = seq(0, 1, 0.01))
percentyle
##       0%       1%       2%       3%       4%       5%       6%       7% 
## 39.61300 42.20582 42.53488 42.62397 43.21484 43.87365 45.17202 46.16868 
##       8%       9%      10%      11%      12%      13%      14%      15% 
## 46.40872 46.73593 48.17340 48.31575 49.25812 49.86050 50.59354 50.85010 
##      16%      17%      18%      19%      20%      21%      22%      23% 
## 51.56272 52.27352 52.66482 52.93839 54.18140 54.66464 55.33570 56.31703 
##      24%      25%      26%      27%      28%      29%      30%      31% 
## 56.73388 57.16025 58.29080 58.61809 59.44540 59.53433 59.81270 60.65674 
##      32%      33%      34%      35%      36%      37%      38%      39% 
## 62.14448 62.89092 63.74162 64.09770 64.56984 65.20827 65.50910 65.55374 
##      40%      41%      42%      43%      44%      45%      46%      47% 
## 67.00060 69.33982 70.21142 70.48391 70.66256 71.05400 71.31364 71.49309 
##      48%      49%      50%      51%      52%      53%      54%      55% 
## 71.73152 71.78609 71.93550 72.21322 72.32948 72.39438 72.48426 72.55260 
##      56%      57%      58%      59%      60%      61%      62%      63% 
## 72.76860 72.83356 72.89680 72.96936 73.20480 73.42525 73.82092 73.94707 
##      64%      65%      66%      67%      68%      69%      70%      71% 
## 74.03584 74.20670 74.26664 74.59940 74.82932 75.08854 75.47190 75.57092 
##      72%      73%      74%      75%      76%      77%      78%      79% 
## 75.63760 75.74044 76.25926 76.41325 76.44904 77.11414 77.91924 78.15416 
##      80%      81%      82%      83%      84%      85%      86%      87% 
## 78.26680 78.34628 78.49486 78.62669 78.76184 78.86955 79.33718 79.41873 
##      88%      89%      90%      91%      92%      93%      94%      95% 
## 79.44436 79.61971 79.82230 80.04144 80.20176 80.55991 80.65516 80.74060 
##      96%      97%      98%      99%     100% 
## 80.90452 81.16738 81.71108 82.02309 82.60300

5.2.4 Dowolne wartości kwantyli

W poniższym przykładzie zostanie wyliczony 5 oraz 95 percentyl.

q <- quantile(dane2007$lifeExp, probs = c(0.05, 0.95))
q
##       5%      95% 
## 43.87365 80.74060

Obliczyć pierwszy, trzeci kwartyl oraz decyle dla gdpPercap w 2007 roku.

5.2.5 Mediana

Mediana to wartość, która dzieli zbiór danych na 2 równe części. Mediana obliczana jest przez funkcję median().

median_lifeExp <- median(dane2007$lifeExp)
median_lifeExp 
## [1] 71.9355

Obliczyć medianę dla gdpPercap w 2007 roku.

5.2.6 Mediana a średnia arytmetyczna

  • dla rozkładu symetrycznego mediana oraz średnia będą równe.
  • mediana jest lepszą miarą w przypadku rozkładów skośnych.
  • średnia jest bardziej czuła na wartości odstające.
  • średnia jest bardziej przydatna dla małych zbiorów danych.

Podsumowanie: Warto podawać obie wartości.

5.3 Modalna

  • wartość cechy, która w zbiorze danych występuje najczęściej. W R nie ma wbudowanej funkcji do obliczania tej statystyki.

6 Statystyki opisowe: Miary zmienności

6.1 Minimum i maksimum

min_lifeExp <- min(dane2007$lifeExp)
min_lifeExp
## [1] 39.613
max_lifeExp <- max(dane2007$lifeExp)
max_lifeExp
## [1] 82.603
range(dane2007$lifeExp)
## [1] 39.613 82.603

6.2 Rozstęp

  • najprostsza miara zmienności
  • różnica między wartości maksymalną oraz wartością minimalną
  • wrażliwy na wartości odstające
range_lifeExp <- max(dane2007$lifeExp) - min(dane2007$lifeExp)

Uwaga! W R funkcja range() zwraca wektor składający się z dwóch wartości - minimalnej oraz maksymalnej, a nie rostęp (różnicę między tymi wartościami).

Obliczyć rozstęp dla gdpPercap w 2007 roku

6.3 Rozstęp kwartylowy

  • różnica między kwartylem trzecim i kwartylem pierwszym
IQR_lifeExp <- IQR(dane2007$lifeExp)

Obliczyć rozstęp kwartylowy dla gdpPercap w 2007 roku

6.4 Wariancja

  • wariancja oraz odchylenie standardowe mierzą jak daleko dane rozchodzą się od średniej.
var_lifeExp <- var(dane2007$lifeExp)

6.5 Odchylenie standardowe

  • obliczane jako pierwiastek z wariancji
  • obok średniej jest jednym z najczęściej stosowanych parametrów statystycznych:
    • jest obliczane ze wszystkich obserwacji w zbiorze danych
    • im zbiór danych jest bardziej zróżnicowany tym większe odchylenie standardowe.
  • małe odchylenie standardowe - wartości są blisko średniej
  • duże odchylenie standardowe - wartości są daleko od średniej.
sd_lifeExp <- sd(dane2007$lifeExp)
sd_lifeExp 
## [1] 12.07302

Jakie jest odchylenie standardowe dla gdpPercap w 2007 roku

7 Zadanie do samodzielnego wykonania

Wykorzystując dane z pakietu gapminder proszę obliczyć:

  • średnią oczekiwaną długość trwania życia w Afryce.
  • odchylenie standardowe oczekiwanej długości trwania życia w Afryce.
  • 90.percentyl dla oczekiwanej długości trwania życia w Afryce.
  • percentyle dla oczekiwanej długości trwania życia w Afryce.
  • rozstęp międzykwartylowy dla oczekiwanej długości trwania życia w Afryce.
  • Ile wynosiła najmniejsza i największa oczekiwana długość trwania życia w Afryce w roku 1952?
  • Ile wynosiła mediana oczekiwanej długości trwania życia w Afryce w 1952 roku?
  • wartość minimalną oczekiwanej długości trwania życia w Azji
  • medianę oczekiwanej długości trwania życia w Azji
  • 5.percentyl oczekiwanej długości trwania życia w Azji
  • rozstęp dla oczekiwanej długości trwania życia w Azji w roku 2002.
  • Ile wynosiła średnia oczekiwana długość trwania życia w Azji w roku 2002?
  • W jakim zakresie zmieniała się oczekiwana długość trwania życia w 2002 roku w krajach azjatyckich z PKB (gpdPercap) przekraczającym 25000?
  • Oblicz zakres oczekiwanej długości trwania życia w Polsce?
  • O ile wzrosło PKB w Polsce w latach 1952-2007?