| Skala | Moda | Mediana | Średnia |
|---|---|---|---|
| Nominalna | X | ||
| Porządkowa | X | X | |
| Interwałowa | X | X | X |
| Ilorazowa | X? | X | X |
Statystyczne i graficzne podstawy geowizualizacji
jedna z podstawowych dziedzin statystyki, która zajmuje się zbieraniem, organizacją, analizowaniem oraz prezentacją danych statystycznych w celu opisania oraz podsumowania ich charakterystyk.
Cel:
Statystykę opisową stosuje się zazwyczaj jako pierwszy i podstawowy krok w analizie zebranych danych.
Źródło: https://pogotowiestatystyczne.pl/slowniki/statystyka-opisowa/
3. Tworzenie tabel dla zmiennych
zestawienie tabelaryczne statystyk pozwala w przejrzysty sposób ująć wszystkie najważniejsze informacje dotyczące danej analizy.
tabele sprawdzają się w przypadku potrzeby dokładnego raportowania wartości różnych statystyk.
nieczytelne w przypadku dużych zbiorów danych.
Źródło: https://pogotowiestatystyczne.pl/slowniki/statystyka-opisowa/
4. Wizualizacja danych
Źródło: https://pogotowiestatystyczne.pl/slowniki/statystyka-opisowa/
Parametry statystyczne to liczby służące do syntetycznego opisu struktury zbiorowości statystycznej.

Miary położenia określają przeciętny poziom wartości cecy statystycznej oraz umiejscowienie typowych wartości cechy statystycznej na osi liczbowej.
Miary klasyczne to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje.
Miary pozycyjne to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej.
Wśród miar położenia można wyróżnić miary przeciętne lub inaczej miary tendencji centralnej
charakteryzują średni lub typowy poziom wartości zmiennej; mówią zatem o przeciętnym poziomie rozważanej zmiennej.

| Średnia | Opis |
|---|---|
| Średnia arytmetyczna | najczęściej wykorzystywana miara położenia |
| Średnia harmoniczna | stosowana, gdy wartości cechy statystycznej podawane są w przeliczeniu na stałą jednostkę innej zmiennej, np. prędkość w km/h, gęstość zaludnienia w osobach/km2, spożycie w kg/osobę, itp. |
| Średnia geometryczna | stosowana gdy zjawiska są ujmowane dynamicznie, np. średnie tempo zmian; często odpowiednie dla wartości procentowych czy ułamkowych |
Dla każdego konkretnego przypadku powinno się obliczać tylko jedną średnią, bo tylko jedna z nich jest odpowiednia dla danej cechy statystycznej, a pozostałe nie mają sensu
\[ \bar{x}=\frac{1}{n}\sum_{i=1}^n x_i=\frac{x_1+x_2+\ldots+x_n}{n} \]
Trzy scenariusze, w których średnie wynagrodzenie w firmie zatrudniającej 10 osób wynosi 5000 zł.
Scenariusz 1
\[\bar{x}_A = \frac{10*5000}{10} = \frac{50000}{10} = 5000\] Scenariusz 2
\[\bar{x}_A = \frac{500 + 8*1500 + 37500}{10} = \frac{50000}{10} = 5000\] Scenariusz 3
\[\bar{x}_A = \frac{5*3000 + 5*7000}{10} = \frac{50000}{10} = 5000\] Źródło: Blog statystyczny https://statystyczny.pl/srednio-na-jeza-czyli-srednia-arytmetyczna/
\[\bar{x}_H = \frac{n}{\sum\limits_{i=1}^n \frac1{x_i}} = \frac{n}{\frac1{x_1} + \frac1{x_2} + \cdots + \frac1{x_n}}\]
Przykład:
Jaka jest średnia prędkość wody w tej rzece?
Średnia arytmetyczna: 4.6 - błędny wynik
Średnia harmoniczna: 4.174
Sprawdzenie:
\[\bar{x}_G = \sqrt[n]{\prod_{i=1}^n x_i} = \sqrt[n]{x_1 \cdot x_2 \cdot \ldots \cdot x_n}\]
Oczekiwana długość życia w Polsce (lata 1997, 2002, 2007): 72.75, 74.67, 75.563
\[x_1 = \frac{74.67}{72.75} = 1.026392 \]
\[x_1 = \frac{75.563}{74.67} = 1.011959 \]
\[\bar{x}_G = \sqrt{1.026392 * 1.011959} = 1.01915\]
Gdyby w tym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy wynik:
\[\frac{(1.026392 + 1.011959)}{2} = 1.019176\]
Wynikałoby z tego (błędnie), że w roku 2007 oczekiwana długość życia w Polsce powinna wynosić:
\[72.75 * 1.019176 * 1.019176 = 75.56686\]
W rzeczywistości ta wartość wynosiła:
\[72.75 * 1.01915 * 1.01915 = 75.563\]
\[ \bar{x}_w = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} \]
Miary pozycyjne to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej
Określana jako: wartość modalna, moda, dominanta, wartość najczęstsza
wartość cechy statystycznej, która w danym rozkładzie empirycznym występuje najczęściej
Kwantyle to wartości cechy, które dzielą analizowany zbiór danych na określone części pod względem liczby jednostek. Części te pozostają w stosunku do siebie w określonych proporcjach:
Kwartyle - podział na 4 części:
Decyle - podzial na 10 części
Percentyle - podział na 100 częsci
Kwartyle - podział na 4 części:

W przypadku nieparzystej liczby obserwacji mediana jest równa wartości środkowej:
\[Me = X_{\frac{n+1}{2}}\]
W przypadku parzystej liczby obserwacji nie ma jednej wartości środkowej i mediana jest obliczana z dwóch środkowych wartości:
\[Me = \frac{1}{2} (x_{\lfloor n/2\rfloor} + x_{\lceil (n+1)/2\rceil})\]
Mediana jest niezależna od wartości skrajnych
Medianę można stosować do zmiennych o charakterze porządkowym.
Medianę stosuje się bardzo często równolegle ze średnią arytmetyczną - warto zwracać uwagę na różnice między tymi dwoma wartościami i za każdym razem zastanowić się, z czego one wynikają.
Trzy scenariusze, w których średnie wynagrodzenie w firmie zatrudniającej 10 osób wynosi 5000 zł. Jaka będzie wartość mediany?
Scenariusz 1: Każdy pracowik zarabia 5000 zł
Mediana: 5000 zł
Scenariusz 2: Jeden pracownik zarabia 500, 8 pracowików 1500 zł, i jeden 37500 zł
Zarobki: 500, 1500, 1500,1500,1500,1500,1500,1500,1500,37500
Mediana: (1500 + 1500)/2 = 1500 zł
Scenariusz 3: 5 pracowików zarabia 3000 zł i 5 pracowników zarabia 7000 zł
Zarobki: 3000, 3000, 3000, 3000, 3000, 7000, 7000, 7000, 7000, 7000
Mediana: (3000 + 7000)/2 = 5000 zł
Źródło: Blog statystyczny https://statystyczny.pl/srednio-na-jeza-czyli-srednia-arytmetyczna/
| Skala | Moda | Mediana | Średnia |
|---|---|---|---|
| Nominalna | X | ||
| Porządkowa | X | X | |
| Interwałowa | X | X | X |
| Ilorazowa | X? | X | X |
Na przykład, obliczanie średniej arytmetycznej z ocen (skala porządkowa) jest statystycznie niepoprawne.
Miary zmienności (rozproszenia, dyspersji) opisują rozrzut wartości cechy statystycznej w populacji wokół wartości przeciętnej.
Charakteryzują one stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy
\[\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2 = \frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2}{n}\]
Wariancja i odchylenie standardowe to wśród statystyk opisowych wyjątki - inne obliczenia wykonuje się w zależności od tego czy dysponujemy danymi z całej populacji, czy też tylko z próby.
W przypadku, gdy posiadamy tylko wartości próby należy użyć \(n - 1\) zamiast \(n\).
Wszystkie inne statystyki opisowe liczy się tak samo niezależnie czy dysponujemy danymi z całej populacji, czy też tylko z próby.
Określa, o ile średnio odchylają się wartości badanej cechy od średniej arytmetycznej.
Obok średniej jest jednym z najczęściej stosowanych parametrów statystycznych:
Małe odchylenie standardowe - wartości są blisko średniej.
Duże odchylenie standardowe - wartości są daleko od średniej.
\[s = \sqrt{\sigma^2}\]
\[s = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2} = \sqrt{\frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2}{n-1}}\]
Trzy scenariusze, w których średnie wynagrodzenie w firmie zatrudniającej 10 osób wynosi 5000 zł. Jaka będzie wartość odchylenia standardowego?
Scenariusz 1: Każdy pracowik zarabia 5000 zł
Scenariusz 2: Jeden pracownik zarabia 500, 8 pracowików 1500 zł, i jeden 37500 zł
Scenariusz 3: 5 pracowików zarabia 3000 zł i 5 pracowników zarabia 7000 zł
Źródło: Blog statystyczny https://statystyczny.pl/srednio-na-jeza-czyli-srednia-arytmetyczna/
Po obliczeniu odchylenia standardowego i średniej arytmetycznej, można również wyliczyć sobie tzw. typowy obszar zmienności:
\[\bar{x} - s < x_{typ} < \bar{x} + s\]
Powyższa relacja dotyczy tylko zmiennych o rozkładzie normalnym!
\[R = x_{max} - x_{min}\]
\[IQR = Q3 - Q1\]
Odchylenie standardowe jest najczęściej stosowane do opisania odchylenia wartości cechy od średniej arytmetycznej.
Natomiast odchylenie ćwiartkowe jest miarą zmienności najczęściej używaną w parze z medianą.
Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko części jednostek pozostałej po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych.
Odchylenie ćwiartkowe (Q) jest połową różnicy między trzecim, a pierwszym kwartylem.
\[Q = \frac{(Q_3 - Q_1)}{2}\]
Współczynnik zmienności odchylenia standardowego ( \(V_s\) ):
\[V_s = \frac{s}{\bar{x}}\] , gdy \(\bar{x} > 0\)
Odchylenie ćwiartkowe
\[V_Q = \frac{Q}{Me}\]
, gdy \(Me > 0\)
oraz
\[V_{Q_1,Q_3}=\frac{Q_3-Q_1}{Q_3+Q_1}\]
| Skala | Rozstęp | Percentyle | Odchylenie.standardowe |
|---|---|---|---|
| Nominalna | |||
| Porządkowa | X | ||
| Interwałowa | X | X | X? |
| Ilorazowa | X | X | X |
Asymetrię rozkładu określa się za pomocą współczynnika skośności.
Miary koncentracji opisują koncentrację wartości cechy wokół średniej. Jedną z miar koncentracji jest kurtoza.
K > 0 - Im wyższa kurtoza, tym bardziej wysmukła jest krzywa liczebności,a zatem większa koncentracja wokół średniej (leptokurtyczny).
K < 0 - rozkład bardziej spłaszczony niż rozkład normalny (platykurtyczny).
Miary położenia
Miary tendencji centralnej:
średnia arytmetyczna
mediana
moda
Kwartyle
Miary zmienności
rozstęp
odchylenie standardowe
współczynnik zmienności - iloraz bezwzględnej miary zmienności cechy (np. odchylenia standardowego) i średniej wartości tej cechy.
Miary asymetrii: współczynnik skośności
Miary koncentracji: kurtoza