Wizualizacja danych: Typy wykresów

Statystyczne i graficzne podstawy geowizualizacji

Anna Dmowska, dmowska@amu.edu.pl

Typy wykresów

Directory of visualizations (jedna z możliwych klasyfikacji):

  • Ilości
  • Rozkłady
  • Proporcje
  • Relacje x~y
  • Niepewność
  • Dane przestrzenne

Typy wykresów: Źródła informacji

Typy wykresów: Źródła informacji

Typy wykresów: Ilości

  • Wiuzalizacja wartości liczbowych dla określonych kategorii

Typy wykresów: Ilości (2 zmienne)

  • Wykresy słupkowe
  • Wykresy kropkowe

Typy wykresów: Ilości (3 zmienne)

  • Wykresy słupkowe zgrupowane (grouped bars)
  • Wykresy słupkowe skumulowane (stacked bars)
  • Mapa cieplna (Heatmap)

Typy wykresów: Wykres słupkowy

  • Najpopularniejsza forma wizualizacji wartości danych ilościowych wg kategorii.
  • Wykres słupkowy pozwala na wizualizację danych ilościowych według kategorii - np. PKB na osobę w poszczególnych państwach lub liczbę ludności w różnych miastach.

Typy wykresów: Wykres słupkowy

  • Wysokość słupka odpowiada wartości liczbowej przypisanej do danej kategorii.
  • Na wykresie słupkowym oś przedstawiająca wartości zmiennej musi zaczynać się od 0.

Typy wykresów: Wykres słupkowy

  • Słupki mogą być ułożone poziomo lub pionowo.

  • Słupki można posortować zgodnie z ich wielkością

    • Jeśli kategorie mają ustalony porządek (np. kolejne lata), kategorie wiekowe - słupków nie można sortować według wielkości

Typy wykresów: Wykres słupkowy zgrupowany

  • Wykres słupkowy zgrupowany jest wykorzystywany do przedstawienia w jaki sposób wartości zmiennej ilościowej zmieniają się według 2 zmiennych jakościowych (np. PKB w podziale na lata i kraje).
  • W zgupowanym wykresie słupkowym tworzymy grupę słupków na każdej pozycji osi x określonej przez jedną zmienną jakościową (np. kraje), a następnie w obrębie każdej grupy rysujemy słupki zgodnie z inną zmienną jakościową (np. lata)

Typy wykresów: Wykres słupkowy zgrupowany

Typy wykresów: Wykres słupkowy zgrupowany

  • Alternatywą dla wykresu słupkowego zgrupowanego jest zastosowanie wykresu wielopanelowego.

Typy wykresów: Wykres słupkowy skumulowany

Wykres słupkowy skumulowany stosowany jest gdy sumaryczna wartość zmiennej ma także znaczenie (np. liczba ludności kontynentu w podziale na subregiony).

Typy wykresów: Wykresy kropkowe

  • Na wykresie kropkowym kropki umieszczane są w odpowiednim miejscu na osi x wskazując wielkość zmiennej.
  • Wykres kropkowy (w przeciwieństwie do wykresu słupkowego) nie musi zaczynać się od 0. Różnice między poszczególnymi kategoriami są bardziej widoczne na wykresie kropkowym.

Typy wykresów: Wykresy kropkowe

  • Kategorie powinne być posortowane według wielkości zmiennej. Nigdy nie sortuj alfabetycznie.

Typy wykresów: Heatmapy

  • Heatmapy (mapa cieplna) odwzorowuje wartości danych za pomocą kolorów.
  • Na poniższym wykresie oś x przedstawia kolejne lata, oś y państwa. Kolor wskazuje oczekiwaną długość trwania życia. Heatmapy (3 zmienne)

Typy wykresów: Rozkłady

Typy wykresów: Rozkłady

  • Histogram
  • Wykres gęstości
  • Dystrybuanta
  • Wykres kwantyl-kwantyl

Typy wykresów: Histogram

  • Graficzny sposób przedstawiania rozkładu liczebności dla wybranej zmiennej.
  • Wykres został poraz pierwszy wprowadzony przez Pearsona w 1895 roku.

Typy wykresów: Histogram

  • Wykres powstaje w dwóch etapach:

    • Zakres wartości danych dzielony jest na rozłączne przedziały o równej szerokości (oś x),
    • Dla każdego przedziału zlicza się obserwacje (oś y).
Grupa wiekowa Liczebność
(30,40] 1
(40,50] 18
(50,60] 24
(60,70] 16
(70,80] 70
(80,90] 13

Typy wykresów: Histogram

  • Dobór przedziałów jest istotny. Różne przedziały mogą pokazać różną informację.

Typy wykresów: Rozkłady

Typy wykresów: Wykres gęstości

  • Wykres gęstości obrazują rozkład prawdopodobieństwa danych.
  • Mają tendencję do generowania danych, tam gdzie ich nie ma, szczególnie w ogonach.

Typy wykresów: Wykres gęstości

  • Wykres gęstości będzie lepszym wyborem niż histogram, gdy chcemy zwizualizować więcej niż jeden rozkład jednocześnie.

Typy wykresów: Dystrybuanta

Dystrybuanta (ang. cumulative distribution function - CDF)

  • Na osi x mamy oczekiwaną długość trwania życia (w latach), a na osi y skumulowane prawdopodobieństwo określające jaki procent krajów ma oczekiwaną długość trwania życia mniejszą lub równą danej wartości.

Jak konstruuje sie empiryczną dystrybuantę (ECDF)?

  1. Dla 10 krajów mamy dane dotyczące oczekiwanej długości trwania życia.

    • Dane: 70.1, 60.5, 82.0, 72.8, 80.2, 74.3, 65.2, 76.0, 78.5, 85.1
  2. Sortujemy wartości rosnąco:

    • Dane: 60.5, 65.2, 70.1, 72.8, 74.3, 76.0, 78.5, 80.2, 82.0, 85.1

Jak konstruuje sie empiryczną dystrybuantę (ECDF)?

  1. Dla każdej wartości obliczamy

\[ \text{ECDF}(x_i) = \frac{\text{liczba wartości } \leq x_i}{\text{liczba wszystkich wartości}} \]

Wartości ECDF rosną skokowo od 0 do 1.

Dlugosc_zycia ECDF
60.5 0.1
65.2 0.2
70.1 0.3
72.8 0.4
74.3 0.5
76.0 0.6
78.5 0.7
80.2 0.8
82.0 0.9
85.1 1.0

Jak konstruuje sie empiryczną dystrybuantę (ECDF)?

Typy wykresów: Wykres kwantyl-kwantyl

  • Wykres kwantylowy (QQ-plot) jest wykresem prawdopodobieństwa, który porównuje (w graficzny sposób) 2 rozkłady prawdopodobieństwa przez wykreślenie ich kwantyli na przeciwnych osiach (x,y). Jeśli 2 porównywane rozkłady są podobne, punkty na wykresie kwantylowym ułożą się wzdłuż linii y=x

Typy wykresów: Porównywanie rozkładów dla kilku zmiennych

Typy wykresów: Wykres pudełkowy

Obrazuje podstawowe statystyki opisowe oraz wartości odstające :

  • dolny kwartyl - dolna krawędz pudełka
  • mediana - linia środkowa
  • górny kwartyl - górna krawędź pudełka
  • linie pionowe oznaczają najbardziej ekstremalne wartości (1,5IQR ponad krawędź pudełka, dolna to 1,5IQR poniżej wartości dolnej krawędzi pudełka)
  • punkty oznaczają wartości odstające

Typy wykresów: Wykres pudełkowy

Typy wykresów: Wykres pudełkowy

Typy wykresów: Wykres skrzypcowy

  • Kształt: pokazuje gęstość rozkładu — im szerszy, tym więcej danych w tym zakresie

    • Z technicznego punktu widzenia to wykres gęstości obrócony o 90stopni a następnie poddany lustrzanemu odbiciu
  • Szerokość wykresu w danym miejscu pokazuje, gdzie dane są skupione.

  • Umożliwia identyfikacje rozkładów wielomodalnych, które nie byłyby widoczne na wykresie pudełkowym.

Typy wykresów: Wykres grzbietowy

Typy wykresów: Proporcje

Wykorzystywane do wizualizacji w jaki sposób jakaś grupa lub inna wielkość dzieli się na pojedeyńcze elementy, z których każdy reprezentuje pewną proporcję w stosunku do całości.

  • proporcja kobiet i mężczyzn w liczbie ludności
  • odsetek osób głosujących na różne partie polityczne w wyborach
  • udziały rynkowe firm

Typy wykresów: Proporcje

Typy wykresów: Proporcje

Typy wykresów: Proporcje

Kołowy Słupkowy skumulowany Słupkowy zgrupowany
Wyraźnie wizualizuje dane jako proporcje całości TAK TAK NIE
Umożliwia łatwe wizualne porównanie względnych proporcji NIE NIE TAK
Pokreśla wizualnie ułamki 1/4, 1/3, 1/2 TAK NIE NIE
Dobrze się spradza gdy całość jest rozbita na wiele części NIE NIE TAK

Typy wykresów: Proporcje

Liczba państw w 2007 roku wg kontynentów - przykład wykorzystania wykresu do wizualizacji częstości

Typy wykresów: wykres kołowy

Typy wykresów: wykres kołowy

Typy wykresów: Wykres słupkowy skumulowany dla 3 zmiennych

Typy wykresów: Tree map

  • Prostokąt dzielony jest na mniejsze prostokąty, które reprezentują proporcje. Prostokąty są wielokrotnie zagnieżdzane wewnątrz siebie.

    • Dzielimy prostokąt na kontynenty (powierzchnia odpowiada odsetkowi liczby ludności kontynentu)
    • Każdy kontynent dzielimy na państwa (powierzchnia odpowiada odetkowi liczby ludności kraju w stosunku do liczby ludności na kontynencie)
    • Kolor oznacza grupę zamożności

Typy wykresów: Tree map

Oczekiwana długość trwania życia w Afryce w podziale na regiony. Wielkość prostokąta zależna od liczby ludności, a kolor oznacza oczekiwaną długość trwania życia.

Typy wykresów: Relacje

Typy wykresów: Relacje

  • Wykres rozrzutu
  • Wykres bąbelkowy
  • Wykres liniowy

Typy wykresów: Wykres rozrzutu

  • Wykres rorzutu pokazuje relacje jednej zmiennej ilościowej względem innej zmiennej ilościowej

Typy wykresów: Wykres rozrzutu

Typy wykresów: Wykres rozrzutu

  • Wykres rozrzutu pozwala na uwzględnienie trzeciej zmiennej.
  • W przypadku, gdy trzecia zmienna jest jakościowa można użyć kolorów lub kształtów.

Typy wykresów: Wykres rozrzutu

  • Wykres rozrzutu pozwala na uwzględnienie trzeciej zmiennej.
  • W przypadku, gdy trzecia zmienna jest jakościowa można użyć kolorów lub kształtów

Typy wykresów: Wykres rozrzutu

  • W przypadku, gdy trzecia zmienna jest ilościowa można użyć kolorów lub wielkości.

Typy wykresów: Wykres rozrzutu

  • W przypadku, gdy trzecia zmienna jest ilościowa można użyć kolorów lub wielkości.

Typy wykresów: Wykres bąbelkowy

  • Wykres bąbelkowy stanowi odmianę wykresu rozrzutu. Dodatkowo za pomocą wielkości przedstawia trzecią zmienną.

Typy wykresów: Wykres liniowy

Typy wykresów: Wykres liniowy

Typy wykresów: Wykres nachyleniowy

  • Wykres nachyleniowy (slopegraph) - pomiary nanoszone są w postaci punktów ułożonych w dwie (lub więcej) kolumny. Punkty dla odpowiadających sobie obserwacji są łączone liniami. Nachylenie każdej linii podkreśla wielkość i kierunek zmian (wzrost, spadek).

Typy wykresów: Korelogram

  • Pokazuje zależności dla więcej niż 2 zmiennych
  • Funkcja corrplot() z pakietu corrplot

Typy wykresów: Korelogram

  • Funkcja corrplot() z pakietu corrplot

Typy wykresów: Korelogram

  • Funkcja corrplot() z pakietu corrplot

Typy wykresów: Korelogram

  • Funkcja corrplot() z pakietu corrplot

Typy wykresów: Korelogram

  • Funckja scatterplotMatrix() z pakietu car

Typy wykresów: Korelogram

  • Funkcja chart.Correlation() z pakietu PerformanceAnalytics

Typy wykresów: Korelogram

  • Funkcja pairs.panels() z pakietu psych

Typy wykresów: Korelogram

  • Funkcja ggcorr() i ggpairs() z pakietu GGally

Typy wykresów: Korelogram

  • Funkcja ggcorr() i ggpairs() z pakietu GGally

Typy wykresów: Niepewność

Typy wykresów: Niepewność

Typy wykresów: Dane przestrzenne

Typy wykresów: Dane przestrzenne

Typy wykresów: Dane przestrzenne

Źródło: https://clauswilke.com/dataviz/geospatial-data.html

Typy wykresów: Dane przestrzenne

Źródło: https://clauswilke.com/dataviz/geospatial-data.html

Typy wykresów: Dane przestrzenne

Źródło: https://clauswilke.com/dataviz/geospatial-data.html

Typy wykresów: Dane przestrzenne

Źródło: https://clauswilke.com/dataviz/geospatial-data.html