Wizualizacja danych

Statystyka i wizualizacja danych, Geoinformacja, II rok

Anna Dmowska (dmowska@amu.edu.pl), Jakub Nowosad (nowosad@amu.edu.pl)

Dlaczego wizualizujemy dane?

Kwartet Anscombe’a

Kwartet Anscombe’a
Dane 1
Dane 2
Dane 3
Dane 4
x1 y1 x2 y2 x3 y3 x4 y4
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 19 12.50
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89

Kwartet Anscombe’a

  • Cztery zbiory danych mają identyczne statystyki opisowe
Statystyki opisowe dla Kwartetu Anscombe’a
zbiór średnia x odchylenie standardowe x średnia y odchylenie standardowe y korelacja
1 9 3.32 7.5 2.03 0.82
2 9 3.32 7.5 2.03 0.82
3 9 3.32 7.5 2.03 0.82
4 9 3.32 7.5 2.03 0.82

Kwartet Anscombe’a

  • Wizualizacja danych pokazuje jednak, że wartości w czterech zbiorach się od siebie różnią

Wizualizacja danych statystycznych

  • Większość wizualizacji danych służy celom komunikacyjnym: Dysponujemy wiedzą na temat zbioru danych i chcemy tą wiedzę przekazać innym.

    • Jaką historię chcemy opowiedzieć?

Wizualizacja danych statystycznych: dobra prezentacja

Graphical excellence is the well-designed presentation of interesting data—a matter of substance, of statistics, and of design … [It] consists of complex ideas communicated with clarity, precision, and efficiency. … [It] is that which gives to the viewer the greatest number of ideas in the shortest time with the least ink in the smallest space … [It] is nearly always multivariate … And graphical excellence requires telling the truth about the data. (Tufte, 1983, p. 51).

Edward R. Tufte. The Visual Display of Quantitative Information (1983)

Wizualizacja danych statystycznych: dobra prezentacja

  • dobrze zaprojektowana prezentacja interesujących danych - kwestii merytorycznych, statystycznych i projektowych,itd.
  • składa się ze złożonych idei przekazywanych z jasnością, precyzją i efektywnością
  • daje odbiorcy największą liczbę idei w najkrótszym czasie, przy użyciu najmniejszej ilości atramentu na najmniejszej przestrzeni

Doskonałość graficzna wymaga przekazania prawdy o danych.

Wizualizacja danych statystycznych: Główny cel

  • precyzyjne przekazanie informacji, bez wprowadzania w błąd i zniekształceń

    • dobra prezentacja wizualna wzmacnia przekaz
    • wizualizacja danych musi być estetyczna

Wizualizacja danych statystycznych

Źródło: https://www.darkhorseanalytics.com/blog/data-looks-better-naked

Wizualizacja danych statystycznych

Źródło: https://socviz.co/lookatdata.html#what-makes-bad-figures-bad

Wizualizacja danych statystycznych

“Perfection is achieved not when there is nothing more to add, but when there is nothing left to take away” - Antoine de Saint-Exupery

Udoskonalając wykres, zastanów się, co możesz z niego usunąć, a nie co możesz dodać.

Typy wykresów

Typy wykresów

Directory of visualizations (jedna z możliwych klasyfikacji):

  • Ilości
  • Rozkłady
  • Proporcje
  • Relacje x~y
  • Niepewność
  • Dane przestrzenne

Typy wykresów: Źródła informacji

Typy wykresów: Źródła informacji

Typy wykresów: Ilości (2 zmienne)

  • Wiuzalizacja wartości liczbowych dla określonych kategorii
  • Wykresy słupkowe
  • Wykresy kropkowe

Typy wykresów: Wykres słupkowy

  • Najpopularniejsza forma wizualizacji wartości danych ilościowych wg kategorii.
  • Wykres słupkowy pozwala na wizualizację danych ilościowych według kategorii - np. PKB na osobę w poszczególnych państwach lub liczbę ludności w różnych miastach.

Typy wykresów: Wykres słupkowy

  • Wysokość słupka odpowiada wartości liczbowej przypisanej do danej kategorii.
  • Na wykresie słupkowym oś przedstawiająca wartości zmiennej musi zaczynać się od 0.

Typy wykresów: Wykres słupkowy

  • Słupki mogą być ułożone poziomo lub pionowo.

  • Słupki można posortować zgodnie z ich wielkością

    • Jeśli kategorie mają ustalony porządek (np. kolejne lata), kategorie wiekowe - słupków nie można sortować według wielkości

Typy wykresów: Wykresy kropkowe

  • Na wykresie kropkowym kropki umieszczane są w odpowiednim miejscu na osi x wskazując wielkość zmiennej.
  • Wykres kropkowy (w przeciwieństwie do wykresu słupkowego) nie musi zaczynać się od 0. Różnice między poszczególnymi kategoriami są bardziej widoczne na wykresie kropkowym.

Typy wykresów: Wykresy kropkowe

  • Kategorie powinne być posortowane według wielkości zmiennej. Nigdy nie sortuj alfabetycznie.

Typy wykresów: Rozkłady

Typy wykresów: Rozkłady

  • Histogram
  • Wykres gęstości

Typy wykresów: Histogram

  • Graficzny sposób przedstawiania rozkładu liczebności dla wybranej zmiennej.
  • Wykres został poraz pierwszy wprowadzony przez Pearsona w 1895 roku.

Typy wykresów: Histogram

  • Wykres powstaje w dwóch etapach:

    • Zakres wartości danych dzielony jest na rozłączne przedziały o równej szerokości (oś x),
    • Dla każdego przedziału zlicza się obserwacje (oś y).
Grupa wiekowa Liczebność
(30,40] 1
(40,50] 18
(50,60] 24
(60,70] 16
(70,80] 70
(80,90] 13

Typy wykresów: Histogram

  • Dobór przedziałów jest istotny. Różne przedziały mogą pokazać różną informację.

Typy wykresów: Rozkłady

Typy wykresów: Wykres gęstości

  • Wykres gęstości obrazują rozkład prawdopodobieństwa danych.
  • Mają tendencję do generowania danych, tam gdzie ich nie ma, szczególnie w ogonach.

Typy wykresów: Wykres gęstości

  • Wykres gęstości będzie lepszym wyborem niż histogram, gdy chcemy zwizualizować więcej niż jeden rozkład jednocześnie.

Typy wykresów: Porównywanie rozkładów dla kilku zmiennych

Typy wykresów: Wykres pudełkowy

Obrazuje podstawowe statystyki opisowe oraz wartości odstające :

  • dolny kwartyl - dolna krawędz pudełka
  • mediana - linia środkowa
  • górny kwartyl - górna krawędź pudełka
  • linie pionowe oznaczają najbardziej ekstremalne wartości (1,5IQR ponad krawędź pudełka, dolna to 1,5IQR poniżej wartości dolnej krawędzi pudełka)
  • punkty oznaczają wartości odstające

Typy wykresów: Wykres pudełkowy

Typy wykresów: Wykres pudełkowy

Typy wykresów: Wykres grzbietowy

Typy wykresów: Proporcje

Wykorzystywane do wizualizacji w jaki sposób jakaś grupa lub inna wielkość dzieli się na pojedeyńcze elementy, z których każdy reprezentuje pewną proporcję w stosunku do całości.

  • proporcja kobiet i mężczyzn w liczbie ludności
  • odsetek osób głosujących na różne partie polityczne w wyborach
  • udziały rynkowe firm

Typy wykresów: Proporcje

Typy wykresów: Proporcje

Typy wykresów: Proporcje

Kołowy Słupkowy skumulowany Słupkowy zgrupowany
Wyraźnie wizualizuje dane jako proporcje całości TAK TAK NIE
Umożliwia łatwe wizualne porównanie względnych proporcji NIE NIE TAK
Pokreśla wizualnie ułamki 1/4, 1/3, 1/2 TAK NIE NIE
Dobrze się spradza gdy całość jest rozbita na wiele części NIE NIE TAK

Typy wykresów: Proporcje

Liczba państw w 2007 roku wg kontynentów - przykład wykorzystania wykresu do wizualizacji częstości

Typy wykresów: wykres kołowy

Typy wykresów: wykres kołowy

Typy wykresów: Relacje

Typy wykresów: Relacje

  • Wykres rozrzutu
  • Wykres bąbelkowy
  • Wykres liniowy

Typy wykresów: Wykres rozrzutu

  • Wykres rorzutu pokazuje relacje jednej zmiennej ilościowej względem innej zmiennej ilościowej

Typy wykresów: Wykres rozrzutu

Typy wykresów: Wykres rozrzutu

  • Wykres rozrzutu pozwala na uwzględnienie trzeciej zmiennej.
  • W przypadku, gdy trzecia zmienna jest jakościowa można użyć kolorów lub kształtów

Typy wykresów: Relacje - wykres rozrzutu

  • W przypadku, gdy trzecia zmienna jest ilościowa można użyć kolorów lub wielkości

Typy wykresów: Wykres bąbelkowy

  • Wykres bąbelkowy stanowi odmianę wykresu rozrzutu. Dodatkowo za pomocą wielkości przedstawia trzecią zmienną.

Typy wykresów: Wykres liniowy

Typy wykresów: Wykres liniowy

Typy wykresów: Dane przestrzenne

Typy wykresów: Dane przestrzenne

Typy wykresów: Dane przestrzenne

Źródło: https://clauswilke.com/dataviz/geospatial-data.html

Typy wykresów: Dane przestrzenne

Źródło: https://clauswilke.com/dataviz/geospatial-data.html

Typy wykresów: Dane przestrzenne

Źródło: https://clauswilke.com/dataviz/geospatial-data.html

Typy wykresów: Dane przestrzenne

Źródło: https://clauswilke.com/dataviz/geospatial-data.html

Podsumowanie

Podstawowe typy wykresów:

  • histogram
  • wykres pudełkowy
  • wykres słupkowy
  • wykres liniowy
  • wykres rozrzutu