Wizualizacja danych

Statystyczne i graficzne podstawy geowizualizacji

Anna Dmowska, dmowska@amu.edu.pl

Dlaczego wizualizujemy dane?

Kwartet Anscombe’a

Kwartet Anscombe’a
Dane 1
Dane 2
Dane 3
Dane 4
x1 y1 x2 y2 x3 y3 x4 y4
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 19 12.50
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89

Kwartet Anscombe’a

  • Cztery zbiory danych mają identyczne statystyki opisowe
Statystyki opisowe dla Kwartetu Anscombe’a
zbiór średnia x odchylenie standardowe x średnia y odchylenie standardowe y korelacja
1 9 3.32 7.5 2.03 0.82
2 9 3.32 7.5 2.03 0.82
3 9 3.32 7.5 2.03 0.82
4 9 3.32 7.5 2.03 0.82

Kwartet Anscombe’a

  • Wizualizacja danych pokazuje jednak, że wartości w czterech zbiorach się od siebie różnią

Wizualizacja danych statystycznych

  • Większość wizualizacji danych służy celom komunikacyjnym: Dysponujemy wiedzą na temat zbioru danych i chcemy tą wiedzę przekazać innym.

    • Jaką historię chcemy opowiedzieć?

Wizualizacja danych statystycznych: dobra prezentacja

Graphical excellence is the well-designed presentation of interesting data—a matter of substance, of statistics, and of design … [It] consists of complex ideas communicated with clarity, precision, and efficiency. … [It] is that which gives to the viewer the greatest number of ideas in the shortest time with the least ink in the smallest space … [It] is nearly always multivariate … And graphical excellence requires telling the truth about the data. (Tufte, 1983, p. 51).

Edward R. Tufte. The Visual Display of Quantitative Information (1983)

Wizualizacja danych statystycznych: dobra prezentacja

  • dobrze zaprojektowana prezentacja interesujących danych - kwestii merytorycznych, statystycznych i projektowych,itd.
  • składa się ze złożonych idei przekazywanych z jasnością, precyzją i efektywnością.
  • daje odbiorcy największą liczbę idei w najkrótszym czasie, przy użyciu najmniejszej ilości atramentu na najmniejszej przestrzeni

Doskonałość graficzna wymaga przekazania prawdy o danych.

Wizualizacja danych statystycznych: Główny cel

  • precyzyjne przekazanie informacji, bez wprowadzania w błąd i zniekształceń

    • dobra prezentacja wizualna wzmacnia przekaz
    • wizualizacja danych musi być estetyczna

Wizualizacja danych statystycznych

Źródło: https://www.darkhorseanalytics.com/blog/data-looks-better-naked

Wizualizacja danych statystycznych

Źródło: https://socviz.co/lookatdata.html#what-makes-bad-figures-bad

Wizualizacja danych statystycznych

“Perfection is achieved not when there is nothing more to add, but when there is nothing left to take away” - Antoine de Saint-Exupery

Udoskonalając wykres, zastanów się, co możesz z niego usunąć, a nie co możesz dodać.

Wizualizacja danych statystycznych

Wykres słupkowy przedstawiający 3 wartości: A = 3, B = 5, C = 4.

Źródło: https://clauswilke.com/dataviz/

Wizualizacja danych statystycznych

  • Wykres a: poprawny wykres słupkowy bez większych wad
  • Wykres b: wykres nieestetyczny: zbyt jaskrawe kolory, zbyt widoczna siatka tła, 3 rodzaje i wielkości czcionki
  • Wykres c: każdy słupek przedstawiony za pomocą własnej skali dla osi y. Nieporównywalne wartości na osi y wprowadzają w błąd - sprawiają wrażenie, że obiekty A, B, C są mają bardziej zbliżone wartości niż jest w rzeczywistości (A = 3, B = 5, C = 4)
  • Wykres d: wykres błędny - brak osi y nie pozwala na ustalenie wartości zmiennych A, B, C.

Wizualizacja danych statystycznych

Źródło: Karl W Broman (bit.ly/graphs2018)

Wizualizacja danych statystycznych

  • W wykresie słupkowym oś musi zaczynać się od 0.

Wizualizacja danych statystycznych

  • Nie sortuj alfabetycznie.

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych

  • Liczba państw wg kontynentów

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych

Źródło: https://clauswilke.com/dataviz/

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych

Źródło: Karl W Broman (bit.ly/graphs2018)

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych

  • 5 państw z nawyższym PKB

Wizualizacja danych statystycznych

Źródło: https://clauswilke.com/dataviz/

Wizualizacja danych statystycznych

  • Główny cel: precyzyjne przekazanie informacji, bez wprowadzania w błąd.

  • Wizualizacja = nauka + sztuka

    • Estetyka wykresów jest bardzo ważna

Wizualizacja danych statystycznych

  • Dobra prezentacja wizualna wzmacnia przekaz i ułatwia interpretację.

    • Pokazanie jak najwięcej informacji, starając się równocześnie nie zaciemniać przekazu.
    • Udoskonalając wykres, najlepiej zastanowić się, co można z niego usunąć, a nie co można dodać.
    • Jeśli na wykresie musimy dodać etykiety z wartościami => należy poszukać innej formy wizualizacji.

Wizualizacja danych statystycznych

  • Porównania

    • Porównywane elementy należy umieścić obok siebie.
    • Aby ułatwić porównania należy użyć wspólnych zakresów osi.
    • Aby ułatwić porównania wykresy należy wyrównać w pionie (szczególnie w przypadku rozkładu danych).

Wizualizacja danych statystycznych

  • Wykresy słupkowe

    • Oś wartości musi zaczynać się od 0.
    • Nie należy sortować kategorii alfabetycznie. Sortuj wg istotnych zmiennych.
    • Nie wszystkie kategorie można sortować (nie można zmieniać kolejności kategorii w skali porządkowej).

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych

Wizualizacja danych statystycznych: Złe praktyki

Źródła informacji

Dobre praktyki

Dodatkowe źródła informacji