Wizualizacja danych
Statystyka i wizualizacja danych, Geoinformacja, II rok
Anna Dmowska (dmowska@amu.edu.pl), Jakub Nowosad (nowosad@amu.edu.pl)
Wizualizacja danych: Główny cel
Wizualizacja danych
![]()
Źródło: https://www.darkhorseanalytics.com/blog/data-looks-better-naked
Wizualizacja danych
![]()
Źródło: https://socviz.co/lookatdata.html#what-makes-bad-figures-bad
Wizualizacja danych
“Perfection is achieved not when there is nothing more to add, but when there is nothing left to take away” - Antoine de Saint-Exupery
Udoskonalając wykres, zastanów się, co możesz z niego usunąć, a nie co możesz dodać.
Wizualizacja danych
Wizualizacja danych polega na systematycznym i logicznym przekształceniu wartości danych na elementy graficzne (wizualne) składające się na ostateczną grafikę.
Elementy graficzne można opisać za pomocą różnych mierzalnych cech:
- położenie,
- kształt,
- rozmiar,
- kolor.
Cechy te określamy mianem aspektów estetycznych lub estetyki (ang. aesthetics).
Aspekty estetyczne stosowana w wizualizacji danych
- Estetyka określa każdy aspekt danego elementu graficznego.
Pojęcie skali w wizualizacji
Aby powiązać wartości danych z aspektami estetycznymi musimy określić, które wartości danych odpowiadają konkretnym wartościom estetycznym.
Skala definiuje unikalne odwzorowanie między danymi a estetyką.
Pojęcie skali w wizualizacji - przykład
Zbiór danych to wektor 5 wartości: 1,2,3,4,5. W jaki sposób możemy zwizualizować te wartości?
- Które wartości danych przypadają na określone pozycje wzdłuż osi x (określane za pomocą skali pomiarowej)
- Które wartości danych są reprezentowane przez konkretne kształty?
- Które wartości danych są reprezentowane przez konkretne kolory? (określane za pomocą skali kolorystycznej)
Estetyka a typy danych
| Ilościowa: ciągła |
Temperatura powietrza (10,3C, -2.2C) |
ciągła |
| Ilościowa: dyskretna |
Liczba dzieci w rodzinie (1, 2, 4) |
dyskretna |
| Jakościowa: nieuporządkowana |
Płeć, Typ gleby |
dyskretna |
| Jakościowa: uporządkowana |
Wykształcenie (podstawowe, średnie, wyższe), Klasa gleby (I, II, III, IV) |
dyskretna |
| Data i czas |
1 października, 1 października 2025, 10:00 |
dyskretna lub ciągła |
| Tekst |
dowolny tekst |
dyskretna lub brak |
Zmienne przechowujące dane jakościowe nazywa się czynnikami, a odmienne kategorie nazywamy poziomami. Poziomy mogą być uporządkowane lub nieuporządkowane.
Elementy graficzne a typy danych
![]()
Źródło: Na podstawie Beata Medyńska-Gulij, Kartografia. Zasady i zastosowanie geowizualizacji
Skale pomiarowe
- Skale pomiarowe określają, gdzie na wykresie znajdują się różne wartości danych.
- W przypadku standardowych wizualizacji 2D do jednoznacznego określenia punktu wymagane są dwie liczby zdefiniowane w określonym układzie (np. układ współrzędnych kartezjańskich).
Skale pomiarowe
- Te same jednostki na obu osiach
Skale pomiarowe
- zmienna posiada bardzo zróżnicowane wartości
Skale pomiarowe: Skala logarytmiczna
Skale pomiarowe: Skala logarytmiczna
Kolor na wykresach
Trzy przypadki wykorzystania koloru w wizualizacji danych
- Kolor jako narzędzie odróżnienie od siebie grup danych
- Kolor jako reprezentacja wartości danych
- Kolor jako narzędzie do wyróżniania
Skale kolorystyczne
Wyróżnia się 3 skale kolorystyczne
- skale jakościowe (nominal, qualitative)
- skale sekwencyjne (sequential)
- skale rozbieżne (diverging)
Skale kolorystyczne
Skale kolorystyczne
Skale kolorystyczne: skale jakościowe
Zróżnicowany kolor, ten sam poziom jasności i nasycenia.
Stosowana do danych jakościowych, wyrażonych w skali nominalnej, nie mających oczywistego porządku (typy gleb, klasy użytkowania terenu)
Kolory w skali jakościowej:
- muszą się wyraźnie rożnić od siebie
- żaden kolor nie może się wyróżniać na tle innych
- kolory nie powinny sprawiać wrażenia uporządkowanych
Skale kolorystyczne: skale jakościowe
Skale kolorystyczne: skale sekwencyjne
- Dane ilościowe lub w skali porządkowej mające określony porządek (niski/średni/wysoki)
- Skala składa się z sekwencji kolorów o zróżnicowanej jasności wyraźnie wskazujących, które wartości są większe lub mniejsze od innych oraz jak odległe są od siebie dwie określone wartości.
- Skale sekwencyjne mogą się opierać na odcieniach jednego koloru lub na odcieniach wielu kolorów (np. od ciemnoczerwonego do jasnożółtego)
Skale kolorystyczne: skale sekwencyjne
Skale kolorystyczne: skale rozbieżne
- Dane ilościowe posiadające naturalny punkt środkowy.
- Wizualizują odległość wszystkich wartości od punktu krytycznego
- Wartości powyżej/poniżej średnie, pozytywny/negatywna zmiana.
- Skalę rozbieżną można uznać za 2 skale sekwencyjne połączone we wspólnym punkcie środkowym, który zazwyczaj reprezentowany jest przez jasny, neutralny kolor.
- W skali rozbieżnej przejści od jasnych kolorów w środku do ciemniejszych musi być zbliżone w obu kierunkach.
Skale kolorystyczne: skale rozbieżne
Zaburzenia rozpoznawania barw
Żródło: wikipedia
- Deuteranopia (daltonizm) - nierozpozawanie barwy zielonej.
- Protanopia - nierozpoznawanie barwy czerwonej (lub mylenie jej z zieloną)
- Tritanopia - nierozpozwanie barwy żółtej i niebieskiej.
Zaburzenia rozpoznawania barw
Deuteranomalia - obniżona percepcją nasycenia (ale nie jaskrawości) zieleni.
Deuteranopia (daltonizm) - nierozpozawanie barwy zielonej. Objawia się brakiem rozróżnienia koloru czerwonego, pomarańczowego, żółtego i zielonego.
Protanomalia - obniżona percepcja nasycenia i jaskrawości czerwieni.
Protanopia - nierozpoznawanie barwy czerwonej (lub myleniu jej z barwą zieloną). Objawia się to obniżeniem percepcji jaskrawości barwy czerwonej, pomarańczowej i żółtej. Barwa czerwona może być postrzegana jako szara lub czarna.
Tritanomalia - obniżona percepcja barwy niebieskiej.
Tritanopia - nierozpozwanie barwy żółtej i niebieskiej.
Zaburzenia rozpoznawania barw
Zaburzenia rozpoznawania barw
Kolor jako narzędzie odróżnienie od siebie grup danych
Kolor jako narzędzie odróżnienie od siebie grup danych
Kolor jako reprezentacja wartości danych
Kolor jako narzędzie do wyróżniania
Kolor jako narzędzie do wyróżniania
Kolor na wykresach
Czy w tym wypadku zróżnicowany kolor słupków jest potrzebny?
Kolor na wykresach
Kolor na wykresach
Wielkość
- Zróżnicowanie wielkości punktów względem zmiennej ilościowej
Kształt
Tekst na wykresach
Tekst na wykresach
Dodanie zewnętrznej informacji
Tekst na wykresach
Dodanie komentarza
Wizualizacja danych
Wykres słupkowy przedstawiający 3 wartości: A = 3, B = 5, C = 4.
![]()
Źródło: https://clauswilke.com/dataviz/introduction.html
Wizualizacja danych
- Wykres a: poprawny wykres słupkowy bez większych wad
- Wykres b: wykres nieestetyczny: zbyt jaskrawe kolory, zbyt widoczna siatka tła, 3 rodzaje i wielkości czcionki
- Wykres c: każdy słupek przedstawiony za pomocą własnej skali dla osi y. Nieporównywalne wartości na osi y wprowadzają w błąd - sprawiają wrażenie, że obiekty A, B, C są mają bardziej zbliżone wartości niż jest w rzeczywistości (A = 3, B = 5, C = 4)
- Wykres d: wykres błędny - brak osi y nie pozwala na ustalenie wartości zmiennych A, B, C.
Wizualizacja danych
![]()
Źródło: Karl W Broman (bit.ly/graphs2018)
Wizualizacja danych
- W wykresie słupkowym oś musi zaczynać się od 0.
Wizualizacja danych
- Nie sortuj alfabetycznie.
Wizualizacja danych
Wizualizacja danych
- Liczba państw wg kontynentów
Wizualizacja danych
Wizualizacja danych
Wizualizacja danych
Wizualizacja danych
Wizualizacja danych
Wizualizacja danych
Wizualizacja danych
Wizualizacja danych
Wizualizacja danych
Wizualizacja danych
Wizualizacja danych
Główny cel: precyzyjne przekazanie informacji, bez wprowadzania w błąd.
Wizualizacja = nauka + sztuka
- Estetyka wykresów jest bardzo ważna
Wizualizacja danych
Porównania
- Porównywane elementy umieść obok siebie
- Użyj wspólnych zakresów osi, aby ułatwić porównania
- Wyrównaj elementy w pionie, aby ułatwić porównania (szczególnie w przypadku rozkładu danych)
Wizualizacja danych
Wykresy słupkowe
- Oś wartości musi zaczynać się od 0.
- Nie sortuj kategorii alfabetycznie. Sortuj wg istotnych zmiennych.
- Nie wszystkie kategorie można sortować (nie zmieniaj kolejności kategorii w skali porządkowej)
Wizualizacja danych: Złe praktyki