Wizualizacja danych

Statystyka i wizualizacja danych, Geoinformacja, II rok

Anna Dmowska (dmowska@amu.edu.pl), Jakub Nowosad (nowosad@amu.edu.pl)

Wizualizacja danych: Główny cel

  • precyzyjne przekazanie informacji, bez wprowadzania w błąd i zniekształceń

    • dobra prezentacja wizualna wzmacnia przekaz
    • wizualizacja danych musi być estetyczna

Wizualizacja danych

Źródło: https://www.darkhorseanalytics.com/blog/data-looks-better-naked

Wizualizacja danych

Źródło: https://socviz.co/lookatdata.html#what-makes-bad-figures-bad

Wizualizacja danych

“Perfection is achieved not when there is nothing more to add, but when there is nothing left to take away” - Antoine de Saint-Exupery

Udoskonalając wykres, zastanów się, co możesz z niego usunąć, a nie co możesz dodać.

Wizualizacja danych

  • Wizualizacja danych polega na systematycznym i logicznym przekształceniu wartości danych na elementy graficzne (wizualne) składające się na ostateczną grafikę.

  • Elementy graficzne można opisać za pomocą różnych mierzalnych cech:

    • położenie,
    • kształt,
    • rozmiar,
    • kolor.
  • Cechy te określamy mianem aspektów estetycznych lub estetyki (ang. aesthetics).

Aspekty estetyczne stosowana w wizualizacji danych

  • Estetyka określa każdy aspekt danego elementu graficznego.

Pojęcie skali w wizualizacji

  • Aby powiązać wartości danych z aspektami estetycznymi musimy określić, które wartości danych odpowiadają konkretnym wartościom estetycznym.

  • Skala definiuje unikalne odwzorowanie między danymi a estetyką.

Pojęcie skali w wizualizacji - przykład

  • Zbiór danych to wektor 5 wartości: 1,2,3,4,5. W jaki sposób możemy zwizualizować te wartości?

    • Które wartości danych przypadają na określone pozycje wzdłuż osi x (określane za pomocą skali pomiarowej)
    • Które wartości danych są reprezentowane przez konkretne kształty?
    • Które wartości danych są reprezentowane przez konkretne kolory? (określane za pomocą skali kolorystycznej)

Estetyka a typy danych

Typ zmiennej Przykład Skala
Ilościowa: ciągła Temperatura powietrza (10,3C, -2.2C) ciągła
Ilościowa: dyskretna Liczba dzieci w rodzinie (1, 2, 4) dyskretna
Jakościowa: nieuporządkowana Płeć, Typ gleby dyskretna
Jakościowa: uporządkowana Wykształcenie (podstawowe, średnie, wyższe), Klasa gleby (I, II, III, IV) dyskretna
Data i czas 1 października, 1 października 2025, 10:00 dyskretna lub ciągła
Tekst dowolny tekst dyskretna lub brak

Zmienne przechowujące dane jakościowe nazywa się czynnikami, a odmienne kategorie nazywamy poziomami. Poziomy mogą być uporządkowane lub nieuporządkowane.

Elementy graficzne a typy danych

Źródło: Na podstawie Beata Medyńska-Gulij, Kartografia. Zasady i zastosowanie geowizualizacji

Skale pomiarowe

Skale pomiarowe

  • Skale pomiarowe określają, gdzie na wykresie znajdują się różne wartości danych.
  • W przypadku standardowych wizualizacji 2D do jednoznacznego określenia punktu wymagane są dwie liczby zdefiniowane w określonym układzie (np. układ współrzędnych kartezjańskich).

Skale pomiarowe

  • Te same jednostki na obu osiach

Skale pomiarowe

  • zmienna posiada bardzo zróżnicowane wartości

Skale pomiarowe: Skala logarytmiczna

  • Przykład skali nieliniowej.

    • W skali nieliniowej równomierne odstępy w jednostkach danych odpowiadają nierównomiernym odstępom w wizualizacji.
  • Skala logarytmiczna jest naturalnym wyborem w przypadku danych uzyskanych poprzez mnożenie lub dzielenie (np. stosunek liczb).

Skale pomiarowe: Skala logarytmiczna

Skale kolorystyczne

Kolor na wykresach

Trzy przypadki wykorzystania koloru w wizualizacji danych

  • Kolor jako narzędzie odróżnienie od siebie grup danych
  • Kolor jako reprezentacja wartości danych
  • Kolor jako narzędzie do wyróżniania

Skale kolorystyczne

Wyróżnia się 3 skale kolorystyczne

  • skale jakościowe (nominal, qualitative)
  • skale sekwencyjne (sequential)
  • skale rozbieżne (diverging)

Skale kolorystyczne

Skale kolorystyczne

Skale kolorystyczne: skale jakościowe

  • Zróżnicowany kolor, ten sam poziom jasności i nasycenia.

  • Stosowana do danych jakościowych, wyrażonych w skali nominalnej, nie mających oczywistego porządku (typy gleb, klasy użytkowania terenu)

  • Kolory w skali jakościowej:

    • muszą się wyraźnie rożnić od siebie
    • żaden kolor nie może się wyróżniać na tle innych
    • kolory nie powinny sprawiać wrażenia uporządkowanych
  • Set3

  • Dark2

Skale kolorystyczne: skale jakościowe

Skale kolorystyczne: skale sekwencyjne

  • Dane ilościowe lub w skali porządkowej mające określony porządek (niski/średni/wysoki)
  • Skala składa się z sekwencji kolorów o zróżnicowanej jasności wyraźnie wskazujących, które wartości są większe lub mniejsze od innych oraz jak odległe są od siebie dwie określone wartości.
  • Skale sekwencyjne mogą się opierać na odcieniach jednego koloru lub na odcieniach wielu kolorów (np. od ciemnoczerwonego do jasnożółtego)

Skale kolorystyczne: skale sekwencyjne

Skale kolorystyczne: skale rozbieżne

  • Dane ilościowe posiadające naturalny punkt środkowy.
  • Wizualizują odległość wszystkich wartości od punktu krytycznego
  • Wartości powyżej/poniżej średnie, pozytywny/negatywna zmiana.
  • Skalę rozbieżną można uznać za 2 skale sekwencyjne połączone we wspólnym punkcie środkowym, który zazwyczaj reprezentowany jest przez jasny, neutralny kolor.
  • W skali rozbieżnej przejści od jasnych kolorów w środku do ciemniejszych musi być zbliżone w obu kierunkach.

Temps:

Earth:

Skale kolorystyczne: skale rozbieżne

Zaburzenia rozpoznawania barw

Żródło: wikipedia

  • Deuteranopia (daltonizm) - nierozpozawanie barwy zielonej.
  • Protanopia - nierozpoznawanie barwy czerwonej (lub mylenie jej z zieloną)
  • Tritanopia - nierozpozwanie barwy żółtej i niebieskiej.

Zaburzenia rozpoznawania barw

  • Deuteranomalia - obniżona percepcją nasycenia (ale nie jaskrawości) zieleni.

  • Deuteranopia (daltonizm) - nierozpozawanie barwy zielonej. Objawia się brakiem rozróżnienia koloru czerwonego, pomarańczowego, żółtego i zielonego.

  • Protanomalia - obniżona percepcja nasycenia i jaskrawości czerwieni.

  • Protanopia - nierozpoznawanie barwy czerwonej (lub myleniu jej z barwą zieloną). Objawia się to obniżeniem percepcji jaskrawości barwy czerwonej, pomarańczowej i żółtej. Barwa czerwona może być postrzegana jako szara lub czarna.

  • Tritanomalia - obniżona percepcja barwy niebieskiej.

  • Tritanopia - nierozpozwanie barwy żółtej i niebieskiej.

Zaburzenia rozpoznawania barw

Zaburzenia rozpoznawania barw

Kolor jako narzędzie odróżnienie od siebie grup danych

Kolor jako narzędzie odróżnienie od siebie grup danych

Kolor jako reprezentacja wartości danych

Kolor jako narzędzie do wyróżniania

Kolor jako narzędzie do wyróżniania

Kolor na wykresach

Czy w tym wypadku zróżnicowany kolor słupków jest potrzebny?

Kolor na wykresach

  • Czy możemy rozróżnić kolory dla wszystkich kategorii?

    • Na wykresie jesteśmy w stanie rozróżnić 3-5 kolorów.

Kolor na wykresach

  • Czy możemy rozróżnić kolory dla wszystkich kategorii?

    • Na wykresie jesteśmy w stanie rozróżnić 3-5 kolorów.

Wielkość

  • Zróżnicowanie wielkości punktów względem zmiennej ilościowej

Kształt

Tekst na wykresach

  • Dodanie informacji z danych lub jej podkreślenie

    • Na poniższym wykresie podpisane zostały kraje z liczbą ludności powyżej 150 milionów

Tekst na wykresach

Dodanie zewnętrznej informacji

Tekst na wykresach

Dodanie komentarza

Dobre i złe praktyki

Wizualizacja danych

Wykres słupkowy przedstawiający 3 wartości: A = 3, B = 5, C = 4.

Źródło: https://clauswilke.com/dataviz/introduction.html

Wizualizacja danych

  • Wykres a: poprawny wykres słupkowy bez większych wad
  • Wykres b: wykres nieestetyczny: zbyt jaskrawe kolory, zbyt widoczna siatka tła, 3 rodzaje i wielkości czcionki
  • Wykres c: każdy słupek przedstawiony za pomocą własnej skali dla osi y. Nieporównywalne wartości na osi y wprowadzają w błąd - sprawiają wrażenie, że obiekty A, B, C są mają bardziej zbliżone wartości niż jest w rzeczywistości (A = 3, B = 5, C = 4)
  • Wykres d: wykres błędny - brak osi y nie pozwala na ustalenie wartości zmiennych A, B, C.

Wizualizacja danych

Źródło: Karl W Broman (bit.ly/graphs2018)

Wizualizacja danych

  • W wykresie słupkowym oś musi zaczynać się od 0.

Wizualizacja danych

  • Nie sortuj alfabetycznie.

Wizualizacja danych

Wizualizacja danych

  • Liczba państw wg kontynentów

Wizualizacja danych

Wizualizacja danych

Wizualizacja danych

Wizualizacja danych

Wizualizacja danych

Wizualizacja danych

Wizualizacja danych

Wizualizacja danych

Wizualizacja danych

  • 5 państw z nawyższym PKB

Wizualizacja danych

Wizualizacja danych

  • Główny cel: precyzyjne przekazanie informacji, bez wprowadzania w błąd.

  • Wizualizacja = nauka + sztuka

    • Estetyka wykresów jest bardzo ważna

Wizualizacja danych

  • Dobra prezentacja wizualna wzmacnia przekaz i ułatwia interpretację.

    • Pokaż jak najwięcej informacji, starając się równocześnie nie zaciemniać przekazu.
    • Udoskonalając wykres, zastanów się, co możesz z niego usunąć, a nie co możesz dodać.
    • Musisz na wykresie dodać etykiety z wartościami - poszukaj innej formy wizualizacji

Wizualizacja danych

  • Porównania

    • Porównywane elementy umieść obok siebie
    • Użyj wspólnych zakresów osi, aby ułatwić porównania
    • Wyrównaj elementy w pionie, aby ułatwić porównania (szczególnie w przypadku rozkładu danych)

Wizualizacja danych

  • Wykresy słupkowe

    • Oś wartości musi zaczynać się od 0.
    • Nie sortuj kategorii alfabetycznie. Sortuj wg istotnych zmiennych.
    • Nie wszystkie kategorie można sortować (nie zmieniaj kolejności kategorii w skali porządkowej)

Wizualizacja danych

Wizualizacja danych

Wizualizacja danych: Złe praktyki

Źródła informacji

Dobre praktyki

Dodatkowe źródła informacji