Wizualizacja danych: Formatowanie wykresów

Statystyczne i graficzne podstawy geowizualizacji

Anna Dmowska, dmowska@amu.edu.pl

Wizualizacja danych

  • Wizualizacja danych polega na systematycznym i logicznym przekształceniu wartości danych na elementy graficzne (wizualne) składające się na ostateczną grafikę.

  • Elementy graficzne można opisać za pomocą różnych mierzalnych cech:

    • położenie,
    • kształt,
    • rozmiar,
    • kolor.
  • Cechy te określamy mianem aspektów estetycznych lub estetyki (ang. aesthetics).

Aspekty estetyczne stosowana w wizualizacji danych

  • Estetyka określa każdy aspekt danego elementu graficznego.

Pojęcie skali w wizualizacji

  • Aby powiązać wartości danych z aspektami estetycznymi musimy określić, które wartości danych odpowiadają konkretnym wartościom estetycznym.

  • Skala definiuje unikalne odwzorowanie między danymi a estetyką.

Pojęcie skali w wizualizacji - przykład

  • Zbiór danych to wektor 5 wartości: 1,2,3,4. W jaki sposób możemy zwizualizować te wartości?

    • Które wartości danych przypadają na określone pozycje wzdłuż osi x? (określane za pomocą skali pomiarowej)
    • Które wartości danych są reprezentowane przez konkretne kształty?
    • Które wartości danych są reprezentowane przez konkretne kolory? (określane za pomocą skali kolorystycznej)

Estetyka a typy danych

Typ zmiennej Przykład Skala
Ilościowa: ciągła Temperatura powietrza (10,3C, -2.2C) ciągła
Ilościowa: dyskretna Liczba dzieci w rodzinie (1, 2, 4) dyskretna
Jakościowa: nieuporządkowana Płeć, Typ gleby dyskretna
Jakościowa: uporządkowana Wykształcenie (podstawowe, średnie, wyższe), Klasa gleby (I, II, III, IV) dyskretna
Data i czas 1 października, 1 października 2025, 10:00 dyskretna lub ciągła
Tekst dowolny tekst dyskretna lub brak

Zmienne przechowujące dane jakościowe nazywa się czynnikami, a odmienne kategorie nazywamy poziomami. Poziomy mogą być uporządkowane lub nieuporządkowane.

Elementy graficzne a typy danych

Źródło: Na podstawie Beata Medyńska-Gulij, Kartografia. Zasady i zastosowanie geowizualizacji

Gramatyka grafiki: The Grammar of Graphics

  • Gramatyka grafiki to podejście opracowana przez Lelanda Wilkinsona i opisane w jego książce The Grammar of Graphics (2005). Jest to podejście, które pozwala na konstruowanie wizualizacji w ustrukturyzowany i spójny sposób.

  • Gramatyka grafiki składa się z zestawu zasad i reguł, które są wykorzystywane przy projektowaniu grafiki.

  • Gramatyka grafiki opiera się na idei, że każdą grafikę można rozłożyć na szereg komponentów oraz warstw.

Gramatyka grafiki: The Grammar of Graphics

  • Podstawowym komponentem są zawsze dane (data), które mają być przedstawione w formie graficznej .
  • Dla każdego wykresu należy także określić sposób przekształcenia danych na elementy graficzne, tzw. mapowanie (mapping), które składa się z 5 komponentów (warstwy, skala, układ współrzędnych, panele, motywy).

Gramatyka grafiki: The Grammar of Graphics

Sposób przekształcenia danych na elementy graficzne, tzw. mapowanie (mapping) składa się z 5 komponentów:

  • warstwy (layers) to zbiór elementów geometrycznych i transformacji statystycznych.

    • Elementy geometryczne (geoms), reprezentują to, co widać na wykresie: punkty, linie, poligony itp.
    • Transformacje statystyczne (stats) służą do podsumowania danych - obliczenia podstawowych statystyk, zliczenia obsewacji, dopasowania modelu liniowego

Gramatyka grafiki: The Grammar of Graphics

  • skale (scale) definiują unikalne odwzorowanie między danymi a elementami graficznymi.

    • Skale obejmują użycie koloru, kształtu lub rozmiaru.
    • Skale są także wykorzystywane do konstruowania legendy i formatowania osi;
  • układ współrzędnych (coordinates) opisuje sposób, w jaki dane są odwzorowywane na płaszczyznę wykresu.

    • Zawiera również osie i linie siatki, które ułatwiają odczyt wykresu.
    • Najczęściej używa sie układu kartezjańskiego, ale dostępne są także inne układy (np. biegunowy).

Gramatyka grafiki: The Grammar of Graphics

  • panele (facet) wykorzystuje się do tworzenia wykresów dla różnych podzbiorów danych;

  • motywy (theme) kontrolują sposób wizualnej prezentacji, np. kolor tła, rozmar czcionki.

Gramatyka grafiki: The Grammar of Graphics

temperatura miasto mce
1 -0.6 A 1
2 0.4 A 2
3 3.8 A 3
4 9.4 A 4
13 -3.3 B 1
14 -2.2 B 2
15 1.8 B 3
16 8.3 B 4

Gramatyka grafiki: The Grammar of Graphics

ggplot(data = dane, aes(x = mce, y = temperatura, color = miasto)) +
  geom_line(linewidth = 1.2) +
  geom_point(size = 2, shape = 15) +
  scale_x_continuous(breaks = seq(1, 12, 1), labels = c(seq(1,12, 1))) + 
  scale_color_manual(values = c("A" = "darkblue", "B" = "lightblue")) + 
  labs(title = "Średnia miesięcza temperatura w mieście A i B",
       x = "Miesiąc",
       y = "Temperatura (°C)") +
  theme_minimal(base_size = 14)

Skale pomiarowe

Skale pomiarowe

  • Skale pomiarowe określają, gdzie na wykresie znajdują się różne wartości danych.
  • W przypadku standardowych wizualizacji 2D do jednoznacznego określenia punktu wymagane są dwie liczby zdefiniowane w określonym układzie (np. układ współrzędnych kartezjańskich).

Skale pomiarowe

  • Te same jednostki na obu osiach

Skale pomiarowe

  • zmienna posiada bardzo zróżnicowane wartości

Skale pomiarowe: Skala logarytmiczna

  • Przykład skali nieliniowej.

    • W skali nieliniowej równomierne odstępy w jednostkach danych odpowiadają nierównomiernym odstępom w wizualizacji.
  • Skala logarytmiczna jest naturalnym wyborem w przypadku danych uzyskanych poprzez mnożenie lub dzielenie (np. stosunek liczb).

Skale pomiarowe: Skala logarytmiczna

Skale kolorystyczne

Kolor na wykresach

Trzy przypadki wykorzystania koloru w wizualizacji danych

  • Kolor jako narzędzie odróżnienie od siebie grup danych
  • Kolor jako reprezentacja wartości danych
  • Kolor jako narzędzie do wyróżniania

Skale kolorystyczne

Wyróżnia się 3 skale kolorystyczne

  • skale jakościowe (nominal, qualitative)
  • skale sekwencyjne (sequential)
  • skale rozbieżne (diverging)

Skale kolorystyczne

Skale kolorystyczne

Skale kolorystyczne: skale jakościowe

  • Zróżnicowany kolor, ten sam poziom jasności i nasycenia.

  • Stosowana do danych jakościowych, wyrażonych w skali nominalnej, nie mających oczywistego porządku (typy gleb, klasy użytkowania terenu)

  • Kolory w skali jakościowej:

    • muszą się wyraźnie rożnić od siebie
    • żaden kolor nie może się wyróżniać na tle innych
    • kolory nie powinny sprawiać wrażenia uporządkowanych
  • Set3

  • Dark2

Skale kolorystyczne: skale jakościowe

Skale kolorystyczne: skale jakościowe

  • Dane ilościowe lub w skali porządkowej mające określony porządek (niski/średni/wysoki)
  • Skala składa się z sekwencji kolorów o zróżnicowanej jasności wyraźnie wskazujących, które wartości są większe lub mniejsze od innych oraz jak odległe są od siebie dwie określone wartości.
  • Skale sekwencyjne mogą się opierać na odcieniach jednego koloru lub na odcieniach wielu kolorów (np. od ciemnoczerwonego do jasnożółtego)

Skale kolorystyczne: skale sekwencyjne

Skale kolorystyczne: skale rozbieżne

  • Dane ilościowe posiadające naturalny punkt środkowy.
  • Wizualizują odległość wszystkich wartości od punktu krytycznego
  • Wartości powyżej/poniżej średnie, pozytywny/negatywna zmiana.
  • Skalę rozbieżną można uznać za 2 skale sekwencyjne połączone we wspólnym punkcie środkowym, który zazwyczaj reprezentowany jest przez jasny, neutralny kolor.
  • W skali rozbieżnej przejści od jasnych kolorów w środku do ciemniejszych musi być zbliżone w obu kierunkach.

Temps:

Earth:

Skale kolorystyczne: skale rozbieżne

Zaburzenia rozpoznawania barw

Żródło: wikipedia

  • Deuteranopia (daltonizm) - nierozpozawanie barwy zielonej.
  • Protanopia - nierozpoznawanie barwy czerwonej (lub mylenie jej z zieloną)
  • Tritanopia - nierozpozwanie barwy żółtej i niebieskiej.

Zaburzenia rozpoznawania barw

  • Deuteranomalia - obniżona percepcją nasycenia (ale nie jaskrawości) zieleni.

  • Deuteranopia (daltonizm) - nierozpozawanie barwy zielonej. Objawia się brakiem rozróżnienia koloru czerwonego, pomarańczowego, żółtego i zielonego.

  • Protanomalia - obniżona percepcja nasycenia i jaskrawości czerwieni.

  • Protanopia - nierozpoznawanie barwy czerwonej (lub myleniu jej z barwą zieloną). Objawia się to obniżeniem percepcji jaskrawości barwy czerwonej, pomarańczowej i żółtej. Barwa czerwona może być postrzegana jako szara lub czarna.

  • Tritanomalia - obniżona percepcja barwy niebieskiej.

  • Tritanopia - nierozpozwanie barwy żółtej i niebieskiej.

Zaburzenia rozpoznawania barw

Symulacja postrzegania skali sekwencyjnej przechodzącej od koloru ciemnoczerwonego do jasnożółtego przy różnych zaburzeniach rozpozawania barw. Mimo, że poszczególne kolory wyglądają inaczej, można dostrzec gradient od koloru ciemnego do jasnego.

Żródło: https://clauswilke.com/dataviz/

Zaburzenia rozpoznawania barw

Kontrast czerwono-zielony staje się nie do rozróżnienia w przypadku nierozpoznawania barwy czerwonej i zielonej (Deuteranopia, Protanopia)

Żródło: https://clauswilke.com/dataviz/

Zaburzenia rozpoznawania barw

Kontrast niebiesko-zielony staje się nie do rozróżnienia w przypadku nierozpoznawania barwy niebieskiej i żółtej (Tritanopia)

Zaburzenia rozpoznawania barw

Skala ColorBrewer PiYG (różowy do zółtozielonego) będzie także rozpozawalna dla osób z zaburzeniami rozpoznawania barw.

Żródło: https://clauswilke.com/dataviz/

Zaburzenia rozpoznawania barw

Paleta zaproponowana przez Okabe (1991) jest rozpozawalna dla wszystkich.

Źródło: https://clauswilke.com/dataviz/

Zaburzenia rozpoznawania barw

Zaburzenia rozpoznawania barw

Zaburzenia rozpoznawania barw

Zaburzenia rozpoznawania barw

Zaburzenia rozpoznawania barw

Kolor jako narzędzie odróżnienie od siebie grup danych

Kolor jako narzędzie odróżnienie od siebie grup danych

Kolor jako reprezentacja wartości danych

Kolor jako narzędzie do wyróżniania

Kolor jako narzędzie do wyróżniania

Kolor na wykresach

Czy w tym wypadku zróżnicowany kolor słupków jest potrzebny?

Kolor na wykresach

  • Czy możemy rozróżnić kolory dla wszystkich kategorii?

    • Na wykresie jesteśmy w stanie rozróżnić 3-5 kolorów.

Kolor na wykresach

  • Czy możemy rozróżnić kolory dla wszystkich kategorii?

    • Na wykresie jesteśmy w stanie rozróżnić 3-5 kolorów.

Wielkość

  • Zróżnicowanie wielkości punktów względem zmiennej ilościowej

Kształt

Tekst na wykresach

  • Dodanie informacji z danych lub jej podkreślenie

    • Na poniższym wykresie podpisane zostały kraje z liczbą ludności powyżej 150 milionów

Tekst na wykresach

Dodanie zewnętrznej informacji

Tekst na wykresach

Dodanie komentarza