1 Cel ćwiczenia

Celem ćwiczeń jest stworzenie zestawu narzędzi (najlepiej funkcji w języku R), które posłużą obliczeniu tradycyjnych miar segregacji oraz zróżnicowania rasowego. Funkcje/narzędzia będą wykorzystywane na kilku następych zajęciach.

Należy stworzyć narzędzia obliczające:

  • entropię \(E\) oraz entropię standaryzowaną \(E_{std}\)
  • wskaźnik teorii informacji \(H\)
  • wskaźnik niepodobieństwa \(D\)

Przetestuj stworzone narzędzie na kilku przykładach (dane testowe zostały zapisane w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv)

2 Zróżnicowanie oraz segregacja rasowa w analizowanym obszarze

Obliczenie miar segregacji rasowej wymaga podziału obszaru na mniejsze jednostki spisowe.

Rycina 1. Zróżnicowanie oraz segregacja rasowa w analizowanym obszarze (np. dla całego miasta)

3 Miary segregacji oraz zróżnicowania rasowego

3.1 Analiza zróżnicowania rasowego - entropia

Miarą zróżnicowania rasowego jest entropia obliczana według wzoru:

\[E = -\sum p_{i} \log p_{i}\] Obliczenia należy wykonać dla jednostek dla których liczba ludnosci jest większa od 0.

3.2 Analiza zróżnicowania rasowego - entropia standaryzowana

Entropia standaryzowana obliczana jest według wzoru:

\[E_{std} = \frac{E}{E_{max}}\]

gdzie \(E\) - oznacza entropię, a \(E_{max}\) oznacza entropię maksymalną.

Entropia obliczana jest według wzoru: \[E = -\sum p_{i} \log p_{i}\]

Entropia maksymalna obliczana jest \(E_{max} = log(K)\), gdzie K to liczba grup rasowo-etnicznych.

3.3 Analiza segregacji rasowej - wskaźnik teorii informacji H.

Wskaźnik teorii informacji H obliczany jest według wzoru:

\[H = \sum_{i=1}^{N}\left [ \frac{t_{i}(E - E_{i})}{ET} \right ]\]

gdzie

  • \(E_{i}\) - entropia danej jednostki spisowej i,
  • \(E\) - entropia obliczona dla całego obszaru
  • \(t_{i}\) - liczba ludności danej jednostki spisowej i,
  • \(T\) - liczba ludności całego obszaru

3.4 Analiza segregacji rasowej - wskaźnik niepodobieństwa D

Wskaźnik niepodobieństwa D obliczany jest według wzoru:

\[D = \frac{1}{2}\sum_{i}^{N}\left\lvert \frac{a_{i}}{A} - \frac{b_{i}}{B} \right\rvert\]

  • \(a_{i}\) - liczba ludności grupy 1 w jednostce spisowej \(i\)
  • A - liczba ludności grupy 1 w analizowanym obszarze
  • \(b_{i}\) - liczba ludności grupy 2 w jednostce spisowej \(i\)
  • B - liczba ludności grupy 2 w analizowanym obszarze

4 Obliczanie miar zróżnicowania rasowego oraz segregacji rasowej w R.

4.1 Obliczanie entropii

Entropia \(E\) obliczana jest w następujący sposób:

\[ \begin{aligned} E = - \left [ \frac{WHITE}{POP} \log \left ( \frac{WHITE}{POP} \right ) + \frac{BLACK}{POP} \log \left ( \frac{BLACK}{POP} \right ) + \frac{ASIAN}{POP} \log \left ( \frac{ASIAN}{POP} \right ) + \\ \frac{HISPANIC}{POP} \log \left ( \frac{HISPANIC}{POP} \right ) + \frac{INDIAN}{POP} \log \left ( \frac{INDIAN}{POP} \right ) + \frac{OTHERRACE}{POP} \log \left ( \frac{OTHERRACE}{POP} \right ) \right ] \end{aligned} \]

Ćwiczenie 1

Oblicz entropię dla danych zawartych w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv

Ćwiczenie 2

Napisz funkcję w R obliczającą entropię.

Kilka uwag do obliczania entropii:

  • POP>0 - nie można dzielić przez 0
  • log(0) jest nieokreślony.

Przydatne rozwiązania - operacje na wektorach w R

a = c(0.125, 0.125, 0.25, 0.5)
a*2
## [1] 0.25 0.25 0.50 1.00
log2(a)
## [1] -3 -3 -2 -1
a*log2(a)
## [1] -0.375 -0.375 -0.500 -0.500
-sum(a*log2(a))
## [1] 1.75

5 Obliczanie entropii standaryzowanej

Ćwiczenie 1

Oblicz entropię standaryzowaną dla danych zawartych w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv

Ćwiczenie 2

Napisz funkcję w R obliczającą entropię standaryzowaną.

6 Obliczanie wskaźnika niepodobieństwa \(D\)

Dla 4 jednostek spisowych poniższy wzór na obliczenie wskaźnika niepodobieństwa będzie miał postać:

\[D = \frac{1}{2}\sum_{i}^{N}\left\lvert \frac{a_{i}}{A} - \frac{b_{i}}{B} \right\rvert = \frac{1}{2} \times\left [ \left | \frac{a_{1}}{A} - \frac{b_{1}}{B} \right | + \left | \frac{a_{2}}{A} - \frac{b_{2}}{B} \right | + \left | \frac{a_{3}}{A} - \frac{b_{3}}{B} \right | + \left | \frac{a_{4}}{A} - \frac{b_{4}}{B} \right | \right ]\] a, b to liczba osób danej grupy rasowej w jednostce spisowej, natomiast A i B to liczba osób z danej grupy rasowej zamieszkująca cały obszar.

Ćwiczenie 1

Oblicz wskaźnik niepodobieństwa między grupami W i B oraz W i L dla danych zawartych w pliku przyklad_b.csv

Ćwiczenie 2

Napisz funkcję w R obliczającą wskaźnik niepodobieństwa. Zastosuj tą funkcję do obliczenia wskaźników W-B, W-A, W-L dla danych zawartych w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv

6.1 Obliczanie wskaźnika wskaźnika teorii informacji H

Etapy obliczenia wskaźnika teorii informacji H

  1. Obliczenie liczby osób mieszkających w każdej jednostce spisowej.
  2. Obliczenie odsetka osób w każdej jednostce spisowej oraz w całym obszarze.
  3. Obliczenie entropii dla każdej jednostki spisowej (\(E_{i}\))
  4. Obliczenie wagi - odsetek ludności w jednostce spisowej w stosunku do liczby ludności całego obszaru (\(\frac{t_{i}}{T}\))
  5. Obliczenie różnicy między entropią całego obszaru a entropią w jednostce spisowej (\(\frac{E - E_{i}}{E}\))
  6. Pomnożenie wartości uzyskanych w punkcie (4) oraz (5)
  7. Zsumowanie wartości uzyskanych w punkcie (6).

Ćwiczenie 1

Oblicz wskaźnik teorii informacji H dla danych zawartych w pliku przyklad_b.csv

Ćwiczenie 2

Napisz funkcję w R obliczającą wskaźnik teorii informacji H. Zastosuj tą funkcję do obliczenia wskaźników dla danych zawartych w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv

7 Wartości wskaźników dla wymienionych przykładów

Poniżej zostały zamieszczone wartości wskaźników segregacji oraz zróżnicowania rasowo-etnicznego dla w/w przykładów.

Przykłady A-D

Przykładowe dane

ID BIALI CZARNI AZJACI LATYNOSI RDZENNI_AMERYKANIE POZOSTALI POP
40306 209 1450 130 2517 10 56 4372
40307 919 1431 915 1073 6 84 4428
40308 766 1374 278 1598 6 47 4069
40407 668 524 323 384 4 37 1940
40408 330 858 262 212 7 45 1714
40414 354 644 85 480 1 28 1592
40415 97 1376 44 899 8 42 2466
40416 576 977 278 709 4 65 2609

Wartości wskaźników dla przykładowych danych (przykladowe_dane.csv)

Dwa Dwb Dwl H E Estd
0.1925452 0.2643989 0.3634019 0.0655884 1.347994 0.7523296