1 Cel ćwiczenia

Celem ćwiczeń jest stworzenie zestawu narzędzi (najlepiej funkcji w języku R), które posłużą obliczeniu tradycyjnych miar segregacji oraz zróżnicowania rasowego. Funkcje/narzędzia będą wykorzystywane na kilku następych zajęciach.

Należy stworzyć narzędzia obliczające:

entropię \(E\) oraz entropię standaryzowaną \(E_{std}\)
wskaźnik teorii informacji \(H\)
wskaźnik niepodobieństwa \(D\)

Przetestuj stworzone narzędzie na kilku przykładach (dane testowe zostały zapisane w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv)

2 Zróżnicowanie oraz segregacja rasowa w analizowanym obszarze

Obliczenie miar segregacji rasowej wymaga podziału obszaru na mniejsze jednostki spisowe.

Rycina 1. Zróżnicowanie oraz segregacja rasowa w analizowanym obszarze (np. dla całego miasta)

3 Miary segregacji oraz zróżnicowania rasowego

3.1 Analiza zróżnicowania rasowego - entropia

Miarą zróżnicowania rasowego jest entropia obliczana według wzoru:

\[E = -\sum p_{i} \log p_{i}\] Obliczenia należy wykonać dla jednostek dla których liczba ludnosci jest większa od 0.

3.2 Analiza zróżnicowania rasowego - entropia standaryzowana

Entropia standaryzowana obliczana jest według wzoru:

\[E_{std} = \frac{E}{E_{max}}\]

gdzie \(E\) - oznacza entropię, a \(E_{max}\) oznacza entropię maksymalną.

Entropia obliczana jest według wzoru: \[E = -\sum p_{i} \log p_{i}\]

Entropia maksymalna obliczana jest \(E_{max} = log(K)\), gdzie K to liczba grup rasowo-etnicznych.

3.3 Analiza segregacji rasowej - wskaźnik teorii informacji H.

Wskaźnik teorii informacji H obliczany jest według wzoru:

\[H = \sum_{i=1}^{N}\left [ \frac{t_{i}(E - E_{i})}{ET} \right ]\]

gdzie

\(E_{i}\) - entropia danej jednostki spisowej i,
\(E\) - entropia obliczona dla całego obszaru
\(t_{i}\) - liczba ludności danej jednostki spisowej i,
\(T\) - liczba ludności całego obszaru

3.4 Analiza segregacji rasowej - wskaźnik niepodobieństwa D

Wskaźnik niepodobieństwa D obliczany jest według wzoru:

\[D = \frac{1}{2}\sum_{i}^{N}\left\lvert \frac{a_{i}}{A} - \frac{b_{i}}{B} \right\rvert\]

\(a_{i}\) - liczba ludności grupy 1 w jednostce spisowej \(i\)
A - liczba ludności grupy 1 w analizowanym obszarze
\(b_{i}\) - liczba ludności grupy 2 w jednostce spisowej \(i\)
B - liczba ludności grupy 2 w analizowanym obszarze

4 Obliczanie miar zróżnicowania rasowego oraz segregacji rasowej w R.

4.1 Obliczanie entropii

Entropia \(E\) obliczana jest w następujący sposób:

\[ \begin{aligned} E = - \left [ \frac{WHITE}{POP} \log \left ( \frac{WHITE}{POP} \right ) + \frac{BLACK}{POP} \log \left ( \frac{BLACK}{POP} \right ) + \frac{ASIAN}{POP} \log \left ( \frac{ASIAN}{POP} \right ) + \\ \frac{HISPANIC}{POP} \log \left ( \frac{HISPANIC}{POP} \right ) + \frac{INDIAN}{POP} \log \left ( \frac{INDIAN}{POP} \right ) + \frac{OTHERRACE}{POP} \log \left ( \frac{OTHERRACE}{POP} \right ) \right ] \end{aligned} \]

Ćwiczenie 1

Oblicz entropię dla danych zawartych w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv

Ćwiczenie 2

Napisz funkcję w R obliczającą entropię.

Kilka uwag do obliczania entropii:

POP>0 - nie można dzielić przez 0
log(0) jest nieokreślony.

Przydatne rozwiązania - operacje na wektorach w R

a = c(0.125, 0.125, 0.25, 0.5)
a*2

## [1] 0.25 0.25 0.50 1.00

log2(a)

## [1] -3 -3 -2 -1

a*log2(a)

## [1] -0.375 -0.375 -0.500 -0.500

-sum(a*log2(a))

## [1] 1.75

5 Obliczanie entropii standaryzowanej

Ćwiczenie 1

Oblicz entropię standaryzowaną dla danych zawartych w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv

Ćwiczenie 2

Napisz funkcję w R obliczającą entropię standaryzowaną.

6 Obliczanie wskaźnika niepodobieństwa \(D\)

Dla 4 jednostek spisowych poniższy wzór na obliczenie wskaźnika niepodobieństwa będzie miał postać:

\[D = \frac{1}{2}\sum_{i}^{N}\left\lvert \frac{a_{i}}{A} - \frac{b_{i}}{B} \right\rvert = \frac{1}{2} \times\left [ \left | \frac{a_{1}}{A} - \frac{b_{1}}{B} \right | + \left | \frac{a_{2}}{A} - \frac{b_{2}}{B} \right | + \left | \frac{a_{3}}{A} - \frac{b_{3}}{B} \right | + \left | \frac{a_{4}}{A} - \frac{b_{4}}{B} \right | \right ]\] a, b to liczba osób danej grupy rasowej w jednostce spisowej, natomiast A i B to liczba osób z danej grupy rasowej zamieszkująca cały obszar.

Ćwiczenie 1

Oblicz wskaźnik niepodobieństwa między grupami W i B oraz W i L dla danych zawartych w pliku przyklad_b.csv

Ćwiczenie 2

Napisz funkcję w R obliczającą wskaźnik niepodobieństwa. Zastosuj tą funkcję do obliczenia wskaźników W-B, W-A, W-L dla danych zawartych w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv

6.1 Obliczanie wskaźnika wskaźnika teorii informacji H

Etapy obliczenia wskaźnika teorii informacji H

Obliczenie liczby osób mieszkających w każdej jednostce spisowej.
Obliczenie odsetka osób w każdej jednostce spisowej oraz w całym obszarze.
Obliczenie entropii dla każdej jednostki spisowej (\(E_{i}\))
Obliczenie wagi - odsetek ludności w jednostce spisowej w stosunku do liczby ludności całego obszaru (\(\frac{t_{i}}{T}\))
Obliczenie różnicy między entropią całego obszaru a entropią w jednostce spisowej (\(\frac{E - E_{i}}{E}\))
Pomnożenie wartości uzyskanych w punkcie (4) oraz (5)
Zsumowanie wartości uzyskanych w punkcie (6).

Ćwiczenie 1

Oblicz wskaźnik teorii informacji H dla danych zawartych w pliku przyklad_b.csv

Ćwiczenie 2

Napisz funkcję w R obliczającą wskaźnik teorii informacji H. Zastosuj tą funkcję do obliczenia wskaźników dla danych zawartych w plikach przyklad_a.csv, przyklad_b.csv, przyklad_c.csv, przyklad_d.csv, dane_przykladowe.csv

7 Wartości wskaźników dla wymienionych przykładów

Poniżej zostały zamieszczone wartości wskaźników segregacji oraz zróżnicowania rasowo-etnicznego dla w/w przykładów.

Przykłady A-D

Przykładowe dane

ID	BIALI	CZARNI	AZJACI	LATYNOSI	RDZENNI_AMERYKANIE	POZOSTALI	POP
40306	209	1450	130	2517	10	56	4372
40307	919	1431	915	1073	6	84	4428
40308	766	1374	278	1598	6	47	4069
40407	668	524	323	384	4	37	1940
40408	330	858	262	212	7	45	1714
40414	354	644	85	480	1	28	1592
40415	97	1376	44	899	8	42	2466
40416	576	977	278	709	4	65	2609

Wartości wskaźników dla przykładowych danych (przykladowe_dane.csv)

Dwa	Dwb	Dwl	H	E	Estd
0.1925452	0.2643989	0.3634019	0.0655884	1.347994	0.7523296

Obliczanie tradycyjnych miar segregacji oraz zróżnicowania rasowego

Analiza geoinformacyjna

Anna Dmowska (dmowska@amu.edu.pl)

1 Cel ćwiczenia

2 Zróżnicowanie oraz segregacja rasowa w analizowanym obszarze

3 Miary segregacji oraz zróżnicowania rasowego

3.1 Analiza zróżnicowania rasowego - entropia

3.2 Analiza zróżnicowania rasowego - entropia standaryzowana

3.3 Analiza segregacji rasowej - wskaźnik teorii informacji H.

3.4 Analiza segregacji rasowej - wskaźnik niepodobieństwa D

4 Obliczanie miar zróżnicowania rasowego oraz segregacji rasowej w R.

4.1 Obliczanie entropii

Ćwiczenie 1

Ćwiczenie 2

Przydatne rozwiązania - operacje na wektorach w R

5 Obliczanie entropii standaryzowanej

Ćwiczenie 1

Ćwiczenie 2

6 Obliczanie wskaźnika niepodobieństwa \(D\)

Ćwiczenie 1

Ćwiczenie 2

6.1 Obliczanie wskaźnika wskaźnika teorii informacji H

Etapy obliczenia wskaźnika teorii informacji H

Ćwiczenie 1

Ćwiczenie 2

7 Wartości wskaźników dla wymienionych przykładów

Przykłady A-D

Przykładowe dane

Wartości wskaźników dla przykładowych danych (przykladowe_dane.csv)