1 Cel ćwiczenia

Proszę przeanalizować strukturę rasowo-etniczną wybranego hrabstwa w danym roku W analizie proszę uwzględnić podział na kategorie rasowo-etniczne: biali, czarni, Azjaci, Latynosi, rdzenni Amerykanie, pozostali (tj. osoby deklarujące przynależność do więcej niż jednej grupy rasowo-etnicznej))

Każdemu uczestnikowi ćwiczeń zostało przydzielone jedno hrabstwo w określonym roku. Z udostępnionych danych należy wyselekcjonować przydzielone hrabstwo. Uwaga! Dane przygotowane w tym ćwiczeniu będą wykorzystywane także w kolejnych ćwiczeniach. Proszę przygotować dane i zapisać je do dalszego wykorzystania.

2 Źródło danych

  • Dane dotyczące rasowo-etnicznej struktury ludności w Stanach Zjednoczonych zbierane są w ramach Spisów Ludności, organizowanych co 10 lat (ostatni spis miał miejsce w 2020 roku)

  • Najlepszym źródłem danych pochodzących ze Spisów Ludności jest projekt National Historical Geographic Information System– NHGIS http://nhgis.org

  • Dane Spisu Ludności USA są udostępniane w postaci danych zagregowanych do jednostek spisowych. W USA obowiązuje kilka poziomów agregacji danych.

2.1 Poziomy agregacji danych

https://learn.arcgis.com/en/related-concepts/united-states-census-geography.htm

  • Stany (ang. states)
  • Hrabstwa (ang. counties)
  • Obszary spisowe (ang. census tracts) - najczęściej wykorzystywane jednostki danych
  • Grupy bloków spisowych (ang. block groups)
  • Bloki spisowe (ang. blocks) - najmniejsze jednostki agregacji danych.

2.2 NHGIS - National Historical GIS

  • Projekt udostępniający dane ze Spisów Ludności z lat 1790-2010
  • Dane tabelaryczne na różnym poziomie agregacji
  • Dane GIS (granice jednostek spisowych)
  • Dane tabelaryczne oraz GIS posiadają wspólne ID ułatwiające połączenie obu źródeł danych.
  • Pobieranie danych wymaga utworzenia konta oraz zalogowania. Dane są udostępniane bezpłatnie.

3 Dane do ćwiczeń

  • Dane zostały pobrane ze strony http://nhgis.org.

  • W ćwiczeniu zostaną wykorzystane dwa rodzeje danych:

    • Dane dotyczące struktury rasowo-etnicznej wybranych hrabstw zagregowane do bloków spisowych (ang. blocks) dla lat 1990, 2000, 2010, 2020 (dane_atrybutowe.zip)
    • Granice obszarów spisowych (ang. census tracts) dla wybranych hrabstw dla lat 1990, 2000, 2010, 2020 (dane_przestrzenne.zip)

3.1 Dane dotyczące struktury rasowo-etnicznej

Dane zawierają następujące pola:

  • “GISJOIN” - identyfikator danych na poziomie bloków spisowych, pozwalający na połączenie danych atrybutowych z danymi przestrzennymi
  • “GISJOIN_T” - identyfikator danych na poziomie obszarów spisowych, pole będzie wykorzystane do zagregowania danych z bloków spisowych do obszarów spisowych; pozwala na połączenie danych atrybutowych z danymi przestrzennymi na poziomie obszarów spisowych.
  • “COUNTY_CODE” - kod hrabstwa składający się z dwóch elementów - kodu stanu oraz kodu hrabstwa. Pozwala na identyfikację hrabstw w Stanach Zjednoczonych. Kod zostanie użyty do wyselekcjonowania danych dla wybranego hrabstwa.
  • “STATEA” - kod stanu
  • “COUNTYA” - kod hrabstwa
  • “TRACTA” - kod obszaru spisowego
  • “BLOCKA” - kod bloku
  • zestaw kolumn zawierający dane dotyczące rasowo-etnicznej struktur ludności.

3.2 Granice obszarów spisowych.

Dane zawierają m.in pola:

  • GISJOIN - identyfikator danych na poziomie obszarów spisowych, pozwala na połączenie danych atrybutowych z danymi przestrzennymi na poziomie obszarów spisowych. Uwaga! Aby połączyć dane atrybutowe dla obszarów spisowych z danymi przestrzennymi należy użyć pola GISJOIN_T z plików tekstowych oraz pola GISJOIN w danych przestrzennych.

  • CNT_CODE - kod hrabstwa składający się z dwóch elementów - kodu stanu oraz kodu hrabstwa. Pozwala na identyfikację hrabstw w Stanach Zjednoczonych. Kod zostanie użyty do wyselekcjonowania danych dla wybranego hrabstwa. W danych w plikach tekstowych kod ten zapisany jest w kolumnie COUNTY_CODE.

3.3 Kategorie rasowo-etniczne w Spisach Ludności

Podział na kategorie rasowo-etniczne zmieniał się między Spisami Ludności. W ćwiczeniach będziemy wykorzystywać podział na 5 grup:

  • Osoby nie wykazujące pochodzenia Latynowskiego (Not Hispanic or Latino) w podziale na grupy rasowe: Biali, Czarni, Azjaci, Rdzenni Amerykanie, Pozostali - osoby, które wskazały przynależność do więcej niż jednej grupy rasowo-etnicznej
  • Latynosi (bez względu na grupę rasową)

Rok 1990

Kod Kategoria
ET2001 Not Hispanic origin : White
ET2002 Not Hispanic origin: Blacks
ET2003 Not Hispanic origin: American Indian, Eskimo, or Aleut
ET2004 Not Hispanic origin: Asian alone or Pacific Islander
ET2005 Not Hispanic origin: Other race
ET2006 Hispanic origin : White
ET2007 Hispanic origin : Blacks
ET2008 Hispanic origin : American Indian, Eskimo, or Aleut
ET2009 Hispanic origin : Asian alone or Pacific Islander
ET2010 Hispanic origin : Other race

Rok 2000

Kod Kategoria
FYF001 Not Hispanic or Latino : White alone
FYF002 Not Hispanic or Latino : Black or African American alone
FYF003 Not Hispanic or Latino : American Indian and Alaska Native alone
FYF004 Not Hispanic or Latino : Asian alone
FYF005 Not Hispanic or Latino : Native Hawaiian and Other Pacific Islander alone
FYF006 Not Hispanic or Latino : Some other race alone
FYF007 Not Hispanic or Latino : Two or more races
FYF008 Hispanic or Latino : White alone
FYF009 Hispanic or Latino : Black or African American alone
FYF010 Hispanic or Latino : American Indian and Alaska Native alone
FYF011 Hispanic or Latino : Asian alone
FYF012 Hispanic or Latino : Native Hawaiian and Other Pacific Islander alone
FYF013 Hispanic or Latino : Some other race alone
FYF014 Hispanic or Latino : Two or more races

Rok 2010

Kod Kategoria
H7Z001 Total population
H7Z002 Not Hispanic or Latino
H7Z003 Not Hispanic or Latino : White alone
H7Z004 Not Hispanic or Latino : Black or African American alone
H7Z005 Not Hispanic or Latino : American Indian and Alaska Native alone
H7Z006 Not Hispanic or Latino : Asian alone
H7Z007 Not Hispanic or Latino : Native Hawaiian and Other Pacific Islander alone
H7Z008 Not Hispanic or Latino : Some other race alone
H7Z009 Not Hispanic or Latino : Two or more races
H7Z010 Hispanic or Latino

Rok 2020

Kod Kategoria
U7C001 Total population
U7C002 Hispanic or Latino
U7C005 Not Hispanic or Latino: White alone
U7C006 Not Hispanic or Latino: Black or African American alone
U7C007 Not Hispanic or Latino: American Indian and Alaska Native alone
U7C008 Not Hispanic or Latino: Asian alone
U7C009 Not Hispanic or Latino: Native Hawaiian and Other Pacific Islander alone
U7C010 Not Hispanic or Latino: Some other race alone
U7C011 Not Hispanic or Latino: Two or more races

4 Przygotowanie danych do analizy

W wyniku przygotowania danych powinny powstać 3 pliki:

  • plik tekstowy zawierający dane z bloków spisowych dla wybranego hrabstwa w roku X. [nazwa_hrabstwa]_[rok]_blocks_attr.csv
  • plik tekstowy zawierający dane zagregowane do obszarów spisowych dla wybranego hrabstwa w roku X. [nazwa_hrabstwa]_[rok]_tracts_attr.csv
  • plik z danymi przestrzennymi zawierający dane z obszarów spisowych połączone z granicami obszarów spisowych dla wybranego hrabstwa w roku X. Plik należy zapisać pod nazwą [nazwa_hrabstwa.gpkg, layer = tract_[rok]]

Pliki tekstowe csv należy zapisać w folderze data/dane_attr, natomiast plik gpkg w folderze data/dane_geo

Przygotowanie danych do analizy obejmuje 3 etapy:

  • Wybór danych dla wskazanego hrabstwa.
  • Klasyfikacja kategorii rasowo-etnicznych
  • Agregacja danych z bloków spisowych do obszarów spisowych i połączenie ich z warstwą przestrzenną zawierającą granice obszarów spisowych.

4.1 Wybór danych dla wskazanego hrabstwa.

  • Pliki w archiwum zip “dane_atrybutowe.zip” zawierają dane na poziomie bloków spisowych. Używając pola COUNTY_CODE proszę wybrać dane dla wskazanego hrabstwa. Proszę wykonać to zadanie dla dwóch wskazanych lat (np. 2000 oraz 2020).
  • Pliki w archiwum zip “dane_przestrzenne.zip” zawierają granice obszarów spisowych. Używając pola CNT_CODE proszę wybrać dane dla wskazanego hrabstwa. Proszę wykonać to zadanie dla dwóch wskazanych lat (np. 2000 oraz 2020).

W wyniku powstaną 2 pliki stanowiące dane wejściowe do analizy:

  • plik tekstowy zawierający dane z bloków spisowych dla wybranego hrabstwa w roku X (Nazwa pliku: [nazwa_hrabstwa]_[rok]_blocks.csv)
  • granice obszarów spisowych dla wybranego hrabstwa w roku X (Nazwa pliku: [nazwa_hrabstwa]_[rok]_tracts.shp)

4.2 Klasyfikacja kategorii rasowo-etnicznych

Wykorzystując dane w pliku tekstowym zawierające dane z bloków spisowych dla wybranego hrabstwa w roku X (Nazwa pliku: [nazwa_hrabstwa]_[rok]blocks.csv) należy przeklasyfikować kategorie rasowe do 6 grup. Plik należy zapisać pod nazwą [nazwa_hrabstwa][rok]_blocks_attr.csv.

Pliki dla różnych lat zawierają różny podział na kategorie rasowo-etniczne. Dane należy przeklasyfikować do 6 kategorii:

  • Biali (kolor żółty w tabelach),
  • Czarni (kolor zielony w tabelach),
  • Azjaci (kolor różowy w tabelach),
  • Rdzenni Amerykanie (kolor niebieski w tabelach)
  • Pozostali (kolor brązowy w tabelach),
  • Latynosi (kolor fioletowy w tabelach).

4.3 Obliczenie liczby ludności

Używając danych dla poszczególnych grup rasowo-etnicznych należy obliczyć ogólną liczbę ludności zamieszkujących dany blok spisowy. Dane przypisać do kolumny POP.

4.4 Agregacja danych z bloków spisowych do obszarów spisowych

Plik tekstowy zawiera dane z bloków spisowych dla wybranego hrabstwa w roku X (Nazwa pliku: [nazwa_hrabstwa]_[rok]blocks.csv). Wykorzystując pole GISJOIN_T należy zagregować te dane do poziomu obszarów spisowych (census tract). Plik wynikowy zapisać jako [nazwa_hrabstwa][rok]_tracts_attr.csv Jeśli dane zostały zagregowane poprawnie, będzie je można połączyć z danymi przestrzennymi (granice obszarów spisowych dla danego roku).

Przykład: Jak zagregować dane z bloków spisowych do obszarów spisowych?

Dane dla bloków spisowych

Tabela przedstawia dane dotyczące struktury rasowo-etnicznej dla 16 bloków spisowych dla 6 kategorii rasowo-etnicznych (WHITE, BLACK, ASIAN, HISPANIC, NATIVE AMERICAN, OTHER). Dane te można zagregować do dwóch obszarów spisowych (pole TRACTA -> 12301 oraz 12302).

dat <- read.csv("data/cw2/ex.csv")
Struktura rasowo-etniczna na poziomie bloków spisowych - 2010 rok
GISJOIN GISJOIN_T COUNTY_CODE STATEA COUNTYA TRACTA BLOCKA WHITE BLACK ASIAN AM OTHER HISPANIC POP
G06007500123011000 G0600750012301 6075 6 75 12301 1000 28 11 25 2 2 5 73
G06007500123011001 G0600750012301 6075 6 75 12301 1001 0 0 0 0 0 0 0
G06007500123011002 G0600750012301 6075 6 75 12301 1002 22 8 90 1 5 2 128
G06007500123011003 G0600750012301 6075 6 75 12301 1003 5 2 4 0 0 4 15
G06007500123011004 G0600750012301 6075 6 75 12301 1004 1 2 0 0 0 1 4
G06007500123011005 G0600750012301 6075 6 75 12301 1005 395 211 234 7 37 258 1142
G06007500123011006 G0600750012301 6075 6 75 12301 1006 43 10 93 0 4 9 159
G06007500123012000 G0600750012301 6075 6 75 12301 2000 372 72 401 6 41 321 1213
G06007500123021000 G0600750012302 6075 6 75 12302 1000 453 55 259 11 46 118 942
G06007500123021001 G0600750012302 6075 6 75 12302 1001 368 72 220 3 42 116 821
G06007500123022000 G0600750012302 6075 6 75 12302 2000 0 0 0 0 0 0 0
G06007500123022001 G0600750012302 6075 6 75 12302 2001 60 18 31 0 4 26 139
G06007500123022002 G0600750012302 6075 6 75 12302 2002 123 13 269 1 8 34 448
G06007500123022003 G0600750012302 6075 6 75 12302 2003 111 9 36 1 7 27 191
G06007500123022004 G0600750012302 6075 6 75 12302 2004 134 71 136 5 10 35 391
G06007500123022005 G0600750012302 6075 6 75 12302 2005 58 4 60 1 2 16 141

Dane dla obszarów spisowych (census tract)

Agregacja danych do obszarów spisowych

list_race <- c("WHITE", "BLACK", "ASIAN", "HISPANIC", "AM", "OTHER")
dat_ct <- aggregate(.~GISJOIN_T, dat[, c("GISJOIN_T", list_race, "POP")], FUN=sum) 
Struktura rasowo-etniczna na poziomie obszarów spisowych
GISJOIN_T WHITE BLACK ASIAN HISPANIC AM OTHER POP
G0600750012301 866 316 847 600 16 89 2734
G0600750012302 1307 242 1011 372 22 119 3073

Połączenie danych atrybutowych oraz danych geoprzestrzennych

library(sf)
## Linking to GEOS 3.6.2, GDAL 2.2.3, PROJ 4.9.3; sf_use_s2() is TRUE
ct_bnd <- st_read("data/cw2/ct_gis.shp")
## Reading layer `ct_gis' from data source 
##   `/home/anna/DYDAKTYKA/Analiza_geoinformacyjna/cwiczenia2022_23/na_www/data/cw2/ct_gis.shp' 
##   using driver `ESRI Shapefile'
## Simple feature collection with 2 features and 15 fields
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: -2274715 ymin: 1956801 xmax: -2274097 ymax: 1957183
## proj4string:   +proj=aea +lat_1=29.5 +lat_2=45.5 +lat_0=23 +lon_0=-96 +x_0=0 +y_0=0 +datum=NAD83 +units=m +no_defs
ct_attr <- merge(ct_bnd, dat_ct, by.x = "GISJOIN", by.y = "GISJOIN_T", all.x = TRUE)
st_write(ct_attr, "data/dane_geo/tract_attr.gpkg", delete_dsn = TRUE)
## Deleting source `data/dane_geo/tract_attr.gpkg' using driver `GPKG'
## Writing layer `tract_attr' to data source 
##   `data/dane_geo/tract_attr.gpkg' using driver `GPKG'
## Writing 2 features with 22 fields and geometry type Polygon.

5 Analiza struktury rasowo-etnicznej w wybranym hrabstwie w roku X.

Wykorzystując przygotowane dane na poziomie bloków spisowych (zapisane w plikach tekstowych) proszę obliczyć procentowy udział ludności w hrabstwie X w analizowanym roku.

6 Wynik pracy grupowej

6.1 Dane

  1. Folder data/dane_attr zawierający pliki tekstowe (csv) dla bloków oraz obszarów spisowych dla każdego roku.
  2. Folder data/dane_geo zawierający dane przestrzenne na poziomie obszarów spisowych:
  • Proszę przygotować pliki z granicami obszarów spisowych. Należy stworzyć jeden plik [nazwa_hrabstwa].gpkg wraz z warstwami zawierającymi dane dla poszczególnych lat.
  • Proszę przygotować pliki z dołączonymi danymi atrybutowymi. Należy stworzyć jeden plik [nazwa_hrabstwa]_attr.gpkg wraz z warstwami zawierającymi dane dla poszczególnych lat.

6.2 Analiza struktury rasowo-etnicznej w wybranym hrabstwie w latach 1990-2020.

Poniższe zadanie wymaga zestawienia wyników otrzymanych w danej grupie analizującej wybrane hrabstwo.

Uwaga! W przypadku grup 3 osobowych należy wykonać analizę dla lat 1990-2010.

Wykorzystując przygotowane dane na poziomie bloków spisowych (zapisane w plikach tekstowych) proszę przeanalizować jak zmieniła się struktura rasowa w hrabstwie w latach 1990-2020. Wyniki powinny zostać przedstawione w postaci 1 stronicowego raportu zawierający tabelę oraz krótki komentarz (max 250 słów).

  • Tabela 1. Liczba ludności w hrabstwie X w latach…
ROK POP BIALI CZARNI AZJACI RDZENNI_AMERYKANIE POZOSTALI LATYNOSI
1990
2000
2010
2020