library(sf) #analizy przestrzenna danych wektorowych w R

## Linking to GEOS 3.6.2, GDAL 2.2.3, PROJ 4.9.3

library(ggplot2)
library(ggResidpanel) #interaktywne wykresy diagnostyczne
library(ggfortify) # wykresy diagnostyczne w stylizacji ggplot2.

1 Wprowadzenie

Szczegółowe dane dotyczące rozmieszczenia ludności mają wiele zastosowań:
- Wpływ człowieka na środowisko
- Zarządzanie zasobami
- Zarządzanie w sytuacjach kryzysowych
- Wyznaczanie ludności w strefach ryzyka (huragany, powodzie)
- Modelowanie rozprzestrzeniania się chorób
- Dostępność (transport, służba zdrowia)
Dane o liczbie ludności zbierane są w trakcie Powszechnych Spisów Ludności od każdego mieszkańca, a potem agregowane do jednostek przestrzennych różnej wielkości; w Polsce są to np. województwa, powiaty, gminy, rejony i obwody spisowe.
Wielkość jednostek spisowych zależy od stopnia agregacji oraz lokalizacji (jednostki spisowe są mniejsze w miejskich obszarach zurbanizowanych oraz większe w obszarach poza miejskich)
Dla wielu praktycznych zastosowań nawet najmniejsze jednostki agregacji są zbyt duże, aby dostarczyć szczegółowych danych o rozmieszczeniu ludności.
Granice jednostek spisowych i administracyjnych (gminy, obszary spisowe) oraz jednostek przyrodniczych (zlewnie, regiony fizyczno-geograficzne) nie pokrywają się.
- Stwarza to problem w ustaleniu liczby osób mieszkających na obszarze analizy, oraz ich przestrzennym rozmieszczeniu.

2 Metody opracowania szczegółowych map rozmieszczenia ludności

Metody służące do przekształcania danych zagregowanych do danych o wyższej rozdzielczości można podzielić na dwie główne grupy:

metody powierzchniowo-wagowe (ang. areal interpolation, areal weightening interpolation)
- rodzaj interpolacji powierzchniowej używanej do przekształcania danych geograficznych z jednego zestawu granic w inny;
- wartości cechy (np. liczby ludności) przypisywane są do jednostki docelowej proporcjonalnie do odsetka powierzchni, w jakiej jednostka źródłowa pokrywa jednostkę docelową.
- Jednostką źródłową (ang. source zone) jest pierwotny zestaw granic, w jakim zagregowana jest dana cecha;
- Jednostką docelową (ang. target zone) jest wynikowy zestaw granic, do którego rozkładamy daną cechę (może nią być inny zestaw granic poligonowych lub siatka komórek rastra).
modelowanie dazymetryczne (ang. dasymetric modeling)
- Metoda ta wykorzystuje pomocnicze informacje o wyższej rozdzielczości przestrzennej (ang. ancillary data), celem doprecyzowania lokalizacji dekomponowanej przestrzennie cechy.
- Kluczowym krokiem przy konstruowaniu modelu dazymetrycznego jest ustalenie związku między dekomponowaną przestrzennie cechą (np. ogólną liczbą ludności), a danymi pomocniczymi
- Po ustanowieniu relacji między dekomponowaną przestrzennie cechą (np. ogólną liczbą ludności, gęstością zaludnienia), a danymi pomocniczymi (np. klasami pokrycia terenu i użytkowania ziemi), zagregowane dane są w odpowiedniej proporcji rozkładane do oczek siatki (rastrowej).
- Wynikowa mapa reprezentująca rozmieszczenie ogólnej liczby ludności będzie mieć taką samą rozdzielczość jak dane pomocnicze.

3 Cel ćwiczenia

Celem ćwiczenia jest przygotowanie szczegółowej mapy rozmieszczenia ludności dla obszaru zlewni górnej Parsęty.
Dane wejściowe:
- liczba ludności w siatce 1x1km.
- punkty adresowe

3.1 Etapy wykonania ćwiczenia

Znalezienie danych pomocniczych, które można wykorzystać do opracowania szczegółowej mapy rozmieszczenia ludności.
- Wykorzystanie analizy regresji do ustalenia czy istnieje relacja między danymi pomocniczymi oraz liczbą ludności.
Przygotowanie szczegółowych danych o liczbie ludności.
- Wykorzystanie modelowania dazymetrycznego do dekompozycji liczby ludności zagregowanej w siatce 1x1km do siatki 100x100m.

4 Obszar badań.

Analiza zostanie przeprowadzona dla zlewni górnej Parsęty.

Zlewnia górnej Parsęty jest częścią programu Zintegrowany Monitoring Środowiska Przyrodniczego.
Zlewnia Stacji Bazowej Storkowo.
powierzchnia, ok. \(74 km^2\)

4.1 Rozmieszczenie liczby ludności

Kolorem szarym zaznaczone zostały komórki niezamieszkałe.

4.2 Lokalizacja obszarów zamieszkałych.

Budynki oraz punkty adresowe znajdują się także na obszarze nie zaznaczonym jako obszar zabudowany na mapie pokrycia terenu/użytkowania ziemi CLC2012 (kolor czerwony).
Według CLC2012 nie każde zamieszkałe oczko siatki 1km ma obszary zabudowane.

Corine Land Cover jest zbyt ogólną mapą; nie może zostać wykorzystana jako dane pomocnicze do przygotowania szczegółowej mapy rozmieszczenia ludności w zlewni górnej Parsęty.

5 Dane

5.1 Granica zlewni górnej Parsęty

Źródło danych: MPHP (Mapa Podziału Hydrograficznego Polski).
Układ współrzędnych: Polski Układ Współrzędnych Geograficznych 1992 (EPSG: 2180)

zlewnia <- st_read("dane_dasy/zlewnia_gp.shp")

## Reading layer `zlewnia_gp' from data source `/home/anna/DYDAKTYKA/MODELOWANIE/dane_dasy/zlewnia_gp.shp' using driver `ESRI Shapefile'
## Simple feature collection with 1 feature and 1 field
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: 328886.4 ymin: 652023.5 xmax: 342809.8 ymax: 661330.8
## proj4string:   +proj=tmerc +lat_0=0 +lon_0=19 +k=0.9993 +x_0=500000 +y_0=-5300000 +ellps=GRS80 +units=m +no_defs

5.2 Rozmieszczenie ludności w siatce 1x1km

Źródło danych: GRID 2011 – rozmieszczenie ludności w siatce kilometrowej dla roku 2011. Dane zostały opracowane w oparciu o wyniki Narodowego Spisu Powszechnego Ludności i Mieszkań 2011.
Pobranie danych: https://geo.stat.gov.pl/inspire
Układ współrzędnych: EPSG:3035

#wczytanie danych z pliku shp
pop1km_3035 <- st_read("dane_dasy/pop1km_gp3035.shp")

## Reading layer `pop1km_gp3035' from data source `/home/anna/DYDAKTYKA/MODELOWANIE/dane_dasy/pop1km_gp3035.shp' using driver `ESRI Shapefile'
## Simple feature collection with 105 features and 16 fields
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: 4743000 ymin: 3418000 xmax: 4758000 ymax: 3429000
## proj4string:   +proj=laea +lat_0=52 +lon_0=10 +x_0=4321000 +y_0=3210000 +ellps=GRS80 +units=m +no_defs

#transformacja układów współrzędnych z układu 3035 -> 2180
pop1km  <- st_transform(pop1km_3035, 2180)
pop1km <- pop1km[,c("TOT", "CODE")]
head(pop1km)

## Simple feature collection with 6 features and 2 fields
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: 328571.6 ymin: 652422.9 xmax: 330933.3 ymax: 656512.9
## CRS:           EPSG:2180
##   TOT                            CODE                       geometry
## 1   0 CRS3035RES1000mN3421000E4743000 POLYGON ((329689.6 654530.2...
## 2   4 CRS3035RES1000mN3420000E4743000 POLYGON ((329563.9 653538.8...
## 3  14 CRS3035RES1000mN3421000E4744000 POLYGON ((330681.8 654405.6...
## 4  16 CRS3035RES1000mN3422000E4744000 POLYGON ((330807.6 655396.9...
## 5  29 CRS3035RES1000mN3420000E4744000 POLYGON ((330556.1 653414.3...
## 6  61 CRS3035RES1000mN3419000E4744000 POLYGON ((330430.4 652422.9...

5.3 Punkty adresowe

Źródło danych: Dane z państwowego rejestru granic i powierzchni jednostek podziałów terytorialnych kraju - PRG udostępniane przez Główny Urząd Geodezji i Kartografii
Pobranie danych: http://www.gugik.gov.pl/pzgik/dane-bez-oplat/dane-z-panstwowego-rejestru-granic-i-powierzchni-jednostek-podzialow-terytorialnych-kraju-prg
Dane adresowe w paczkach dla gmin, powiatów i województw zapisane w plikach *.SHP są dostępne do pobrania w serwisie geoportal.gov.pl (warstwa „Dane do pobrania”).
Układ współrzędnych: Polski Układ Współrzędnych Geograficznych 1992 (EPSG: 2180)

punkty_adresy <- st_read("dane_dasy/punkty_adresowe_gp.shp")

## Reading layer `punkty_adresowe_gp' from data source `/home/anna/DYDAKTYKA/MODELOWANIE/dane_dasy/punkty_adresowe_gp.shp' using driver `ESRI Shapefile'
## Simple feature collection with 549 features and 15 fields
## Geometry type: POINT
## Dimension:     XY
## Bounding box:  xmin: 329409.4 ymin: 651664.3 xmax: 343039.7 ymax: 661702
## proj4string:   +proj=tmerc +lat_0=0 +lon_0=19 +k=0.9993 +x_0=500000 +y_0=-5300000 +ellps=GRS80 +units=m +no_defs

punkty_adresy <- punkty_adresy[,c("jednostkaA", "miejscowos")]

5.4 Siatka o rozdzielczości 100m.

Siatka o wielkości oczka 100 na 100m posłuży do przygotowania końcowej mapy rozmieszczenia ludności.
Siatka musi zostać tak przygotowana, aby każde oczko 1km dzieliło się na mniejsze oczka 100m.
Przygotowanie takiej siatki jest łatwiejsze w QGIS.

Etapy przygotowania siatki:

Wybrać w QGIS Vector - Research Tools - Create Grid.
- Grid type: Rectangle
- Grid extent: Use Layer Extent - pop1km_gp3035
- Horizontal, Vertical Spacing: 100
- Grid CRS: 3035
Transformacja siatki do PUWG1992 (EPSG:2180).

grid100m <- st_read("dane_dasy/grid100m_2180.shp")

## Reading layer `grid100m_2180' from data source `/home/anna/DYDAKTYKA/MODELOWANIE/dane_dasy/grid100m_2180.shp' using driver `ESRI Shapefile'
## Simple feature collection with 10500 features and 5 fields
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: 328571.6 ymin: 651057.9 xmax: 343832.3 ymax: 661962.3
## proj4string:   +proj=tmerc +lat_0=0 +lon_0=19 +k=0.9993 +x_0=500000 +y_0=-5300000 +ellps=GRS80 +units=m +no_defs

grid100m <- grid100m[,1]

Siatka 100m z nałożoną siatką 1km (czerwona granica) - Układ współrzędnych - EPSG2180.

6 Analiza zależności między ogólną liczbą ludności, a liczbą punktów adresowych.

Celem analizy jest sprawdzenie czy istnieje zależność między liczbą ludności oraz liczbą punktów adresowych?
W przypadku odnotowania takiej zależności punkty adresowe mogłyby być wykorzystane do dekompozycji ogólnej liczby ludności w celu otrzymania bardziej szczegółowej mapy (np. o rozdzielczości 100m).

Etapy analizy

Etapy analizy obejmują:

przygotowanie danych do analizy.
zbudowanie modelu liniowego między liczbą ludności oraz liczbą punktów adresowych.
ocena dopasowania modelu.
wizualizacja wyników.

6.1 Przygotowanie danych do analizy.

W analizie wykorzystane zostaną dwa zestawy danych:

liczba ludności w siatce 1km na 1km;
punkty adresowe
- punkty adresowe muszą zostać zsumowane do tej samej siatki 1x1km, w której dostępne są dane o rozmieszczeniu ludności.

1. Zsumowanie punktów adresowych do siatki 1x1km

Funkcja st_join() (spatial join) z pakietu sf to odpowiednik narzędzia Select by Location w QGIS.
Funkcja służy do wykonania selekcji na podstawie lokalizacji, tj. wybraniu obiektów według ich położenia oraz relacji przestrzennych z obiektami innych warstw.
W wyniku zostanie stworzona warstwa posiadająca atrybuty obu warstw, w której do każdego punktu adresowego zostanie przypisane ID oczka siatki 1x1km, w którym ten punkt się znajduje.

adresy_w_pop1km <- st_join(punkty_adresy, pop1km)
head(adresy_w_pop1km)

## Simple feature collection with 6 features and 4 fields
## Geometry type: POINT
## Dimension:     XY
## Bounding box:  xmin: 329994.5 ymin: 651711.6 xmax: 334613.9 ymax: 657409.2
## proj4string:   +proj=tmerc +lat_0=0 +lon_0=19 +k=0.9993 +x_0=500000 +y_0=-5300000 +ellps=GRS80 +units=m +no_defs 
##                                           jednostkaA   miejscowos TOT
## 1 (4:Polska,zachodniopomorskie,szczecinecki,Barwice)    Ostropole  29
## 2 (4:Polska,zachodniopomorskie,szczecinecki,Barwice)     Jeziorki  55
## 3 (4:Polska,zachodniopomorskie,szczecinecki,Barwice)    Chwalimki 224
## 4 (4:Polska,zachodniopomorskie,szczecinecki,Barwice)     Jeziorki  55
## 5 (4:Polska,zachodniopomorskie,szczecinecki,Barwice)    Ostropole  29
## 6 (4:Polska,zachodniopomorskie,szczecinecki,Barwice) Nowy Chwalim  51
##                              CODE                  geometry
## 1 CRS3035RES1000mN3420000E4744000 POINT (330133.2 653566.2)
## 2 CRS3035RES1000mN3418000E4747000 POINT (333348.7 651735.6)
## 3 CRS3035RES1000mN3421000E4746000 POINT (332394.2 655051.8)
## 4 CRS3035RES1000mN3418000E4747000 POINT (333114.9 651711.6)
## 5 CRS3035RES1000mN3420000E4744000 POINT (329994.5 653985.1)
## 6 CRS3035RES1000mN3424000E4748000 POINT (334613.9 657409.2)

Zliczając ile razy wystąpił dany kod oczka siatki (kolumna CODE) uzyskamy informację ile jest punktów w danym poligonie.

Powyższe operacje są odpowiednikiem narzędzia Vector - Analysis Tools - Count points in polygon w QGIS.

count_punkty <- as.data.frame(table(adresy_w_pop1km$CODE))
colnames(count_punkty) <- c("CODE", "N_ADRESY")

2. Warstwa przestrzenna zawierająca ogólną liczbę ludności oraz liczbę punktów adresowych.

Połączenie warstwy pop1km zawierającej informacje z liczbą ludności (TOT) w siatce 1x1km oraz liczby punktów adresowych w każdym oczku siatki (N_ADRESY).

pop1km <- merge(pop1km, count_punkty, by = "CODE", all.x = TRUE)

head(pop1km)

## Simple feature collection with 6 features and 3 fields
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: 329438.1 ymin: 651057.9 xmax: 333532.8 ymax: 653538.8
## CRS:           EPSG:2180
##                              CODE TOT N_ADRESY                       geometry
## 1 CRS3035RES1000mN3418000E4746000   0       NA POLYGON ((332289.2 651182.4...
## 2 CRS3035RES1000mN3418000E4747000  55       16 POLYGON ((333281.4 651057.9...
## 3 CRS3035RES1000mN3419000E4744000  61       14 POLYGON ((330430.4 652422.9...
## 4 CRS3035RES1000mN3419000E4745000  38       13 POLYGON ((331422.6 652298.3...
## 5 CRS3035RES1000mN3419000E4746000  16        8 POLYGON ((332414.9 652173.8...
## 6 CRS3035RES1000mN3419000E4747000   0       NA POLYGON ((333407.1 652049.2...

Zastąpienie wartości NA przez 0 dla kolumny N_ADRESY. NA oznacza, że w danym oczku siatki nie było żadnych punktów adresowych (Zauważ, że obiekt count_punkty ma 66 obserwacji (tj. w 66 oczkach siatki wystąpił przynajmniej 1 punkt adresowy), a obiekt pop1km 105 obserwacji).

pop1km$N_ADRESY[is.na(pop1km$N_ADRESY)]<- 0
summary(pop1km)

##      CODE                TOT           N_ADRESY               geometry  
##  Length:105         Min.   :  0.0   Min.   : 0.000   POLYGON      :105  
##  Class :character   1st Qu.:  0.0   1st Qu.: 0.000   epsg:2180    :  0  
##  Mode  :character   Median :  7.0   Median : 2.000   +proj=tmer...:  0  
##                     Mean   : 22.7   Mean   : 5.229                      
##                     3rd Qu.: 20.0   3rd Qu.: 5.000                      
##                     Max.   :337.0   Max.   :54.000

6.2 Określenie zależności między liczbą ludności, a liczbą punktów adresowych.

Dalsza część analizy zostanie wykonana tylko dla “zamieszkałych” oczek siatki; tj. dla których zarówno liczba ludności, jak i liczba punktów adresowych jest wieksza od 0.
Oczka siatki, które posiadają 0 liczbę ludności oraz 0 liczbę punktów adresowych nie będą uwzględnione w budowaniu modelu regresji.

1. Selekcja danych do analizy

# selekcja danych
dat <- pop1km[pop1km$TOT>0 & pop1km$N_ADRESY> 0,]

# dodanie numerów wierszy od 1 do ...
rownames(dat) <- 1:nrow(dat)

# Usunięcie kolumny z geometrią. Dane bedą traktowane jak obiekt nieprzestrzenny - ramka danych. 
# Funkcja merge nie zadziała na dwóch obiektach klasy przestrzennej sf. 
# Dlatego jeden obiekt musi zostać przekształcony do ramki danych. 
st_geometry(dat) <- NULL

2. Zależność między liczbą ludności, a liczbą punktów adresowych.

Chcemy wyjaśnić, jak zmienna TOT (liczba ludności) zależy od zmiennej N_ADRESY (liczba punktów adresowych).
- Liczba ludności (TOT) jest zmienną zależną, objaśnianą (znajduje się zatem na osi Y)
- Liczba punktów adresowych (N_ADRESY) to zmienna niezależna, objaśniająca (znajduje się zatem na osi X)

ggplot(dat, aes(x=N_ADRESY, y=TOT)) + 
  geom_point() +
  labs(x = "Liczba punktow adresowych (N_ADRESY)", y = "Liczba ludnosci (TOT)") + 
  geom_smooth(method = "lm") + 
  theme_bw()

## `geom_smooth()` using formula 'y ~ x'

6.3 Budowa modelu regresji liniowej

model_1 <- lm(TOT~N_ADRESY, dat)
summary(model_1)

## 
## Call:
## lm(formula = TOT ~ N_ADRESY, data = dat)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -61.803 -11.556  -2.030   1.492 230.742 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.4782     6.3106   0.234    0.816    
## N_ADRESY      4.1912     0.4763   8.799 1.64e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 38.63 on 62 degrees of freedom
## Multiple R-squared:  0.5553, Adjusted R-squared:  0.5482 
## F-statistic: 77.43 on 1 and 62 DF,  p-value: 1.644e-12

Pytanie: W jakim stopniu liczba ludności (TOT) jest wyjaśniana przez liczbę punktów adresowych? Jakie są statystyki reszt?

6.4 Ocena dopasowania modelu

6.4.1 Wykresy diagnostyczne

library(ggfortify)
autoplot(model_1) + theme_bw()

Interaktywne wykresy diagnostyczne

library(ggResidpanel)
resid_interact(model_1, plots='R')

library(ggResidpanel)
resid_interact(model_1, plots='all')

## Warning in geom2trace.default(dots[[1L]][[1L]], dots[[2L]][[1L]], dots[[3L]][[1L]]): geom_GeomFunction() has yet to be implemented in plotly.
##   If you'd like to see this geom implemented,
##   Please open an issue with your example code at
##   https://github.com/ropensci/plotly/issues

Pytanie: Czego dowiadujemy się z wykresów diagnostycznych? Czy model jest dobrze dopasowany? Czy spełnione są założenia regresji liniowej?

6.4.2 Identyfikacja wartości odstających

library(car)

## Loading required package: carData

outlierTest(model_1)

##    rstudent unadjusted p-value Bonferroni p
## 10 9.774152         4.2405e-14   2.7139e-12
## 12 4.722724         1.4082e-05   9.0127e-04

ggplot(dat, aes(x=N_ADRESY, y=TOT))+ 
  geom_point() +
  geom_point(data = dat[c(10, 12, 18),], aes(x=N_ADRESY, y=TOT), color = "red", size = 4) +
  labs(x = "Liczba punktow adresowych (N_ADRESY)", y = "Liczba ludnosci (TOT)") + 
  geom_smooth(method = "lm") + 
  theme_bw()

## `geom_smooth()` using formula 'y ~ x'

6.5 Jak zmieni się model po wyeliminowaniu wartości odstających i wpływowych?

dat0 <- dat[!rownames(dat) %in%c(c(10,12, 18)),]

ggplot(dat0, aes(x=N_ADRESY, y=TOT)) + 
  geom_point() +
  labs(x = "Liczba punktow adresowych (N_ADRESY)", y = "Liczba ludnosci (TOT)") + 
  geom_smooth(method = "lm") + 
  theme_bw()

## `geom_smooth()` using formula 'y ~ x'

6.5.1 Budowa modelu - bez wartości wpływowych.

model_2 <- lm(TOT~N_ADRESY, dat0)
summary(model_2)

## 
## Call:
## lm(formula = TOT ~ N_ADRESY, data = dat0)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -31.971  -6.010   0.144   3.721  37.414 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.7019     2.0067    0.35    0.728    
## N_ADRESY      3.5769     0.1817   19.68   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.64 on 59 degrees of freedom
## Multiple R-squared:  0.8678, Adjusted R-squared:  0.8656 
## F-statistic: 387.4 on 1 and 59 DF,  p-value: < 2.2e-16

Model liniowej zależności między liczbą ludności a liczbą punktów adresowych (zbudowany po usunięciu wartości odstających) wzkazuje, że liczba ludności w 86% wyjaśniana jest przez liczbę punktów adresowych (wartość R2). Mediana błędów (reszt) wynosi 0.144 przy rozrzucie błędów między -31 a + 37 osób.

6.5.2 Ocena dopasowania modelu.

autoplot(model_2) + theme_bw()

resid_interact(model_2, plots='all')

## Warning in geom2trace.default(dots[[1L]][[1L]], dots[[2L]][[1L]], dots[[3L]][[1L]]): geom_GeomFunction() has yet to be implemented in plotly.
##   If you'd like to see this geom implemented,
##   Please open an issue with your example code at
##   https://github.com/ropensci/plotly/issues

6.5.3 Wyniki modelu

Do obiektu dat0 dodane zostaną 2 kolumny:

EST_POP - wartość liczby ludności oszacowana przez model,
RES - reszty z modelu (różnica między wartościami obserwowanymi TOT oraz oszacowanymi przez model EST_POP)

dat0$EST_POP <- model_2$fitted.values
dat0$RES <- model_2$residuals

head(dat0)

##                              CODE TOT N_ADRESY   EST_POP        RES
## 1 CRS3035RES1000mN3418000E4747000  55       16 57.932381  -2.932381
## 2 CRS3035RES1000mN3419000E4744000  61       14 50.778571  10.221429
## 3 CRS3035RES1000mN3419000E4745000  38       13 47.201665  -9.201665
## 4 CRS3035RES1000mN3419000E4746000  16        8 29.317139 -13.317139
## 5 CRS3035RES1000mN3420000E4743000   4        2  7.855708  -3.855708
## 6 CRS3035RES1000mN3420000E4744000  29       13 47.201665 -18.201665

6.6 Obiekt wynikowy

# 
out <- merge(pop1km, dat0[, c("CODE", "EST_POP", "RES")], by = "CODE", all.x = TRUE)

6.7 Wizualizacja wyników modelu na mapie - przestrzenna analiza wyników analizy regresji.

 ggplot(out) +
  geom_sf(aes(fill = TOT)) + 
  scale_fill_distiller(palette = "OrRd", breaks = seq(0, 350, 50), limits=c(0,350), direction=1, na.value = "grey") + 
  theme_bw()

 ggplot(out) +
  geom_sf(aes(fill = EST_POP)) +
  scale_fill_distiller(palette = "OrRd", breaks = seq(0, 350, 50), limits=c(0,350), direction=1, na.value = "grey") +
  theme_bw()

ggplot(out) +
  geom_sf(aes(fill = RES)) + 
  scale_fill_gradient2(low = "blue", mid = "white", high = "red", midpoint = 0, na.value = "grey") + 
  theme_bw()

6.8 Predykcja dla usuniętych wartości

Proszę zauważyć na powyższych mapach, że dla kilku oczek siatki wartość estymowana jest NA, podczas gdy istnieje wartość liczby ludności TOT. Model został zbudowany po usunięciu 3 wartości odstających - dla nich zatem nie została wykonana predykcja. Poniżej użyjemy modelu do oszacowania liczby ludności dla 3 punktów usuniętych przy budowaniu modelu.

#ramka danych z danymi do predykcji
dat_outlier <- dat[rownames(dat) %in%c(c(10,12, 18)),]

#predykcja
est_pop <- predict(model_2, dat_outlier)

#dodanie wartosci predykcji do obiektu wynikowego
out$EST_POP[out$CODE%in%dat_outlier$CODE]<- est_pop

#przypisanie wartosci estymowanej 0 dla punktow dla ktorych TOT=0 oraz N_ADRESY=0 (punkty te nie byly brane do budowy modelu)
out$EST_POP[is.na(out$EST_POP)]<- 0

#obliczenie reszt 
out$RES <- out$TOT - out$EST_POP

st_write(out, "out/out_model_punkty_adresowe.shp", delete_dsn = TRUE)

## Deleting source `out/out_model_punkty_adresowe.shp' using driver `ESRI Shapefile'
## Writing layer `out_model_punkty_adresowe' to data source `out/out_model_punkty_adresowe.shp' using driver `ESRI Shapefile'
## Writing 105 features with 5 fields and geometry type Polygon.

7 Wykorzystanie liczby punktów adresowych jako danych pomocniczych do dekopozycji ogólnej liczby ludności.

Dane dotyczące liczby ludności przedstawione są w siatce 1x1km.
Celem analizy jest przygotowanie mapy rozmieszczenia ludności w siatce 100x100m wykorzystując liczbę punktów adresowych jako zmienną pomocniczą do rozmieszczenia liczby ludności.

7.1 Ogólna liczba ludności oszacowana przez model.

c(suma_TOT = sum(out$TOT, na.rm = TRUE), 
  suma_EST_POP = sum(out$EST_POP, na.rm = TRUE) )

##     suma_TOT suma_EST_POP 
##     2383.000     1997.912

Na podstawie danych w 1km siatce w analizowany obszar zamieszkany było przez 2383 osoby, podczas gdy liczba osób oszacowana na podstawie modelu regresji wynosi 1998 osób.

Model regresji nie zachowuje oryginalnej liczby osób
Przy tworzeniu szczegółowej mapy rozmieszczenia ludności zależy nam na zachowaniu oryginalnej liczby osób, oraz na otrzymaniu bardziej szczegółowej lokalizacji przestrzennej.
Do utworzenia mapy rozmieszczenia ludności nie możemy bezpośrednio wykorzystać wyników analizy regresji (nie możemy zliczyć liczby punktów adresowych w każdym oczku siatki 100x100m a następnie podstawić tej zmiennej do równania modelu regresji liniowej)

7.2 Dekompozycja liczby ludności z siatki 1km na 1km do siatki 100 na 100m.

Analiza regresji pozwoliła na ustalenie, że istnieje zależność między liczba ludności, a liczbą punktów adresowych
Informacja ta zostanie wykorzystana do dekompozycji liczby ludności z siatki 1km do siatki 100m.
Wykorzystana zostanie w tym celu procedura nazywana modelowaniem dazymetrycznym.
- Liczba punktów adresowych będzie wykorzystana jako dane pomocniczne
- Każde oczko siatki 1km składa się ze 100 (10 x 10) oczek siatki 100m.
- Liczba ludności z siatki 1km do siatki 100m zostanie zdekomponowana dla każdego “dużego oczka” z osobna.
- W ten sposób zostanie zachowana liczba ludności dla każdego oczka 1km na 1km.
- W każdym “dużym oczku siatki” ludzie zostaną rozłożeni do oczek 100x100m proporcjonalnie do liczby punktów adresowym “w małym oczku”.

7.3 Przygotowanie danych pomocniczych - liczba punktów adresowych w siatce 100m.

1. W którym oczku 1km znajduje się oczko 100m?

Funkcja st_centroids() z pakietu sf wyznacza centroidy (Odpowiednik narzędzia Vector - Geometry Tools - Centroids w QGIS).

grid100m_centroidy <- st_centroid(grid100m)

## Warning in st_centroid.sf(grid100m): st_centroid assumes attributes are constant
## over geometries of x

Dla każdego oczka siatki 100m zostanie wyznaczony centroid, a następnie używając narzędzia selekcji przez lokalizację (funkcja st_join()) do każdego centroidu zostanie przypisany identyfikator oczka 1km.

x = st_join(grid100m_centroidy[,1], pop1km)
x$geometry<- NULL

Informacja ta zostanie przypisana do danych poligonowych grid100m. - Kolumna CODE zawiera kod oczka 1km. - Kolumna id to identyfikator oczka 100m. - Kolumna TOT to liczba ludności w oczku 1km - Kolumna N_ADRESY to liczba adresów w oczku 1km.

grid100m <- merge(grid100m, x, by = "id")

2. Liczba punktów adresowych w oczku 100m

Liczba punktów adresowych w oczku 100m jest obliczana w taki sam sposób jak liczba punktów adresowych w siatce 1km.

adresy_grid100m <- st_join(punkty_adresy, grid100m)
count_punkty100 <- as.data.frame(table(adresy_grid100m$id))
colnames(count_punkty100) <- c("id", "N_ADRESY100")

grid100m <- merge(grid100m, count_punkty100, by = "id", all.x = TRUE)

grid100m$N_ADRESY100[is.na(grid100m$N_ADRESY100)]<-0

Kolumna N_ADRESY100 zawiera liczbę punktów adresowych w oczku siatki 100m.

head(grid100m)

## Simple feature collection with 6 features and 5 fields
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: 328747.6 ymin: 655038.9 xmax: 328922.3 ymax: 655646.1
## proj4string:   +proj=tmerc +lat_0=0 +lon_0=19 +k=0.9993 +x_0=500000 +y_0=-5300000 +ellps=GRS80 +units=m +no_defs 
##   id                            CODE TOT N_ADRESY N_ADRESY100
## 1 71 CRS3035RES1000mN3421000E4743000   0        1           0
## 2 72 CRS3035RES1000mN3421000E4743000   0        1           0
## 3 73 CRS3035RES1000mN3421000E4743000   0        1           0
## 4 74 CRS3035RES1000mN3421000E4743000   0        1           0
## 5 75 CRS3035RES1000mN3421000E4743000   0        1           0
## 6 76 CRS3035RES1000mN3421000E4743000   0        1           0
##                         geometry
## 1 POLYGON ((328823.1 655646.1...
## 2 POLYGON ((328810.5 655547, ...
## 3 POLYGON ((328797.9 655447.9...
## 4 POLYGON ((328785.4 655348.7...
## 5 POLYGON ((328772.8 655249.6...
## 6 POLYGON ((328760.2 655150.5...

7.4 Dekompozycja liczby ludności

7.4.1 Obliczenie wag dla każdego oczka siatki 1km.

Waga (oznaczająca jaka część liczby ludności z oczka siatki 1km ma być przypisana do oczka siatki 100m) obliczana jest jako

\[WAGA = \frac{Liczba adresów w siatce 100m}{Liczba adresów w siatce 1km} = \frac{NADRESY100}{NADRESY}\]

grid100m$WAGA <- grid100m$N_ADRESY100/grid100m$N_ADRESY

7.4.2 Przypisanie liczby ludności do oczka 100m.

\[ESTPOP = WAGA * TOT\] EST_POP - Liczba ludności w siatce 100m. TOT - liczba ludności w oczku siatki 1km.

grid100m$EST_POP <- grid100m$WAGA *grid100m$TOT

grid100m$EST_POP[is.na(grid100m$EST_POP)]<-0

st_write(grid100m, "out/grid100m_pop.shp", delete_dsn = TRUE)

## Warning in abbreviate_shapefile_names(obj): Field names abbreviated for ESRI
## Shapefile driver

## Deleting source `out/grid100m_pop.shp' using driver `ESRI Shapefile'
## Writing layer `grid100m_pop' to data source `out/grid100m_pop.shp' using driver `ESRI Shapefile'
## Writing 10500 features with 7 fields and geometry type Polygon.

Wykorzystanie modelowania dazymetrycznego do opracowania szczegółowej (100m) mapy rozmieszczenia ludności dla zlewni górnej Parsęty

Część 1. Wykorzystanie analizy regresji do określenia zależności między ogólną liczbą ludności a punktami adresowymi.

Anna Dmowska (dmowska@amu.edu.pl)