Analiza geoinformacyjna w naukach społecznych

Ćwiczenie 5 i 6: Zadanie samodzielne: Zastosowanie regresji wielokrotnej do modelowania cen nieruchomości w wybranym obszarze w Stanach Zjednoczonych

Author

Anna Dmowska

Poniższe zadanie wykonywane jest w grupach dwuosobowych. Każda grupa wybiera jedno hrabstwo oraz przedstawia jeden raport z wykonanej analizy. Otrzymane wyniki będą prezentowane przez każdą grupę na kolejnych zajęciach.

1 Zadanie

Wykorzystując pobrane dane dla wybranego hrabstwa w Stanach Zjednoczonych (lista hrabstw do wyboru znajduje się poniżej) proszę:

  • przeprowadzić eksploracyjną analizę danych obejmującą:

    • obliczenie statystyk opisowych
    • analizę korelacji (jakie zmienne niezależne są między sobą najbardziej skorelowane?, które zmienne niezależne najbardziej korelują ze zmienną zależną?)
  • przeanalizować rozkład cen nieruchomości

    • histogram cen nieruchomości (median value)
    • mapę rozkładu przestrzennego cen nieruchomości
  • zwizualizować zmienne niezależne, które będą użyte w modelu

  • zbudować model regresji wielokrotnej przedstawiający zależność między wartością domów w danym obszarze, a pozostałymi zmiennymi społeczno-ekonomicznymi.

    • Jeśli zmienna zależna (ceny nieruchomości) ma rozkład asymetryczny, przed budową modelu należy dokonać transformacji danych używając logarytmu.
    • Zestaw zmiennych społeczno-ekonomicznych można także rozszerzyć o inne zmienne.
  • zinterpretować wyniki modelu

    • które zmienne były istotne statystycznie?
    • jakie są statystyki reszt?
    • jaki jest rozkład przestrzenny reszt?
    • w jakim stopniu zmienne niezależne wyjaśniają wartość cen domów?

2 Raport końcowy

  • Tytuł: Modelowanie cen nieruchomości w hrabstwie X w roku 2020.

  • Rozdziały:

    • Wprowadzenie zawierające także cen analizy
    • Dane i metody: zawiera mapy pokazujące przestrzenny rozkład cen nieruchomości oraz zmiennych zależnych użytych do budowy modelu
    • Eksploracyjna analiza danych - zawiera wyniki obejmujące zestawienie statystyk opisowych, wyniki analizy korelacji
    • Modelowanie cen nieruchomości - zawiera wyniki analizy regresji
    • Podsumowanie
  • Proszę wykorzystać dokument Quarto do wykonania raportu,

  • Wynikowy raport należy zapisać w pliku html.

  • Proszę w wynikowym dokumencie zastosować opcję ukrycia kodu

  • W nagłówku dokumentu proszę podać:

title: "Tytuł raportu"
author: "Autor"
format:
  html:
    code-fold: true # ta opcja spowoduje, że kod będzie domyślnie ukryty z możliwością odkrycia bloku kodu. 

`

2.1 Lista hrabstw

Poniższa tabela zawiera zestawienie nazw hrabstw (COUNTY) wraz z informacją w jakim stanie (STATE) hrabstwo się znajduje. Te informacje lub kody (COUNTY_CODE, STATE_CODE) są wykorzystywane do pobrania danych społeczno-ekonomicznych. Dodatkowo w kolumnie CITY znajduje się informacja dotycząca miasta, które obejmuje dane hrabstwo.

library(knitr)
cities = read.csv("cities.csv", colClasses = rep("character", 5))
kable(cities)
COUNTY_NAME STATE COUNTY_CODE STATE_CODE CITY
Travis Texas 48453 48 Austin
Cook Illinois 17031 17 Chicago
Jefferson Kentucky 21111 21 Louisville
San Francisco California 06075 06 San Francisco
Shelby Tennessee 47157 47 Memphis
King Washington 53033 53 Seattle
Pima Arizona 04019 04 Tucson
Wayne Michigan 26163 26 Detroit
Jackson Missouri 29095 29 Kansas City
Los Angeles California 06037 06 Los Angeles
Davidson Tennessee 47037 47 Nashville
Virginia Beach Virginia 51819 51 Virginia Beach
St. Louis Missouri 29519 29 St Louis
New York New York 36061 36 New York
Bronx New York 36005 36 New York
Queens New York 36081 36 New York
Kings New York 36047 36 New York
Suffolk Massachusetts 25025 25 Boston
Harris Texas 48201 48 Houston
Hennepin Minnesota 27053 27 Minneapolis
Mecklenburg North Carolina 37119 37 Charlotte

2.2 Dane do pobrania

Dane do pobrania obejmują:

  • median_value: mediana cen nieruchomości, zmienna zależna w modelu regresji.
  • median_rooms: Mediana liczby pokoi w budynkach znajdujących się w obszarze spisowym;
  • total_population: Ogólna liczba ludności w obszarze spisowym;
  • median_age: Mediana wieku osób zamieszkujących dany obszar spisowy;
  • median_year_built: Mediana wieku zabudowy znajdującej się w obszarze spisowym;
  • median_income: Mediana dochodów w gospodarstwie domowym;
  • pct_college: Procent ludności w wieku 25+ które ukończyły 4-letni college;
  • pct_foreign_born: procent ludności urodzonej poza Stanami Zjednoczonymi;
  • pct_white: procent ludności białej, nie mającej pochodzenia latynowskiego (non-Hispanic whites);
  • percent_ooh: procent mieszkań zamieszkałych przez właścicieli.