Projekt 1: Przetwarzanie danych w R

Author

Anna Dmowska

1 Dane

Dane w pliku WDI_DANE.xlsx zawierają 10 arkuszy:

  • Country - zawiera podstawowe informacje o państwach/terytoriach
  • GDP - PKB na osobę w dolarach amerykańskich dla lat 1990, 2000, 2010, 2020.
  • POP - liczba ludności dla lat 1990, 2000, 2010, 2020.
  • RURAL_POP - liczba ludności zamieszkującej tereny wiejskie dla lat 1990, 2000, 2010, 2020.
  • URBAN_POP - liczba ludności miejskiej dla lat 1990, 2000, 2010, 2020.
  • LET - oczekiwana długość trwania życia w momencie urodzin(ang. life expectancy) dla lat 1990, 2000, 2010, 2020
  • HDI - Human Development Index dla lat 1990, 2000, 2010, 2020.
  • Income group - podział państw/terytoriów na grupy wyznaczony na poziomie dochodów według klasyfikacji World Bank
  • Explonation - wyjaśnienie zawartości arkuszów z danymi
  • Datasets - opis danych na podstawie dokumentacji dostarczonej przez WorldBank.

Skoroszyt Country zawiera 3 kolumny:

  • Country - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • Region - Nazwa regionu w języku angielskim

Skoroszyt GDP zawiera 5 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • GDP1990 - PKB na osobę w roku 1990
  • GDP2000 - PKB na osobę w roku 2000
  • GDP2010 - PKB na osobę w roku 2010
  • GDP2020 - PKB na osobę w roku 2020

Skoroszyt POP zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • POP1990 - liczba ludności w roku 1990
  • POP2000 - liczba ludności w roku 2000
  • POP2010 - liczba ludności w roku 2010
  • POP2020 - liczba ludności w roku 2020

Skoroszyt RURAL_POP zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • RPOP1990 - liczba ludności zamieszkującej tereny wiejskie w 1990 roku.
  • RPOP2000 - liczba ludności zamieszkującej tereny wiejskie w 2000 roku
  • RPOP2010 - liczba ludności zamieszkującej tereny wiejskie w 2010 roku
  • RPOP2020 - liczba ludności zamieszkującej tereny wiejskie w 2020 roku.

Skoroszyt URBAN_POP zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • UPOP1990 - liczba ludności obszarów miejskich w 1990 roku.
  • UPOP2000 - liczba ludności obszarów miejskich w 2000 roku.
  • UPOP2010 - liczba ludności obszarów miejskich w 2010 roku.
  • UPOP2020 - liczba ludności obszarów miejskich w 2020 roku.

Skoroszyt LET zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • LE1990 - długość trwania życia w momencie narodzin w 1990 roku.
  • LE2000 - długość trwania życia w momencie narodzin w 2000 roku.
  • LE2010 - długość trwania życia w momencie narodzin w 2010 roku.
  • LE2020 - długość trwania życia w momencie narodzin w 2020 roku.

Skoroszyt HDI zawiera 7 kolumn:

  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • Country - nazwa państwa w języku angielskim
  • HDI_Code - Klasa HDI (low, medium, high, very high)
  • HDI1990 - Human Develoment Index w 1990 roku
  • HDI2000 - Human Develoment Index w 2000 roku
  • HDI2010 - Human Develoment Index w 2010 roku
  • HDI2020 - Human Develoment Index w 2020 roku

Skoroszyt INCOME_GROUP zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • INCOME1990 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 1990 roku
  • INCOME2000 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2000 roku
  • INCOME2010 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2010 roku
  • INCOME2020 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2020 roku

Klasyfikacja World Bank dzieli obszary na 4 kategorie:

  • L - Low income
  • LM - Lower middle income
  • UM - Upper middle income
  • H - High income

1.1 World Bank

Dane w skoroszycie Country, GDP, POP, RURAL_POP, URBAN_POP, LET zostały pozyskane z serwisu World Bank (https://data.worldbank.org/). Wykorzystano następujące wskaźniki:

  • NY.GDP.PCAP.CD - GDP per capita (current US$)
  • SP.POP.TOTL - Population, total
  • SP.RUR.TOTL - Rural population
  • SP.URB.TOTL - Urban population
  • SP.DYN.LE00.IN - Life expectancy at birth, total (years)

1.2 HDI

Human Development Index (HDI) to systetyczny wskaźnik rozwoju społecznego biorący pod uwagę “długie i zdrowe życie” (long and healthy life), “wiedzę” (knowledge) i “dostatni standard życia” (decent standard of living). Wskaźnik obliczany jest na podstawie:

  • oczekiwanej długości trwania życia
  • średniej liczby lat edukacji mieszkańców w wieku 25 lat i starszych
  • oczekiwanej liczby lat edukacji dla dzieci zaczynających proces kształcenia
  • PKB na osobę w dolarach.

Więcej:

2 Zadanie 1. Przygotowanie danych

  1. Wczytać do R dane z pliku WDI_DANE.xlsx. Zawartość każdego z arkuszy (Country, GDP, POP, URBAN_POP, RURAL_POP, LET, HDI, INCOME_GROUP) wczytać do osobnych obiektów o tej samej nazwie co arkusz w MS Excel.

  2. W obiekcie Country wyselekcjonuj tylko te państwa, dla których przypisany jest Region. Posortuj je alfabetycznie względem kolumny Code. Zapisz je do obiektu Country2.

  3. W obiekcie INCOME_GROUP zmienić sposób kodowania kategorii poprzez przypisanie poszczególnym kodom pełnych nazw:

  • L - Low income
  • LM - Lower middle income
  • UM - Upper middle income
  • H - High income
  1. Przygotować jeden plik z danymi zawierający 32 kolumny.
  • Liczba wierszy w pliku wynikowym powinna być równa liczbie wierszy w skoroszycie Country2.

  • Dane zawarte w poszczególnych obiektach należy połączyć używając funkcji left.join() z pakietu dplyr. Dane należy połączyć używając kolumny Code.

  • Utworzony plik wynikowy należy zapisać w formacie csv pod nazwą wdi1990_2020.csv

  • Kolumny w pliku wynikowym:

    • Country, Code, Region (z obiektu Country2)

    • GDP1990, GDP2000, GDG2010, GDP2020 z obiektu GDP

    • POP1990, POP2000, POP2010, POP2020 z obiektu POP

    • RPOP1990, RPOP2000, RPOP2010, RPOP2020 z obiektu RURAL_POP

    • UPOP1990, UPOP2000, UPOP2010, UPOP2020 z obiektu URBAN_POP

    • LE1990, LE2000, LE2010, LE2020 z obiekty LET

    • HDI_Code, HDI1990, HDI2000, HDI2010, HDI2020 z obiektu HDI

    • INCOME1990, INCOME2000, INCOME2010, INCOME2020 z obiektu INCOME_GROUP

  1. Z pliku wdi1990_2020.csv wyselekcjonować dane dla 2020 roku oraz kolumny Code, Name, Region. Zapisać dane do pliku wdi2020.csv

3 Zadanie 2. Przetwarzanie danych

Wczytać do R plik wdi1990_2020.csv

  • Ile jest państw/terytoriów w zbiorze danych?
  • Do ilu regionów przypisano państwa/terytoria?
  • Wybierz kraje należące do wszystkich regionów z wyjątkiem “Middle East & North Africa” oraz “Sub-Saharan Africa”. Ile jest takich krajów?
  • Wybierz kraje regionach “Middle East & North Africa” oraz “Sub-Saharan Africa”, powyżej 50 mln ludności. Ile jest takich krajów?
  • Wybierz kraje, których nazwa zaczyna się na P. Ile jest takich krajów?
  • Wybierz kraje położone w regionie, którego nazwa kończy się na “Asia”
  • Wybierz kraje z liczbą ludności między 50 a 100 milionów.
  • Wybierz ze zbioru danych tylko dane dla roku 2020 i zapisz je do osobnego obiektu dane2020. Następnie zapisz obiekt w pliku csv o nazwie “wdi2020.csv”.
  • Oblicz średnią oczekiwaną długość trwania życia w roku 1990 według regionów.

4 Rozwiązanie zadań

  • Plik wdi1990_2020.csv
  • Dokument Quarto (wraz z kodem) zawierający rozwiązania zadania 2.