Projekt 1: Przetwarzanie danych w R

Author

Anna Dmowska

1 Dane

Dane w pliku WDI_DANE.xlsx zawierają 10 arkuszy:

Country - zawiera podstawowe informacje o państwach/terytoriach
GDP - PKB na osobę w dolarach amerykańskich dla lat 1990, 2000, 2010, 2020.
POP - liczba ludności dla lat 1990, 2000, 2010, 2020.
RURAL_POP - liczba ludności zamieszkującej tereny wiejskie dla lat 1990, 2000, 2010, 2020.
URBAN_POP - liczba ludności miejskiej dla lat 1990, 2000, 2010, 2020.
LET - oczekiwana długość trwania życia w momencie urodzin(ang. life expectancy) dla lat 1990, 2000, 2010, 2020
HDI - Human Development Index dla lat 1990, 2000, 2010, 2020.
Income group - podział państw/terytoriów na grupy wyznaczony na poziomie dochodów według klasyfikacji World Bank
Explonation - wyjaśnienie zawartości arkuszów z danymi
Datasets - opis danych na podstawie dokumentacji dostarczonej przez WorldBank.

Skoroszyt Country zawiera 3 kolumny:

Country - nazwa państwa/terytorium w języku angielskim
Code - trzyliterowy kod państwa wg klasyfikacji ISO.
Region - Nazwa regionu w języku angielskim

Skoroszyt GDP zawiera 5 kolumn:

Economy - nazwa państwa/terytorium w języku angielskim
Code - trzyliterowy kod państwa wg klasyfikacji ISO.
GDP1990 - PKB na osobę w roku 1990
GDP2000 - PKB na osobę w roku 2000
GDP2010 - PKB na osobę w roku 2010
GDP2020 - PKB na osobę w roku 2020

Skoroszyt POP zawiera 6 kolumn:

Economy - nazwa państwa/terytorium w języku angielskim
Code - trzyliterowy kod państwa wg klasyfikacji ISO.
POP1990 - liczba ludności w roku 1990
POP2000 - liczba ludności w roku 2000
POP2010 - liczba ludności w roku 2010
POP2020 - liczba ludności w roku 2020

Skoroszyt RURAL_POP zawiera 6 kolumn:

Economy - nazwa państwa/terytorium w języku angielskim
Code - trzyliterowy kod państwa wg klasyfikacji ISO.
RPOP1990 - liczba ludności zamieszkującej tereny wiejskie w 1990 roku.
RPOP2000 - liczba ludności zamieszkującej tereny wiejskie w 2000 roku
RPOP2010 - liczba ludności zamieszkującej tereny wiejskie w 2010 roku
RPOP2020 - liczba ludności zamieszkującej tereny wiejskie w 2020 roku.

Skoroszyt URBAN_POP zawiera 6 kolumn:

Economy - nazwa państwa/terytorium w języku angielskim
Code - trzyliterowy kod państwa wg klasyfikacji ISO.
UPOP1990 - liczba ludności obszarów miejskich w 1990 roku.
UPOP2000 - liczba ludności obszarów miejskich w 2000 roku.
UPOP2010 - liczba ludności obszarów miejskich w 2010 roku.
UPOP2020 - liczba ludności obszarów miejskich w 2020 roku.

Skoroszyt LET zawiera 6 kolumn:

Economy - nazwa państwa/terytorium w języku angielskim
Code - trzyliterowy kod państwa wg klasyfikacji ISO.
LE1990 - długość trwania życia w momencie narodzin w 1990 roku.
LE2000 - długość trwania życia w momencie narodzin w 2000 roku.
LE2010 - długość trwania życia w momencie narodzin w 2010 roku.
LE2020 - długość trwania życia w momencie narodzin w 2020 roku.

Skoroszyt HDI zawiera 7 kolumn:

Code - trzyliterowy kod państwa wg klasyfikacji ISO.
Country - nazwa państwa w języku angielskim
HDI_Code - Klasa HDI (low, medium, high, very high)
HDI1990 - Human Develoment Index w 1990 roku
HDI2000 - Human Develoment Index w 2000 roku
HDI2010 - Human Develoment Index w 2010 roku
HDI2020 - Human Develoment Index w 2020 roku

Skoroszyt INCOME_GROUP zawiera 6 kolumn:

Economy - nazwa państwa/terytorium w języku angielskim
Code - trzyliterowy kod państwa wg klasyfikacji ISO.
INCOME1990 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 1990 roku
INCOME2000 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2000 roku
INCOME2010 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2010 roku
INCOME2020 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2020 roku

Klasyfikacja World Bank dzieli obszary na 4 kategorie:

L - Low income
LM - Lower middle income
UM - Upper middle income
H - High income

1.1 World Bank

Dane w skoroszycie Country, GDP, POP, RURAL_POP, URBAN_POP, LET zostały pozyskane z serwisu World Bank (https://data.worldbank.org/). Wykorzystano następujące wskaźniki:

NY.GDP.PCAP.CD - GDP per capita (current US$)
SP.POP.TOTL - Population, total
SP.RUR.TOTL - Rural population
SP.URB.TOTL - Urban population
SP.DYN.LE00.IN - Life expectancy at birth, total (years)

1.2 HDI

Human Development Index (HDI) to systetyczny wskaźnik rozwoju społecznego biorący pod uwagę “długie i zdrowe życie” (long and healthy life), “wiedzę” (knowledge) i “dostatni standard życia” (decent standard of living). Wskaźnik obliczany jest na podstawie:

oczekiwanej długości trwania życia
średniej liczby lat edukacji mieszkańców w wieku 25 lat i starszych
oczekiwanej liczby lat edukacji dla dzieci zaczynających proces kształcenia
PKB na osobę w dolarach.

Więcej:

2 Zadanie 1. Przygotowanie danych

Wczytać do R dane z pliku WDI_DANE.xlsx. Zawartość każdego z arkuszy (Country, GDP, POP, URBAN_POP, RURAL_POP, LET, HDI, INCOME_GROUP) wczytać do osobnych obiektów o tej samej nazwie co arkusz w MS Excel.
W obiekcie Country wyselekcjonuj tylko te państwa, dla których przypisany jest Region. Posortuj je alfabetycznie względem kolumny Code. Zapisz je do obiektu Country2.
W obiekcie INCOME_GROUP zmienić sposób kodowania kategorii poprzez przypisanie poszczególnym kodom pełnych nazw:

L - Low income
LM - Lower middle income
UM - Upper middle income
H - High income

Przygotować jeden plik z danymi zawierający 32 kolumny.

Liczba wierszy w pliku wynikowym powinna być równa liczbie wierszy w skoroszycie Country2.
Dane zawarte w poszczególnych obiektach należy połączyć używając funkcji left.join() z pakietu dplyr. Dane należy połączyć używając kolumny Code.
Utworzony plik wynikowy należy zapisać w formacie csv pod nazwą wdi1990_2020.csv
Kolumny w pliku wynikowym:
- Country, Code, Region (z obiektu Country2)
- GDP1990, GDP2000, GDG2010, GDP2020 z obiektu GDP
- POP1990, POP2000, POP2010, POP2020 z obiektu POP
- RPOP1990, RPOP2000, RPOP2010, RPOP2020 z obiektu RURAL_POP
- UPOP1990, UPOP2000, UPOP2010, UPOP2020 z obiektu URBAN_POP
- LE1990, LE2000, LE2010, LE2020 z obiekty LET
- HDI_Code, HDI1990, HDI2000, HDI2010, HDI2020 z obiektu HDI
- INCOME1990, INCOME2000, INCOME2010, INCOME2020 z obiektu INCOME_GROUP

Z pliku wdi1990_2020.csv wyselekcjonować dane dla 2020 roku oraz kolumny Code, Name, Region. Zapisać dane do pliku wdi2020.csv

3 Zadanie 2. Przetwarzanie danych

Wczytać do R plik wdi1990_2020.csv

Ile jest państw/terytoriów w zbiorze danych?
Do ilu regionów przypisano państwa/terytoria?
Wybierz kraje należące do wszystkich regionów z wyjątkiem “Middle East & North Africa” oraz “Sub-Saharan Africa”. Ile jest takich krajów?
Wybierz kraje regionach “Middle East & North Africa” oraz “Sub-Saharan Africa”, powyżej 50 mln ludności. Ile jest takich krajów?
Wybierz kraje, których nazwa zaczyna się na P. Ile jest takich krajów?
Wybierz kraje położone w regionie, którego nazwa kończy się na “Asia”
Wybierz kraje z liczbą ludności między 50 a 100 milionów.
Wybierz ze zbioru danych tylko dane dla roku 2020 i zapisz je do osobnego obiektu dane2020. Następnie zapisz obiekt w pliku csv o nazwie “wdi2020.csv”.
Oblicz średnią oczekiwaną długość trwania życia w roku 1990 według regionów.

4 Rozwiązanie zadań

Plik wdi1990_2020.csv
Dokument Quarto (wraz z kodem) zawierający rozwiązania zadania 2.