Projekt 1: Przetwarzanie danych w R
1 Dane
Dane w pliku WDI_DANE.xlsx zawierają 10 arkuszy:
- Country - zawiera podstawowe informacje o państwach/terytoriach
- GDP - PKB na osobę w dolarach amerykańskich dla lat 1990, 2000, 2010, 2020.
- POP - liczba ludności dla lat 1990, 2000, 2010, 2020.
- RURAL_POP - liczba ludności zamieszkującej tereny wiejskie dla lat 1990, 2000, 2010, 2020.
- URBAN_POP - liczba ludności miejskiej dla lat 1990, 2000, 2010, 2020.
- LET - oczekiwana długość trwania życia w momencie urodzin(ang. life expectancy) dla lat 1990, 2000, 2010, 2020
- HDI - Human Development Index dla lat 1990, 2000, 2010, 2020.
- Income group - podział państw/terytoriów na grupy wyznaczony na poziomie dochodów według klasyfikacji World Bank
- Explonation - wyjaśnienie zawartości arkuszów z danymi
- Datasets - opis danych na podstawie dokumentacji dostarczonej przez WorldBank.
Skoroszyt Country zawiera 3 kolumny:
- Country - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- Region - Nazwa regionu w języku angielskim
Skoroszyt GDP zawiera 5 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- GDP1990 - PKB na osobę w roku 1990
- GDP2000 - PKB na osobę w roku 2000
- GDP2010 - PKB na osobę w roku 2010
- GDP2020 - PKB na osobę w roku 2020
Skoroszyt POP zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- POP1990 - liczba ludności w roku 1990
- POP2000 - liczba ludności w roku 2000
- POP2010 - liczba ludności w roku 2010
- POP2020 - liczba ludności w roku 2020
Skoroszyt RURAL_POP zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- RPOP1990 - liczba ludności zamieszkującej tereny wiejskie w 1990 roku.
- RPOP2000 - liczba ludności zamieszkującej tereny wiejskie w 2000 roku
- RPOP2010 - liczba ludności zamieszkującej tereny wiejskie w 2010 roku
- RPOP2020 - liczba ludności zamieszkującej tereny wiejskie w 2020 roku.
Skoroszyt URBAN_POP zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- UPOP1990 - liczba ludności obszarów miejskich w 1990 roku.
- UPOP2000 - liczba ludności obszarów miejskich w 2000 roku.
- UPOP2010 - liczba ludności obszarów miejskich w 2010 roku.
- UPOP2020 - liczba ludności obszarów miejskich w 2020 roku.
Skoroszyt LET zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- LE1990 - długość trwania życia w momencie narodzin w 1990 roku.
- LE2000 - długość trwania życia w momencie narodzin w 2000 roku.
- LE2010 - długość trwania życia w momencie narodzin w 2010 roku.
- LE2020 - długość trwania życia w momencie narodzin w 2020 roku.
Skoroszyt HDI zawiera 7 kolumn:
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- Country - nazwa państwa w języku angielskim
- HDI_Code - Klasa HDI (low, medium, high, very high)
- HDI1990 - Human Develoment Index w 1990 roku
- HDI2000 - Human Develoment Index w 2000 roku
- HDI2010 - Human Develoment Index w 2010 roku
- HDI2020 - Human Develoment Index w 2020 roku
Skoroszyt INCOME_GROUP zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- INCOME1990 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 1990 roku
- INCOME2000 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2000 roku
- INCOME2010 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2010 roku
- INCOME2020 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2020 roku
Klasyfikacja World Bank dzieli obszary na 4 kategorie:
- L - Low income
- LM - Lower middle income
- UM - Upper middle income
- H - High income
1.1 World Bank
Dane w skoroszycie Country, GDP, POP, RURAL_POP, URBAN_POP, LET zostały pozyskane z serwisu World Bank (https://data.worldbank.org/). Wykorzystano następujące wskaźniki:
- NY.GDP.PCAP.CD - GDP per capita (current US$)
- SP.POP.TOTL - Population, total
- SP.RUR.TOTL - Rural population
- SP.URB.TOTL - Urban population
- SP.DYN.LE00.IN - Life expectancy at birth, total (years)
1.2 HDI
Human Development Index (HDI) to systetyczny wskaźnik rozwoju społecznego biorący pod uwagę “długie i zdrowe życie” (long and healthy life), “wiedzę” (knowledge) i “dostatni standard życia” (decent standard of living). Wskaźnik obliczany jest na podstawie:
- oczekiwanej długości trwania życia
- średniej liczby lat edukacji mieszkańców w wieku 25 lat i starszych
- oczekiwanej liczby lat edukacji dla dzieci zaczynających proces kształcenia
- PKB na osobę w dolarach.
Więcej:
2 Zadanie 1. Przygotowanie danych
Wczytać do R dane z pliku WDI_DANE.xlsx. Zawartość każdego z arkuszy (Country, GDP, POP, URBAN_POP, RURAL_POP, LET, HDI, INCOME_GROUP) wczytać do osobnych obiektów o tej samej nazwie co arkusz w MS Excel.
W obiekcie
Country
wyselekcjonuj tylko te państwa, dla których przypisany jest Region. Posortuj je alfabetycznie względem kolumny Code. Zapisz je do obiektu Country2.W obiekcie
INCOME_GROUP
zmienić sposób kodowania kategorii poprzez przypisanie poszczególnym kodom pełnych nazw:
- L - Low income
- LM - Lower middle income
- UM - Upper middle income
- H - High income
- Przygotować jeden plik z danymi zawierający 32 kolumny.
Liczba wierszy w pliku wynikowym powinna być równa liczbie wierszy w skoroszycie Country2.
Dane zawarte w poszczególnych obiektach należy połączyć używając funkcji
left.join()
z pakietudplyr
. Dane należy połączyć używając kolumny Code.Utworzony plik wynikowy należy zapisać w formacie csv pod nazwą wdi1990_2020.csv
Kolumny w pliku wynikowym:
Country, Code, Region (z obiektu Country2)
GDP1990, GDP2000, GDG2010, GDP2020 z obiektu GDP
POP1990, POP2000, POP2010, POP2020 z obiektu POP
RPOP1990, RPOP2000, RPOP2010, RPOP2020 z obiektu RURAL_POP
UPOP1990, UPOP2000, UPOP2010, UPOP2020 z obiektu URBAN_POP
LE1990, LE2000, LE2010, LE2020 z obiekty LET
HDI_Code, HDI1990, HDI2000, HDI2010, HDI2020 z obiektu HDI
INCOME1990, INCOME2000, INCOME2010, INCOME2020 z obiektu INCOME_GROUP
- Z pliku wdi1990_2020.csv wyselekcjonować dane dla 2020 roku oraz kolumny Code, Name, Region. Zapisać dane do pliku wdi2020.csv
3 Zadanie 2. Przetwarzanie danych
Wczytać do R plik wdi1990_2020.csv
- Ile jest państw/terytoriów w zbiorze danych?
- Do ilu regionów przypisano państwa/terytoria?
- Wybierz kraje należące do wszystkich regionów z wyjątkiem “Middle East & North Africa” oraz “Sub-Saharan Africa”. Ile jest takich krajów?
- Wybierz kraje regionach “Middle East & North Africa” oraz “Sub-Saharan Africa”, powyżej 50 mln ludności. Ile jest takich krajów?
- Wybierz kraje, których nazwa zaczyna się na P. Ile jest takich krajów?
- Wybierz kraje położone w regionie, którego nazwa kończy się na “Asia”
- Wybierz kraje z liczbą ludności między 50 a 100 milionów.
- Wybierz ze zbioru danych tylko dane dla roku 2020 i zapisz je do osobnego obiektu dane2020. Następnie zapisz obiekt w pliku csv o nazwie “wdi2020.csv”.
- Oblicz średnią oczekiwaną długość trwania życia w roku 1990 według regionów.
4 Rozwiązanie zadań
- Plik wdi1990_2020.csv
- Dokument Quarto (wraz z kodem) zawierający rozwiązania zadania 2.