Projekty zaliczeniowe
| Projekt | Termin zadania projektu | Termin oddania projektu | Termin omówienia na zajęciach |
|---|---|---|---|
| Projekt 1: Przetwarzanie danych w R | 10.10.2025 | 24.10.2025 g.23.59 | |
| Projekt 2: Wizualizacja danych w R (1) | 14.11.2025 | w trakcię zajęć | w trakcie zajęć |
| Projekt 2: Wizualizacja danych w R (2) | 14.11.2025 | 26.11.2025 g.23.59 | 28.11.2025 |
| Projekt 4: Raport statystyczny | 21.11.2025 | 9.01.2026 g.23.59 | 16.01.2026 |
1 Projekt 1: Przetwarzanie danych w R
1.1 Opis projektu
Projekt składa się z dwóch zadań w ramach których należy utworzyć plik zawierający dane społeczno-gospodarczne dla państw na świecie dla lat 1990-2020.
1.2 Rozwiązanie zadań
Rozwiązanie zadania zawiera:
- Dokument Quarto (wraz z kodem) zawierający rozwiązania zadania 1 oraz zadania 2.
- Plik wdi1990_2020.csv
- Plik wdi2020.csv
- W ramach rozwiązania zadania 2 proszę uzupełnić QUIZ: Link do Quizu [Uwaga! Test można wypełnić tylko raz.]
- Pliki wynikowe należy umieścić w folderze PROJEKT_1 w MS Teams w zespole do zajęć.
1.3 Zadania do rozwiązania
Zadanie 1. Przygotowanie danych
Wczytać do R dane z pliku WDI_DANE.xlsx. . Zawartość każdego z arkuszy (Country, GDP, POP, URBAN_POP, RURAL_POP, LET, HDI, INCOME_GROUP) wczytać do osobnych obiektów o tej samej nazwie co arkusz w MS Excel.
W obiekcie
Countrywyselekcjonuj tylko te państwa, dla których przypisany jest Region. Posortuj je alfabetycznie względem kolumny Code. Zapisz je do obiektu Country2.W obiekcie
INCOME_GROUPw kolumnach INCOME1990, INCOME2000, INCOME2010, INCOME2020 zmienić sposób kodowania kategorii poprzez przypisanie poszczególnym kodom pełnych nazw:
- L - Low income
- LM - Lower middle income
- UM - Upper middle income
- H - High income
- Przygotować jeden plik z danymi zawierający 32 kolumny.
Liczba wierszy w pliku wynikowym powinna być równa liczbie wierszy w skoroszycie Country2.
Dane zawarte w poszczególnych obiektach należy połączyć używając funkcji
left.join()z pakietudplyr. Dane należy połączyć używając kolumny Code.Utworzony plik wynikowy należy zapisać w formacie csv pod nazwą wdi1990_2020.csv
Kolumny w pliku wynikowym:
Country, Code, Region (z obiektu Country2)
GDP1990, GDP2000, GDG2010, GDP2020 z obiektu GDP
POP1990, POP2000, POP2010, POP2020 z obiektu POP
RPOP1990, RPOP2000, RPOP2010, RPOP2020 z obiektu RURAL_POP
UPOP1990, UPOP2000, UPOP2010, UPOP2020 z obiektu URBAN_POP
LE1990, LE2000, LE2010, LE2020 z obiekty LET
HDI_Code, HDI1990, HDI2000, HDI2010, HDI2020 z obiektu HDI
INCOME1990, INCOME2000, INCOME2010, INCOME2020 z obiektu INCOME_GROUP
- Z pliku wdi1990_2020.csv wyselekcjonować dane dla 2020 roku oraz kolumny Code, Country, Region. Zapisać dane do pliku wdi2020.csv
Zadanie 2. Przetwarzanie danych
Wczytać do R plik wdi1990_2020.csv, odpowiedz na poniższe pytania oraz wypełnij quiz.
- Ile jest państw/terytoriów w zbiorze danych?
- Do ilu regionów przypisano państwa/terytoria?
- Wybierz kraje należące do wszystkich regionów z wyjątkiem “Middle East & North Africa” oraz “Sub-Saharan Africa”. Ile jest takich krajów?
- Wybierz kraje w regionach “Middle East & North Africa” oraz “Sub-Saharan Africa”, które w 2020 roku miały powyżej 50 mln ludności. Ile jest takich krajów?.
- Wybierz kraje, których nazwa zaczyna się na P. Ile jest takich krajów?
- Wybierz kraje położone w regionie, którego nazwa kończy się na “Asia”
- Wybierz kraje z liczbą ludności w 2010 roku między 50 a 100 milionów.
- Oblicz średnią oczekiwaną długość trwania życia w roku 1990 według regionów. Posortuj wynik od największej do najmniejszej średniej.
- Do zbioru danych dodaj zmienną RPOP_DIF i oblicz różnicę między liczba ludności zamieszkującej obszary wiejskie (RPOP) w 2020 i 1990 roku. W którym regionie znajduje się najwięcej państw, w których między 1990 a 2020 rokiem ubyło liczby ludności w obszarach wiejskich (RPOP_DIFF <0).
- Do zbioru danych dodaj zmienną UPOP_DIF i oblicz różnicę między liczba ludności zamieszkującej w obszarach zurbanizowanych (UPOP) w 2020 i 1990 roku. W którym regionie znajduje się najmniej państw, w których między 1990 a 2020 rokiem przybyło ludności w obszarach zurbanizowanych (UPOP_DIFF >0)
- W którym regionie w 2020 roku zamieszkiwało najwięcej osób?
- Która klasa dochodów (Low Income, Lower middle income) była w 1990 roku zamieszkiwana przez najwięcej osób?
- Która klasa dochodów (Low Income, Lower middle income, Upper middle income, High income) była w 2020 roku zamieszkiwana przez najwięcej osób?
- Ile krajów w regionie “Europe & Central Asia” było sklasyfikowanych w 1990 roku jako “Low Income”?
- Ile krajów w regionie “Sub-Saharan Africa” było sklasyfikowanych w 2020 roku jako “Lower middle income” lub “Upper middle income”?
- Wybierz ze zbioru danych tylko dane dla roku 2020 i zapisz je do osobnego obiektu dane2020. Następnie zapisz obiekt w pliku csv o nazwie “wdi2020.csv”.
1.4 Opis danych wykorzystywanych w projekcie
Dane w pliku WDI_DANE.xlsx zawierają 10 arkuszy:
- Country - zawiera podstawowe informacje o państwach/terytoriach
- GDP - PKB na osobę w dolarach amerykańskich dla lat 1990, 2000, 2010, 2020.
- POP - liczba ludności dla lat 1990, 2000, 2010, 2020.
- RURAL_POP - liczba ludności zamieszkującej tereny wiejskie dla lat 1990, 2000, 2010, 2020.
- URBAN_POP - liczba ludności miejskiej dla lat 1990, 2000, 2010, 2020.
- LET - oczekiwana długość trwania życia w momencie urodzin(ang. life expectancy) dla lat 1990, 2000, 2010, 2020
- HDI - Human Development Index dla lat 1990, 2000, 2010, 2020.
- Income group - podział państw/terytoriów na grupy wyznaczony na poziomie dochodów według klasyfikacji World Bank
- Explonation - wyjaśnienie zawartości arkuszów z danymi
- Datasets - opis danych na podstawie dokumentacji dostarczonej przez WorldBank.
Skoroszyt Country zawiera 3 kolumny:
- Country - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- Region - Nazwa regionu w języku angielskim
Skoroszyt GDP zawiera 5 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- GDP1990 - PKB na osobę w roku 1990
- GDP2000 - PKB na osobę w roku 2000
- GDP2010 - PKB na osobę w roku 2010
- GDP2020 - PKB na osobę w roku 2020
Skoroszyt POP zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- POP1990 - liczba ludności w roku 1990
- POP2000 - liczba ludności w roku 2000
- POP2010 - liczba ludności w roku 2010
- POP2020 - liczba ludności w roku 2020
Skoroszyt RURAL_POP zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- RPOP1990 - liczba ludności zamieszkującej tereny wiejskie w 1990 roku.
- RPOP2000 - liczba ludności zamieszkującej tereny wiejskie w 2000 roku
- RPOP2010 - liczba ludności zamieszkującej tereny wiejskie w 2010 roku
- RPOP2020 - liczba ludności zamieszkującej tereny wiejskie w 2020 roku.
Skoroszyt URBAN_POP zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- UPOP1990 - liczba ludności obszarów miejskich w 1990 roku.
- UPOP2000 - liczba ludności obszarów miejskich w 2000 roku.
- UPOP2010 - liczba ludności obszarów miejskich w 2010 roku.
- UPOP2020 - liczba ludności obszarów miejskich w 2020 roku.
Skoroszyt LET zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- LE1990 - długość trwania życia w momencie narodzin w 1990 roku.
- LE2000 - długość trwania życia w momencie narodzin w 2000 roku.
- LE2010 - długość trwania życia w momencie narodzin w 2010 roku.
- LE2020 - długość trwania życia w momencie narodzin w 2020 roku.
Skoroszyt HDI zawiera 7 kolumn:
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- Country - nazwa państwa w języku angielskim
- HDI_Code - Klasa HDI (low, medium, high, very high)
- HDI1990 - Human Develoment Index w 1990 roku
- HDI2000 - Human Develoment Index w 2000 roku
- HDI2010 - Human Develoment Index w 2010 roku
- HDI2020 - Human Develoment Index w 2020 roku
Skoroszyt INCOME_GROUP zawiera 6 kolumn:
- Economy - nazwa państwa/terytorium w języku angielskim
- Code - trzyliterowy kod państwa wg klasyfikacji ISO.
- INCOME1990 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 1990 roku
- INCOME2000 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2000 roku
- INCOME2010 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2010 roku
- INCOME2020 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2020 roku
Klasyfikacja World Bank dzieli obszary na 4 kategorie:
- L - Low income
- LM - Lower middle income
- UM - Upper middle income
- H - High income
1.4.1 World Bank
Dane w skoroszycie Country, GDP, POP, RURAL_POP, URBAN_POP, LET zostały pozyskane z serwisu World Bank (https://data.worldbank.org/). Wykorzystano następujące wskaźniki:
- NY.GDP.PCAP.CD - GDP per capita (current US$)
- SP.POP.TOTL - Population, total
- SP.RUR.TOTL - Rural population
- SP.URB.TOTL - Urban population
- SP.DYN.LE00.IN - Life expectancy at birth, total (years)
1.4.2 HDI
Human Development Index (HDI) to systetyczny wskaźnik rozwoju społecznego biorący pod uwagę “długie i zdrowe życie” (long and healthy life), “wiedzę” (knowledge) i “dostatni standard życia” (decent standard of living). Wskaźnik obliczany jest na podstawie:
- oczekiwanej długości trwania życia
- średniej liczby lat edukacji mieszkańców w wieku 25 lat i starszych
- oczekiwanej liczby lat edukacji dla dzieci zaczynających proces kształcenia
- PKB na osobę w dolarach.
Więcej:
2 Projekt 2: Wizualizacja danych w R (1)
- Projekt wykonywany w trakcie ćwiczeń w grupach dwuosobowych.
2.1 Opis projektu
Celem projektu jest stworzenie złego wykresu tj. wykresu niespełniającego założeń dotyczących czytelności, poprawnego formatowania itp.
- Źródło danych - zbiór danych pomiary_pol.csv z folderu data.
2.2 Rozwiązanie zadania
Każda grupa prezentuje wykres na koniec ćwiczeń.
W ramach rozwiązania zadania na koniec ćwiczeń należy oddać:
- plik w formacie .qmd zawierający kod tworzący wykres
- wykres zapisany w formacie PNG lub PDF.
- plik(i) powinny być podpisane Państwa nazwiskami w formie: Nazwisko_Nazwisko_wykres.qmd oraz Nazwisko_Nazwisko_wykres.png lub Nazwisko_Nazwisko_wykres.pdf
- pliki należy umieścić w zespole MS Teams do zajęć w folderze Projekt 2
W przypadku nieobecności na ćwiczeniach w tym dniu, rozwiązanie projektu należy umieścić w folderze Projekt 2 do kolejnych zajęć.
3 Projekt 3: Wizualizacja danych w R (2)
3.1 Opis projektu
Cel - stworzenie wykresu komunikacyjnego z zachowaniem prawidłowych zasad formatowania wykresów.
Źródło danych - zbiór danych wdi1990_2020.csv utworzony w ramach projektu 1.
projekt samodzielny
3.2 Rozwiązanie zadania
- plik w formacie .qmd zawierający kod tworzący wykres;
- plik PNG zawierający utworzony wykres
- plik(i) powinny być podpisane Państwa nazwiskiem w formie: Nazwisko_wykres.qmd oraz Nazwisko_wykres.png
- pliki należy umieścić w zespole MS Teams do zajęć w folderze Projekt 3
3.3 Ocena wykresów
Ocenie będą podlegały następujące elementy:
dobór typu wykresu do postawionego problemu.
staranność wykonania (tytuł, podpisy osi, dobór kolorów)
Każdy wykres otrzyma dwie oceny:
- ocenę wystawioną przez prowadzącego zajęcia
- średnią z ocen wystawioną przez uczestników zajęć
W trakcie ćwiczeń każdy wykres będzie omówiony przez twórcę oraz poddany dyskusji.
4 Projekt 4: Raport statystyczny
4.1 Opis projektu
Celem projektu jest opracowanie raportu statystycznego dotyczącego analizy statystycznej długości trwania życia w wybranym kraju w latach 1960-2021.
4.2 Cel raportu
W raporcie należy przeprowadzić analizę długości trwania życia w wybranym kraju w latach 1960-2021 w podziale na płeć oraz bez podziału na płeć.
4.3 Dane
Dane dotyczące długości trwania życia pochodzą z strony https://data.worldbank.org/indicator/. Dane zostały zapisane w 3 plikach:
- Life expectancy at birth, female (years)
- Life expectancy at birth, male (years)
- Life expectancy at birth, total (years)
Każdy plik składa się z 3 arkuszy:
Data - dane dotyczące długości trwania życia w poszczególnych krajach na świecie
Metadata - Countries - informacje dotyczące poszczególnych państw:
- trzyliterowy kod nazwy państwa (Country code)
- region, w którym położone jest dane państwo (Region)
- grupa wskazująca na poziom dochodu (IncomeGroup)
- dodatkowe informacje (SpecialNotes)
- nazwa państwa (TableName)
Metadata - Indicators - informacja nt. analizowanego wskaźnika (w tym wypadku długość trwania życia).
4.4 Wykonanie raportu statystycznego prezentującego wyniki analizy statystycznej
Etap ten wykonywany jest w grupach 2 osobowych. Każda grupa oddaje jeden raport.
- Przygotowanie danych do analizy
Należy przygotować plik z danymi do analizy składający się z następujących kolumn:
- rok
- długość trwania życia - kobiety
- długość trwania życia - mężczyźni
- długość trwania życia - ogólem
Wykonanie analizy statystycznej danych.
naliza ma być przedstawiona w formie raportu statystycznego zawierającego:
- tekst (zgodny ze strukturą raportu)
- ryciny, wykresy, tabele, mapy.
- proszę zastosować opcję ukrycia kodu w raporcie
4.5 Raport statystyczny
- Raport proszę wykonać wykorzystując dokument Quarto
- Raport ma zawierać do 1000-1200 słów oraz 3-6 rycin i tabel.
- Raport należy zapisać w formacie html
4.6 Oddanie raportu
W folderze Projekt 4 w zespole do zajęć w MS Teams należy utworzyć folder nazwany nazwiskami osób, które wykonywały raport. Następnie w tym folderze należy umieścić plik qmd oraz html (oba pliki także nazwać nazwiskami osób, które tworzyły raport.
4.7 Ocena końcowa
Za projekt będzie można otrzymać trzy oceny:
- Ocenę za wykonanie raportu uwzględniającego jego strukturę, treść, wykonane analizy.
- Ocenę za część graficzną raportu (dobór wykresów, ich czytelność oraz poprawność wykonania).
- Ocenę za kod (oceniana będzie przejrzystośc kodu, możliwość odtworzenia analizy w oparciu o dostarczony kod, poprawność; poszczególne fragmenty kodu powinny być opatrzone komentarzem).