Projekty zaliczeniowe

Author

Anna Dmowska

Projekt Termin zadania projektu Termin oddania projektu Termin omówienia na zajęciach
Projekt 1: Przetwarzanie danych w R 10.10.2025 24.10.2025 g.23.59
Projekt 2: Wizualizacja danych w R (1) 14.11.2025 w trakcię zajęć w trakcie zajęć
Projekt 2: Wizualizacja danych w R (2) 14.11.2025 26.11.2025 g.23.59 28.11.2025
Projekt 4: Raport statystyczny 21.11.2025 9.01.2026 g.23.59 16.01.2026

1 Projekt 1: Przetwarzanie danych w R

1.1 Opis projektu

Projekt składa się z dwóch zadań w ramach których należy utworzyć plik zawierający dane społeczno-gospodarczne dla państw na świecie dla lat 1990-2020.

1.2 Rozwiązanie zadań

Rozwiązanie zadania zawiera:

  • Dokument Quarto (wraz z kodem) zawierający rozwiązania zadania 1 oraz zadania 2.
  • Plik wdi1990_2020.csv
  • Plik wdi2020.csv
  • W ramach rozwiązania zadania 2 proszę uzupełnić QUIZ: Link do Quizu [Uwaga! Test można wypełnić tylko raz.]
  • Pliki wynikowe należy umieścić w folderze PROJEKT_1 w MS Teams w zespole do zajęć.

1.3 Zadania do rozwiązania

Zadanie 1. Przygotowanie danych

  1. Wczytać do R dane z pliku WDI_DANE.xlsx. . Zawartość każdego z arkuszy (Country, GDP, POP, URBAN_POP, RURAL_POP, LET, HDI, INCOME_GROUP) wczytać do osobnych obiektów o tej samej nazwie co arkusz w MS Excel.

  2. W obiekcie Country wyselekcjonuj tylko te państwa, dla których przypisany jest Region. Posortuj je alfabetycznie względem kolumny Code. Zapisz je do obiektu Country2.

  3. W obiekcie INCOME_GROUP w kolumnach INCOME1990, INCOME2000, INCOME2010, INCOME2020 zmienić sposób kodowania kategorii poprzez przypisanie poszczególnym kodom pełnych nazw:

  • L - Low income
  • LM - Lower middle income
  • UM - Upper middle income
  • H - High income
  1. Przygotować jeden plik z danymi zawierający 32 kolumny.
  • Liczba wierszy w pliku wynikowym powinna być równa liczbie wierszy w skoroszycie Country2.

  • Dane zawarte w poszczególnych obiektach należy połączyć używając funkcji left.join() z pakietu dplyr. Dane należy połączyć używając kolumny Code.

  • Utworzony plik wynikowy należy zapisać w formacie csv pod nazwą wdi1990_2020.csv

  • Kolumny w pliku wynikowym:

    • Country, Code, Region (z obiektu Country2)

    • GDP1990, GDP2000, GDG2010, GDP2020 z obiektu GDP

    • POP1990, POP2000, POP2010, POP2020 z obiektu POP

    • RPOP1990, RPOP2000, RPOP2010, RPOP2020 z obiektu RURAL_POP

    • UPOP1990, UPOP2000, UPOP2010, UPOP2020 z obiektu URBAN_POP

    • LE1990, LE2000, LE2010, LE2020 z obiekty LET

    • HDI_Code, HDI1990, HDI2000, HDI2010, HDI2020 z obiektu HDI

    • INCOME1990, INCOME2000, INCOME2010, INCOME2020 z obiektu INCOME_GROUP

  1. Z pliku wdi1990_2020.csv wyselekcjonować dane dla 2020 roku oraz kolumny Code, Country, Region. Zapisać dane do pliku wdi2020.csv

Zadanie 2. Przetwarzanie danych

Wczytać do R plik wdi1990_2020.csv, odpowiedz na poniższe pytania oraz wypełnij quiz.

  • Ile jest państw/terytoriów w zbiorze danych?
  • Do ilu regionów przypisano państwa/terytoria?
  • Wybierz kraje należące do wszystkich regionów z wyjątkiem “Middle East & North Africa” oraz “Sub-Saharan Africa”. Ile jest takich krajów?
  • Wybierz kraje w regionach “Middle East & North Africa” oraz “Sub-Saharan Africa”, które w 2020 roku miały powyżej 50 mln ludności. Ile jest takich krajów?.
  • Wybierz kraje, których nazwa zaczyna się na P. Ile jest takich krajów?
  • Wybierz kraje położone w regionie, którego nazwa kończy się na “Asia”
  • Wybierz kraje z liczbą ludności w 2010 roku między 50 a 100 milionów.
  • Oblicz średnią oczekiwaną długość trwania życia w roku 1990 według regionów. Posortuj wynik od największej do najmniejszej średniej.
  • Do zbioru danych dodaj zmienną RPOP_DIF i oblicz różnicę między liczba ludności zamieszkującej obszary wiejskie (RPOP) w 2020 i 1990 roku. W którym regionie znajduje się najwięcej państw, w których między 1990 a 2020 rokiem ubyło liczby ludności w obszarach wiejskich (RPOP_DIFF <0).
  • Do zbioru danych dodaj zmienną UPOP_DIF i oblicz różnicę między liczba ludności zamieszkującej w obszarach zurbanizowanych (UPOP) w 2020 i 1990 roku. W którym regionie znajduje się najmniej państw, w których między 1990 a 2020 rokiem przybyło ludności w obszarach zurbanizowanych (UPOP_DIFF >0)
  • W którym regionie w 2020 roku zamieszkiwało najwięcej osób?
  • Która klasa dochodów (Low Income, Lower middle income) była w 1990 roku zamieszkiwana przez najwięcej osób?
  • Która klasa dochodów (Low Income, Lower middle income, Upper middle income, High income) była w 2020 roku zamieszkiwana przez najwięcej osób?
  • Ile krajów w regionie “Europe & Central Asia” było sklasyfikowanych w 1990 roku jako “Low Income”?
  • Ile krajów w regionie “Sub-Saharan Africa” było sklasyfikowanych w 2020 roku jako “Lower middle income” lub “Upper middle income”?
  • Wybierz ze zbioru danych tylko dane dla roku 2020 i zapisz je do osobnego obiektu dane2020. Następnie zapisz obiekt w pliku csv o nazwie “wdi2020.csv”.

1.4 Opis danych wykorzystywanych w projekcie

Dane w pliku WDI_DANE.xlsx zawierają 10 arkuszy:

  • Country - zawiera podstawowe informacje o państwach/terytoriach
  • GDP - PKB na osobę w dolarach amerykańskich dla lat 1990, 2000, 2010, 2020.
  • POP - liczba ludności dla lat 1990, 2000, 2010, 2020.
  • RURAL_POP - liczba ludności zamieszkującej tereny wiejskie dla lat 1990, 2000, 2010, 2020.
  • URBAN_POP - liczba ludności miejskiej dla lat 1990, 2000, 2010, 2020.
  • LET - oczekiwana długość trwania życia w momencie urodzin(ang. life expectancy) dla lat 1990, 2000, 2010, 2020
  • HDI - Human Development Index dla lat 1990, 2000, 2010, 2020.
  • Income group - podział państw/terytoriów na grupy wyznaczony na poziomie dochodów według klasyfikacji World Bank
  • Explonation - wyjaśnienie zawartości arkuszów z danymi
  • Datasets - opis danych na podstawie dokumentacji dostarczonej przez WorldBank.

Skoroszyt Country zawiera 3 kolumny:

  • Country - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • Region - Nazwa regionu w języku angielskim

Skoroszyt GDP zawiera 5 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • GDP1990 - PKB na osobę w roku 1990
  • GDP2000 - PKB na osobę w roku 2000
  • GDP2010 - PKB na osobę w roku 2010
  • GDP2020 - PKB na osobę w roku 2020

Skoroszyt POP zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • POP1990 - liczba ludności w roku 1990
  • POP2000 - liczba ludności w roku 2000
  • POP2010 - liczba ludności w roku 2010
  • POP2020 - liczba ludności w roku 2020

Skoroszyt RURAL_POP zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • RPOP1990 - liczba ludności zamieszkującej tereny wiejskie w 1990 roku.
  • RPOP2000 - liczba ludności zamieszkującej tereny wiejskie w 2000 roku
  • RPOP2010 - liczba ludności zamieszkującej tereny wiejskie w 2010 roku
  • RPOP2020 - liczba ludności zamieszkującej tereny wiejskie w 2020 roku.

Skoroszyt URBAN_POP zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • UPOP1990 - liczba ludności obszarów miejskich w 1990 roku.
  • UPOP2000 - liczba ludności obszarów miejskich w 2000 roku.
  • UPOP2010 - liczba ludności obszarów miejskich w 2010 roku.
  • UPOP2020 - liczba ludności obszarów miejskich w 2020 roku.

Skoroszyt LET zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • LE1990 - długość trwania życia w momencie narodzin w 1990 roku.
  • LE2000 - długość trwania życia w momencie narodzin w 2000 roku.
  • LE2010 - długość trwania życia w momencie narodzin w 2010 roku.
  • LE2020 - długość trwania życia w momencie narodzin w 2020 roku.

Skoroszyt HDI zawiera 7 kolumn:

  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • Country - nazwa państwa w języku angielskim
  • HDI_Code - Klasa HDI (low, medium, high, very high)
  • HDI1990 - Human Develoment Index w 1990 roku
  • HDI2000 - Human Develoment Index w 2000 roku
  • HDI2010 - Human Develoment Index w 2010 roku
  • HDI2020 - Human Develoment Index w 2020 roku

Skoroszyt INCOME_GROUP zawiera 6 kolumn:

  • Economy - nazwa państwa/terytorium w języku angielskim
  • Code - trzyliterowy kod państwa wg klasyfikacji ISO.
  • INCOME1990 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 1990 roku
  • INCOME2000 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2000 roku
  • INCOME2010 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2010 roku
  • INCOME2020 - Klasyfikacja obszarów na podstawie dochodu według World Bank w 2020 roku

Klasyfikacja World Bank dzieli obszary na 4 kategorie:

  • L - Low income
  • LM - Lower middle income
  • UM - Upper middle income
  • H - High income

1.4.1 World Bank

Dane w skoroszycie Country, GDP, POP, RURAL_POP, URBAN_POP, LET zostały pozyskane z serwisu World Bank (https://data.worldbank.org/). Wykorzystano następujące wskaźniki:

  • NY.GDP.PCAP.CD - GDP per capita (current US$)
  • SP.POP.TOTL - Population, total
  • SP.RUR.TOTL - Rural population
  • SP.URB.TOTL - Urban population
  • SP.DYN.LE00.IN - Life expectancy at birth, total (years)

1.4.2 HDI

Human Development Index (HDI) to systetyczny wskaźnik rozwoju społecznego biorący pod uwagę “długie i zdrowe życie” (long and healthy life), “wiedzę” (knowledge) i “dostatni standard życia” (decent standard of living). Wskaźnik obliczany jest na podstawie:

  • oczekiwanej długości trwania życia
  • średniej liczby lat edukacji mieszkańców w wieku 25 lat i starszych
  • oczekiwanej liczby lat edukacji dla dzieci zaczynających proces kształcenia
  • PKB na osobę w dolarach.

Więcej:

2 Projekt 2: Wizualizacja danych w R (1)

  • Projekt wykonywany w trakcie ćwiczeń w grupach dwuosobowych.

2.1 Opis projektu

Celem projektu jest stworzenie złego wykresu tj. wykresu niespełniającego założeń dotyczących czytelności, poprawnego formatowania itp.

  • Źródło danych - zbiór danych pomiary_pol.csv z folderu data.

2.2 Rozwiązanie zadania

  • Każda grupa prezentuje wykres na koniec ćwiczeń.

  • W ramach rozwiązania zadania na koniec ćwiczeń należy oddać:

    • plik w formacie .qmd zawierający kod tworzący wykres
    • wykres zapisany w formacie PNG lub PDF.
    • plik(i) powinny być podpisane Państwa nazwiskami w formie: Nazwisko_Nazwisko_wykres.qmd oraz Nazwisko_Nazwisko_wykres.png lub Nazwisko_Nazwisko_wykres.pdf
    • pliki należy umieścić w zespole MS Teams do zajęć w folderze Projekt 2

W przypadku nieobecności na ćwiczeniach w tym dniu, rozwiązanie projektu należy umieścić w folderze Projekt 2 do kolejnych zajęć.

3 Projekt 3: Wizualizacja danych w R (2)

3.1 Opis projektu

  • Cel - stworzenie wykresu komunikacyjnego z zachowaniem prawidłowych zasad formatowania wykresów.

  • Źródło danych - zbiór danych wdi1990_2020.csv utworzony w ramach projektu 1.

  • projekt samodzielny

3.2 Rozwiązanie zadania

  • plik w formacie .qmd zawierający kod tworzący wykres;
  • plik PNG zawierający utworzony wykres
  • plik(i) powinny być podpisane Państwa nazwiskiem w formie: Nazwisko_wykres.qmd oraz Nazwisko_wykres.png
  • pliki należy umieścić w zespole MS Teams do zajęć w folderze Projekt 3

3.3 Ocena wykresów

Ocenie będą podlegały następujące elementy:

  • dobór typu wykresu do postawionego problemu.

  • staranność wykonania (tytuł, podpisy osi, dobór kolorów)

  • Każdy wykres otrzyma dwie oceny:

    • ocenę wystawioną przez prowadzącego zajęcia
    • średnią z ocen wystawioną przez uczestników zajęć

W trakcie ćwiczeń każdy wykres będzie omówiony przez twórcę oraz poddany dyskusji.

4 Projekt 4: Raport statystyczny

4.1 Opis projektu

Celem projektu jest opracowanie raportu statystycznego dotyczącego analizy statystycznej długości trwania życia w wybranym kraju w latach 1960-2021.

4.2 Cel raportu

W raporcie należy przeprowadzić analizę długości trwania życia w wybranym kraju w latach 1960-2021 w podziale na płeć oraz bez podziału na płeć.

4.3 Dane

Dane dotyczące długości trwania życia pochodzą z strony https://data.worldbank.org/indicator/. Dane zostały zapisane w 3 plikach:

  • Life expectancy at birth, female (years)
  • Life expectancy at birth, male (years)
  • Life expectancy at birth, total (years)

Każdy plik składa się z 3 arkuszy:

  • Data - dane dotyczące długości trwania życia w poszczególnych krajach na świecie

  • Metadata - Countries - informacje dotyczące poszczególnych państw:

    • trzyliterowy kod nazwy państwa (Country code)
    • region, w którym położone jest dane państwo (Region)
    • grupa wskazująca na poziom dochodu (IncomeGroup)
    • dodatkowe informacje (SpecialNotes)
    • nazwa państwa (TableName)
  • Metadata - Indicators - informacja nt. analizowanego wskaźnika (w tym wypadku długość trwania życia).

4.4 Wykonanie raportu statystycznego prezentującego wyniki analizy statystycznej

Etap ten wykonywany jest w grupach 2 osobowych. Każda grupa oddaje jeden raport.

  1. Przygotowanie danych do analizy
  • Należy przygotować plik z danymi do analizy składający się z następujących kolumn:

    • rok
    • długość trwania życia - kobiety
    • długość trwania życia - mężczyźni
    • długość trwania życia - ogólem
  1. Wykonanie analizy statystycznej danych.

  2. naliza ma być przedstawiona w formie raportu statystycznego zawierającego:

  • tekst (zgodny ze strukturą raportu)
  • ryciny, wykresy, tabele, mapy.
  • proszę zastosować opcję ukrycia kodu w raporcie

4.5 Raport statystyczny

  • Raport proszę wykonać wykorzystując dokument Quarto
  • Raport ma zawierać do 1000-1200 słów oraz 3-6 rycin i tabel.
  • Raport należy zapisać w formacie html

4.6 Oddanie raportu

W folderze Projekt 4 w zespole do zajęć w MS Teams należy utworzyć folder nazwany nazwiskami osób, które wykonywały raport. Następnie w tym folderze należy umieścić plik qmd oraz html (oba pliki także nazwać nazwiskami osób, które tworzyły raport.

4.7 Ocena końcowa

Za projekt będzie można otrzymać trzy oceny:

  • Ocenę za wykonanie raportu uwzględniającego jego strukturę, treść, wykonane analizy.
  • Ocenę za część graficzną raportu (dobór wykresów, ich czytelność oraz poprawność wykonania).
  • Ocenę za kod (oceniana będzie przejrzystośc kodu, możliwość odtworzenia analizy w oparciu o dostarczony kod, poprawność; poszczególne fragmenty kodu powinny być opatrzone komentarzem).