1 Podstawowe pojęcia

  • Analiza korelacji - matematyczne narzędzia do określenia stopnia w jakim zmienne są ze sobą powiązane

  • Regresja − metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych wartości innych (Wikipedia).

  • Model regresyjny - model, który będzie z założonym błędem statystycznym przewidywał wartość danej cechy.

    • Dane wyjściowe (Wartości przewidywane przez model) - zmienna zależna, objaśniana, wyjaśniana
    • Dane wejściowe (wartości użyte do budowy modelu) - zmienne niezależne, predyktory, zmienne objaśniające, zmienne wyjaśniające
  • metoda najmniejszych kwadratów błędów - metoda, która ma na celu dopasowanie do zebranych danych, takiej lini (dla regresji liniowej), która jest do nich najlepiej dopasowana - tzn. dla której suma kwadratów błędów będzie najniższa.

2 Analiza korelacji

  • korelacja - służy do “wychwycenia” czy zachodzi związek pomiędzy dwoma zmiennymi.
  • matematyczne narzędzia do określenia stopnia w jakim zmienne są ze sobą powiązane
  • stopień powiązania między zmiennymi określamy poprzez 3 elementy:
    • siła powiązania
    • kształt powiązania
    • kierunek powiązania

Standardowym wynikiem analizy korelacji jest współczynnik korelacji. Wartość współczynnika korelacji mówi nam o sile związku - przyjmuje wartości w przedziałe od -1 do 1 (im wartość bardziej różna od 0 tym większa siła powiązania) Znak współczynnika korelacji (dodatni/ujemny) określa kierunek powiążania:

  • znak dodatni - zależność wprostproporcjonalna (gdy wzrastają wartości jednej zmiennej to wzrastają wartości drugiej zmiennej (i na odwrót, maleją jednej zmiennej - maleją również drugiej).
  • znak ujemny - zależność odwrotnieproporcjonalna (gdy wzrastają wartości jednej zmiennej to maleją wartości drugiej zmiennej (i odwrotnie maleją jednej i wzrsrają drugiej

3 Analiza regresji

  • Główną ideą regresji jest wyjaśnianie, przewidywanie, prognozowanie danych dla pewnej zmiennej (określanej jako zmienna zależna, objaśniana, wyjaśniana) na podstawie innych zmiennych (zmienne niezależne, predyktory, zmienne objaśniające, zmienne wyjaśniające).

  • Analiza regresji tworzy funkcję matematyczną opisującą zależność pomiędzy badanymi zmiennymi (zmienną zależną którą chcemy przewidywać na podstawie zmiennych niezależnych).

  • Model regresyjny - model, który będzie z założonym błędem statystycznym przewidywał wartość, poziom danej cechy.

    • W praktyce zawsze występuje pewna wielkość błędu oszacowania. Ideą regresji jest zminimalizowanie tego błędu oszacowania do tego stopnia, aby model był przydatny w swoich prognozach
    • Model regresyjny możemy zawsze zbudować, jednakże tylko te modele będą “wartościowe”, w których błąd oszacowania będzie relatywnie niski.

3.1 Wzrór na ogólną postać regresji

\[Y=f(X,\beta)+\varepsilon\]

\(Y\) - zmienna, której wartość chcemy przewidywać (zmienna zależna, zmienna wyjaśniana, przewidywana)

\(X\) - zmienna objaśniająca

\(f(X,\beta)\) - funkcja regresji

\(\beta\) - współczynnik regresji

\(\varepsilon\) - błąd losowy

3.2 Regresja liniowa

Najprostszym wariantem regresji jest regresja liniowa. Regresja liniowa opisywana jest wzorem:

\[Y=X\beta+\varepsilon\]

\(Y\) - zmienna objaśniana

\(X\) - zmienna objaśniająca

\(\beta\) - współczynnik modelu

\(\varepsilon\)- zakłócenia losowe o rozkładzie N(0, \(\sigma^2\))

Równanie to opisuje oczekiwaną średnią wartość zmiennej Y jako liniowej kombinacji zmiennej (lub zmiennych) X.

Regresja liniowa:

  • zależność pomiędzy zmienną objaśnianą a objaśniająca jest zależnością liniową.

    • W regresji liniowej zakłada się, że wzrostowi jednej zmiennej (zmienna objaśniająca) towarzyszy wzrost lub spadek drugiej zmiennej.
    • Funkcja regresji przyjmuje postać funkcji liniowej, czyli \(y = ax + b\).
  • Wyznaczenie modelu regresji liniowej (linii regresji) sprowadza się do obliczenia współczynników linii prostej (współczynników regresji: \(a\) oraz \(b\) (wyraz wolny)). W tym celu wykorzystuje się metodę najmniejszych kwadratów błędu

  • Analiza regresji liniowej ma na celu wyliczenie takich współczynników regresji (współczynników w modelu liniowym), aby model jak najlepiej przewidywał wartość zmiennej zależnej, aby błąd oszacowania był jak najmniejszy. Tak więc analiza regresji “dopasowuje” taką linię prostą do badanych (liniowa zależność), aby jak model był jak najlepszy (obarczony jak najmniejszym błędem losowym).

  • Znając wzór modelu regresji (znając współczynniki modelu) możemy oszacować wartości zmiennej zależnej (zmiennej objaśnianej, Y) na podstawie wartości predyktora (zmienna objaśniająca, X) podstawiając odpowiednią wartość X do uzyskanego wzoru. Dlatego też mówimy, że analiza regresji służy do przewidywania wartości jednej zmiennej na podstawie innych.

3.3 Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów (pełna nazwa: metoda najmniejszych kwadratów błędów)

  • Metoda najmniejszych kwadratów jest jedną z najważniejszych i najstarszych metod obliczeniowych w statystyce.
  • Metoda ta ma na celu dopasowanie do zebranych danych, takiej linii prostej (model liniowy), która jest do nich najlepiej dopasowana - tzn. dla której suma kwadratów błędów będzie najniższa.
    • Metoda dopasowuje taką linię do zebranych danych, aby ogólny błąd oszacowania (dla wszystkich danych) był jak najmniejszy.
  • Metoda najmniejszych kwadratów nie jest odporna na wartości odstające w zbiorze danych. Powodem tego jest fakt, że wartość odstająca “pociąga” za sobą linię regresji. Gdyby nie było wartości odstającej linia byłaby inna, zdecydowanie lepiej dopasowana do wszystkich innych obserwacji, a tak wartość odstająca zmienia kierunek linii i powoduje, że model traci swoją “moc przewidywania” dla pozostałych obserwacji.

4 Analiza regresji liniowej w R

4.1 Formuły w R

W R równanie modelu regresji opisywane jest za pomoca tzw. FORMUŁY

  • Formuła to symboliczny opis zależności między zmiennymi
  • Wykorzystywana jest przez różne funkcje w R (np. lm(), aggregate()) oraz wykresy.
  • Ogólna postać to: LewaStrona ~ PrawaStrona
    • lewa strona formuły najczęściej składa się z jednej zmiennej, prawa strona formuły może składać się z jednej lub kilku zmiennych.
  • w równaniach regresji formuła ma postać: zmiennaObjaśniana ~ zmiennaObjaśniajaca

Jeśli zmiennych objaśniających jest więcej to rozdziela się je znakiem +

zmiennaObjaśniana ~ zm1 + zm2 … + zmN

Przykład:

y ~ x #czytamy y zależy od x 

Kilka uwag o konstruowaniu formuł w R:

  • nazwy zmiennych pojawiające się w formułach powinny być widoczne w środowisku R lub być nazwami kolumn ramki danych

  • znak - (minus) przed zmienną oznacza usunięcie zmiennej z formuły

  • “-1” oznacza usunięcie z formuły wyrazu wolnego, to samo otrzymamy dodając do formuły “+0”

  • “+1” - oznacza dodanie do formuły wyrazu wolnego

  • w formułach można wykorzystywać funkcje matematyczne i inne funkcje programu R

y ~ log(x)
log(y) ~ x
  • Jeśli w formule chcemy użyć znaku + jako arytmetycznego działania musimy użyć funkcji I(). Argumenty tej funkcji traktowane są jako działania artymetyczne a nie elementy formuły.
y ~ a + b # y zależy od a oraz od b 
y ~ I(a + b) # y zależy od wyniku dodawania wartości a do b 
  • ‘.’ (krokpa) oznacza że badamy zależnośc y od wszystkich innych zmiennych
y ~. # y od wszyatkich pozostałych zmiennych 
y ~. -1  # y od wszyatkich pozostałych zmiennych bez wyrazu wolnego 
  • zastosowanie formuł, gdy zmienne są kolumnami ramki danych
#obliczenie średniej wartości zmiennej x względem grup g dla danych zawartych w ramce danych df
aggregate(x~g, data = df, FUN = mean)

#skonstruowanie modelu liniowego zależności zmiennej y od wszystkich pozostałych zmiennych w ramce danych df
lm(y ~ ., data = df)

4.2 Funkcja lm()

W R do budowy modelu liniowego służy funkcja lm()

lm(formula, data, subset, weights, na.action,
   method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,
   singular.ok = TRUE, contrasts = NULL, offset, ...)

Wpisz ?lm aby sprawdzić co oznaczają poszczególne elementy funkcji lm()

Do obowiązkowych należy:

  • formula - opisuje równanie modelu liniowego
  • data - wskazuje zbiór danych, zawierający dane wejściowe -zmienne objaśniające.

Funkcja lm() dopasowuje model liniowy, wyznacza oceny współczynników \(\beta\) oraz wylicza wartości reszt. Wynikiem działania funkcji jest obiekt klasy lm, który będzie przechowywał informacje o dopasowanym modelu. Do ważniejszych informacji należą:

  • coefficients - wartości dopasowanych współczynników modelu
  • residuals - wektor reszt (różnica dla wartości obserwowanej i oszacowanej przez model)
  • fitted.values - wektor ocen modelu
  • model - ramka danych użyta do budowy modelu