Analiza korelacji - matematyczne narzędzia do określenia stopnia w jakim zmienne są ze sobą powiązane
Regresja − metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych wartości innych (Wikipedia).
Model regresyjny - model, który będzie z założonym błędem statystycznym przewidywał wartość danej cechy.
metoda najmniejszych kwadratów błędów - metoda, która ma na celu dopasowanie do zebranych danych, takiej lini (dla regresji liniowej), która jest do nich najlepiej dopasowana - tzn. dla której suma kwadratów błędów będzie najniższa.
Standardowym wynikiem analizy korelacji jest współczynnik korelacji. Wartość współczynnika korelacji mówi nam o sile związku - przyjmuje wartości w przedziałe od -1 do 1 (im wartość bardziej różna od 0 tym większa siła powiązania) Znak współczynnika korelacji (dodatni/ujemny) określa kierunek powiążania:
Główną ideą regresji jest wyjaśnianie, przewidywanie, prognozowanie danych dla pewnej zmiennej (określanej jako zmienna zależna, objaśniana, wyjaśniana) na podstawie innych zmiennych (zmienne niezależne, predyktory, zmienne objaśniające, zmienne wyjaśniające).
Analiza regresji tworzy funkcję matematyczną opisującą zależność pomiędzy badanymi zmiennymi (zmienną zależną którą chcemy przewidywać na podstawie zmiennych niezależnych).
Model regresyjny - model, który będzie z założonym błędem statystycznym przewidywał wartość, poziom danej cechy.
\[Y=f(X,\beta)+\varepsilon\]
\(Y\) - zmienna, której wartość chcemy przewidywać (zmienna zależna, zmienna wyjaśniana, przewidywana)
\(X\) - zmienna objaśniająca
\(f(X,\beta)\) - funkcja regresji
\(\beta\) - współczynnik regresji
\(\varepsilon\) - błąd losowy
Najprostszym wariantem regresji jest regresja liniowa. Regresja liniowa opisywana jest wzorem:
\[Y=X\beta+\varepsilon\]
\(Y\) - zmienna objaśniana
\(X\) - zmienna objaśniająca
\(\beta\) - współczynnik modelu
\(\varepsilon\)- zakłócenia losowe o rozkładzie N(0, \(\sigma^2\))
Równanie to opisuje oczekiwaną średnią wartość zmiennej Y jako liniowej kombinacji zmiennej (lub zmiennych) X.
Regresja liniowa:
zależność pomiędzy zmienną objaśnianą a objaśniająca jest zależnością liniową.
Wyznaczenie modelu regresji liniowej (linii regresji) sprowadza się do obliczenia współczynników linii prostej (współczynników regresji: \(a\) oraz \(b\) (wyraz wolny)). W tym celu wykorzystuje się metodę najmniejszych kwadratów błędu
Analiza regresji liniowej ma na celu wyliczenie takich współczynników regresji (współczynników w modelu liniowym), aby model jak najlepiej przewidywał wartość zmiennej zależnej, aby błąd oszacowania był jak najmniejszy. Tak więc analiza regresji “dopasowuje” taką linię prostą do badanych (liniowa zależność), aby jak model był jak najlepszy (obarczony jak najmniejszym błędem losowym).
Znając wzór modelu regresji (znając współczynniki modelu) możemy oszacować wartości zmiennej zależnej (zmiennej objaśnianej, Y) na podstawie wartości predyktora (zmienna objaśniająca, X) podstawiając odpowiednią wartość X do uzyskanego wzoru. Dlatego też mówimy, że analiza regresji służy do przewidywania wartości jednej zmiennej na podstawie innych.
Metoda najmniejszych kwadratów (pełna nazwa: metoda najmniejszych kwadratów błędów)
W R równanie modelu regresji opisywane jest za pomoca tzw. FORMUŁY
lm()
,
aggregate()
) oraz wykresy.Jeśli zmiennych objaśniających jest więcej to rozdziela się je znakiem +
zmiennaObjaśniana ~ zm1 + zm2 … + zmN
Przykład:
Kilka uwag o konstruowaniu formuł w R:
nazwy zmiennych pojawiające się w formułach powinny być widoczne w środowisku R lub być nazwami kolumn ramki danych
znak - (minus) przed zmienną oznacza usunięcie zmiennej z formuły
“-1” oznacza usunięcie z formuły wyrazu wolnego, to samo otrzymamy dodając do formuły “+0”
“+1” - oznacza dodanie do formuły wyrazu wolnego
w formułach można wykorzystywać funkcje matematyczne i inne funkcje programu R
y ~. # y od wszyatkich pozostałych zmiennych
y ~. -1 # y od wszyatkich pozostałych zmiennych bez wyrazu wolnego
lm()
W R do budowy modelu liniowego służy funkcja lm()
lm(formula, data, subset, weights, na.action,
method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,
singular.ok = TRUE, contrasts = NULL, offset, ...)
Wpisz ?lm
aby sprawdzić co oznaczają poszczególne
elementy funkcji lm()
Do obowiązkowych należy:
Funkcja lm()
dopasowuje model liniowy, wyznacza oceny
współczynników \(\beta\) oraz wylicza
wartości reszt. Wynikiem działania funkcji jest obiekt klasy
lm, który będzie przechowywał informacje o dopasowanym modelu.
Do ważniejszych informacji należą: