1 Weryfikacja hipotez statystycznych

1.1 Podstawowe pojęcia

  • Weryfikacja hipotez statystycznych

    • jedna z metod wnioskowania statystycznego
    • polega na sprawdzeniu słuszności przypuszczeń (tj. hipotezy) dotyczących postaci rozkładu cechy statystycznej lub wartości jego parametru.
  • Hipoteza badawcza - najbardziej prawdopodobne (na gruncie wiedzy badającego) rozwiązanie postawionego problemu badawczego.

    • Poprawne sformułowanie hipotezy w dużej mierze przesądza o sukcesie badawczym.
    • Hipoteza powinna być tak sformułowana, aby było ją łatwo przyjąć lub odrzucić.
  • Hipoteza statystyczna - sformułowanie przypuszczenia dotyczącego rozkładu populacji

    • Hipoteza zerowa - hipoteza poddawana weryfikacji. Hipoteza zerowa zakłada, że różnica między parametrami lub rozkładami wynosi 0.

    • Hipoteza alternatywna - hipoteza, którą skłonni jesteśmy przyjąć, gdy odrzucamy hipotezę zerową.

  • Test statystyczny

    • określony schemat postępowania służący weryfikacji hipotez.

Prawdziwość hipotezy będziemy weryfikować na podstawie wyników próby losowej.

1.2 Etapy weryfikacji hipotez statystycznych - przykład

Etap 1. Sformułowanie hipotezy zerowej H0 oraz odpowiadającej jej hipotezy alternatywnej H1

  • Jako hipotezę zerową przyjmujemy tę której prawdziwość poddajemy w wątpliwość i którą chętniej jesteśmy skłonni odrzucić, jeśli tylko znajdziemy mocne uzasadnienie.

  • Ważniejsza jest dla nas hipoteza alternatywna, ponieważ celem większości analiz i badań jest odrzucenie hipotezy zerowej na korzyść przyjęcia alternatywnej.

Przykład: Czy średnia populacji \(\mu\) jest równa określonej wartości \(\mu_{0}\)?

  • hipoteza zerowa: średnia populacji jest równa przyjętej wartości (\(H_{0}: \mu = \mu_{0}\))
  • hipoteza alternatywna: średnia populacji nie jest równa przyjętej wartości (\(H_{0}: \mu \neq \mu_{0}\))

Etap 2. Przyjęcie odpowiedniego poziomu istotności

  • Na tym etapie procedury weryfikacyjnej przyjmujemy maksymalne dopuszczalne prawdopodobieństwo odrzucenia hipotezy zerowej wtedy, gdy jest ona prawdziwa (tzw. błąd I rodzaju).

  • Prawdopodobieństwo to jest oznaczane symbolem \(\alpha\) i nazywane poziomem istotności.

  • Na ogół przyjmujemy prawdopodobieństwo bliskie zeru, ponieważ chcemy, aby ryzyko popełnienia błędu było jak najmniejsze.

  • Najczęściej zakładamy poziom istotności \(\alpha=0.05\), czasem przyjmujemy także \(\alpha=0.01\) lub \(\alpha=0.1\)

    • Np. poziom istotności 0,05 oznacza, że jesteśmy skłonni popełnić błąd (odrzucenia hipotezy zerowej wtedy, gdy jest ona prawdziwa) 5 razy na 100 badań.
  • Poziom istotności a p-value

    • p-value (poziom prawdopodobieństwa p) - jest to wyliczany w pakietach komputerowych najmniejszy poziom istotności, przy której wyliczona wartość testującej statystyki doprowadza do odrzucenia hipotezy zerowej.

    • poziom istotności - liczba, ustalona z góry przed przeprowadzeniem testu; najczęściej przyjmowane wartości: 0.05, 0.01, 0.001.

Wynik statystycznie istotny oznacza, że różnica uzyskana w eksperymencie jest większa od tej, która może wynikać jedynie z przypadku

Co oznacza poziom istotności 0,01, a co poziom istotności 0,001?

Etap 3. Wynik testu - podjęcie decyzji o odrzuceniu (lub nie odrzuceniu) hipotezy zerowej

  • Możemy odrzucić hipotezę zerową (i przyjąć hipotezę alternatywną), jeśli p-value jest mniejsze od przyjętego poziomu.
  • Możemy nie mieć podstaw do odzucenia hipotezy zerowej ( Nigdy nie przyjmujemy hipotezy zerowej )

Obszar krytyczny

  • obszar znajdujący się zawsze na krańcach rozkładu.
  • Jeżeli obliczona przez nas wartość statystyki testowej znajdzie się w tym obszarze, to weryfikowaną przez nas hipotezę H0 odrzucamy i przyjmujemy hipotezę alternatywną.
  • Wielkość obszaru krytycznego wyznacza dowolnie mały poziom istotności \(\alpha\) , natomiast jego położenie określane jest przez hipotezę alternatywną.

Obszar krytyczny a hipoteza alternatywna

Hipoteza alternatywna Obszar krytyczny Interpretacja
\(\mu \neq A\) dwustronny obszar krytyczny obejmuje wartości testu “dużo” większe i “dużo” mniejsze od A.
\(\mu < A\) lewostronny obszar krytyczny obejmuje wartości testu “dużo” mniejsze od A.
\(\mu > A\) prawostronny obszar krytyczny obejmuje wartości testu “dużo” większe od A.

Podjęcie decyzji

Wyznaczoną na podstawie próby wartość statystyki (P-wartość) porównujemy z wartością krytyczną testu.

  • Jeśli obliczona na podstawie próby wartość statystyki należy do obszaru krytycznego, to hipotezę zerową należy odrzucić jako nieprawdziwą. Stąd wniosek, że prawdziwa jest hipoteza alternatywna.

  • Jeśli obliczona na podstawie próby wartość statystyki nie należy do obszaru krytycznego, to stwierdzamy, że nie mamy podstaw do odrzucenia hipotezy zerowej. Nie odrzucenie hipotezy zerowej nie dowodzi jej prawdziwości. Stąd wniosek, że hipoteza zerowa może, ale nie musi, być prawdziwa, a postępowanie nie dało żadnych dodatkowych informacji uprawniających do podjęcia decyzji o przyjęciu lub odrzuceniu hipotezy zerowej.

Dane zawierają pomiary temperatur dla wybranego obszaru. Naszym zadaniem jest sprawdzenie, czy średnia temperatura będzie równa 8C, przy założeniu poziomu istotności 0,01. Sformułuj hipotezę zerową oraz hipotezy alternatywne (dwustronne, lewostronną i prawostronną). Co oznacza, poziom istotności 0,01?

2 Weryfikacja hipotez statystycznych w R.

PRZYKŁAD 1: Jakie jest prawdopodobieństwo, że średnia populacji będzie równa 9.0 C?

storkowo2007_2009<- read.csv("dane/Storkowo_2007_2009.csv")
2.0.0.0.1 Hipoteza dwustronna
  • Hipoteza zerowa: średnia jest równa 9
  • Hipoteza alternatywna: średnia nie jest równa 9
t.test(storkowo2007_2009$TwP, mu = 9, alternative = "two.sided", conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  storkowo2007_2009$TwP
## t = -5.7511, df = 1095, p-value = 1.149e-08
## alternative hypothesis: true mean is not equal to 9
## 95 percent confidence interval:
##  7.961849 8.490030
## sample estimates:
## mean of x 
##   8.22594
Interpretacja

P-wartość: 1.149e-08 (czyli 0.00000001149). Odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej.

Przy założeniu przedziału ufności na poziomie 0,95 sprawdź jakie jest prawdopodobieństwo, że średnia jest równa 8,2. Co oznacza wynik testu? Czy na podstawie wyników testu możemy odrzucić hipotezę zerową?

PRZYKŁAD 2: Jakie jest prawdopodobieństwo, że średnia populacji będzie mniejsza od 9.0 C?

2.0.0.0.2 Hipoteza jednostronna
  • Hipoteza zerowa: średnia jest równa 9
  • Hipoteza alternatywna: średnia jest mniejsza od 9
t.test(storkowo2007_2009$TwP, mu = 9, alternative = "less", conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  storkowo2007_2009$TwP
## t = -5.7511, df = 1095, p-value = 5.747e-09
## alternative hypothesis: true mean is less than 9
## 95 percent confidence interval:
##      -Inf 8.447514
## sample estimates:
## mean of x 
##   8.22594

Przy założeniu przedziału ufności na poziomie 0,99 sprawdź jakie jest prawdopodobieństwo, że średnia jest mniejsza od 8. Co oznacza wynik testu?

PRZYKŁAD 3: Jakie jest prawdopodobieństwo, że średnia populacji będzie większa od 9.0 C?

2.0.0.0.3 Hipoteza jednostronna
  • Hipoteza zerowa: średnia jest równa 9
  • Hipoteza alternatywna: średnia jest większa od 9
t.test(storkowo2007_2009$TwP, mu = 9, alternative = "greater", conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  storkowo2007_2009$TwP
## t = -5.7511, df = 1095, p-value = 1
## alternative hypothesis: true mean is greater than 9
## 95 percent confidence interval:
##  8.004365      Inf
## sample estimates:
## mean of x 
##   8.22594

Przy założeniu przedziału ufności na poziomie 0,99 sprawdź jakie jest prawdopodobieństwo, że średnia jest większa od 8. Co oznacza wynik testu?