두 집단 간의 평균을 비교하는 모수적 통계방법인 T test(검정)에 대해 정리합니다.
T test를 하는 방법 자체는 간단?할 수 있지만, 여기에 포함되는 개념들을 모두 이해하고 T test 를 하는 것은 쉽지 않다고 생각합니다.
T test에 관련된 대부분의 개념을 아래 나열합니다.
T test
Definition
T test는 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정법.
T test는 모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법, (집단의 수는 최대 2개까지 비교 가능, 3개 이상인 경우 분산분석(ANOVA) 사용)
T test는 표본 데이터에서 t값이라 불리는 통계를 계산하고 t 값을 이용하여 두 그룹 간의 모평균에 차이가 있는지를 검정하는 방법.(귀무가설 : 두 모집단의 평균 사이에 차이가 없다)
T test는 두 집단 간의 평균을 비교하는 모수적 통계방법으로 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용 가능.
※ 모수적 방법 : 모집단의 특성을 가정하여 유도된 검정법.
※ 비모수적 방법 : 모집단의 모수에 대한 가정 없이 유도된 검정법.
Characteristic
30개 이하의 비교적 적은 수의 표본에 대해 활용.
※ 표본의 수가 31 이상이면 정규분포와 비슷해지기 때문에 정규분포를 사용
모집단의 표준편차를 알 수 없을 때 사용한다.
One sample T test : 표본이 하나일 때, 모집단의 평균과 표본집단의 평균 사이에 차이가 있는지를 검증
Two sample T test : 두 집단의 표본을 종속적, 독립적 관계로 추출하여 비교함으로써 유사성을 검정.
Example
One sample T test 의 시나리오입니다.
나의 키는 180이라고 여자친구에게 이야기합니다.
최근 6년간 건강검진을 받은 나의 신장이 177, 179, 179, 178, 177, 180 로 나왔는데, 여자친구는 이 결과를 보고 의심하기 시작합니다.
과연 나는 아직도 키가 180이라고 여자친구에게 설득할 수 있을까요? |
1. 귀무 가설(null hypothesis) : 나의 키는 여러번 재면 대충(평균) μ = 180 이다.
2. 대립 가설(alternative hypothesis) : 여자 친구는 나의 키를 μ < 180 이라고 주장한다.
3. 검정 통계량
\(t_{n-1}=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\)
t value는 \(t_{5}=\frac{\overline{178.3}-180}{\frac{1.2}{\sqrt{5}}}\) = -3.167 이 나옵니다.
4. p-value 확인
가설이 180보다 작다 이므로, one sample test 를 합니다.
유의 수준 α = 0.05(one sample test 이기 때문) 이고 DOF(자유도)가 5일 때, t value(T분포표 확인)는 2.015가 됩니다.
5. p-value 와 유의 수준 α를 비교하여 판정
앞에서 구한 t vlaue값은 -3.167이지만 t분포는 좌우대칭이고 p-value는 확률면적인 양수이므로 t value는 3.167값으로 비교를 합니다.
DOF가 5일 때 t value가 3.167에 해당하는 p-value는 0.012449 입니다.
α < p-value 귀무가설 선택, 대립가설 기각
α > p-value 귀무가설 기각, 대립가설 선택
시나리오에서는 α(0.05) > p-value(0.012449) 이므로 대립가설을 선택합니다.
여자친구의 가설에 손을 들어줘야 합니다. ㅠ
(귀무 가설 : 나의 키는 여러번 재면 대충(평균) μ = 180 이다.
대립 가설 : 여자 친구는 나의 키를 μ < 180 이라고 주장한다.)
※ 아래 포스팅에 좋은 예를 가지고 있어 링크합니다.
T value
Definition
T test에 이용되는 검정통계량 = T test에 이용되는 검정통계량으로, 두 집단의 차이의 평균을 표준오차로 나눈 값
\(t_{n-1}=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\)
\(\overline{X}\) : 두 집단 차이의 평균
\(\mu\) : 모집단의 평균
\(\frac{S}{\sqrt{n}}\) : 두 집단 차이의 표준 오차
Student's T Distribution
Behind
통계학자 William Sealy Gosset(가명 Student)이 기네스 양조공장에서 적은 샘플에 대한 통계적 추정치가 잘 맞지 않은 점을 착안하여 t 분포를 제안함.
당시 기네스사에서 영업 보안으로 직원이 논문을 발행하는 것을 금지하여, Gosset은 Student라는 필명으로 논문을 발표.
Definition
Student's t-distribution은 정규 분포의 평균을 측정할 때 주로 사용되는 분포이다.
t분포는 종모양으로 t=0에서 좌우대칭을 이룸.
Formula
다음 확률변수의 분포로 정의됨
\(\frac{Z}{\sqrt{\frac{V}{\gamma}}}\)
Parameter
Z = 표준정규분포
V = 자유도 γ인 카이제곱 분포
x 축 : t value
CDF
Characteristic
t분포의 모양을 결정하는 것은 자유도이며, 자유도가 커질수록 표준정규분포에 가까움.
Significance Level(유의 수준)
Definition
귀무 가설 채택 결정 시 실수 할 확률
유의 수준은 통계적인 가설검정에서 사용되는 기준값.
일반적으로 유의 수준은 α로 표시.
95%의 신뢰되를 기준으로 한다면 (1-0.95)인 0.05값이 유의수준 값이 됨.
Significance Probability(유의 확률)
Definition
귀무 가설 기각 결정 시 실수 할 확률
귀무가설을 기각할 수 있는 최소의 유의수준.
귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률.
(귀무 가설이 맞다는 전제 하에 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률)
asymptotic significance 또는 p-value(probability value) 라고도 함.
p-value는 관찰된 데이터가 귀무가설과 양립하는 정도를 0에서 1사이로 표현, 특정 값(보통 0.05)보다 작을 경우 귀무가설을 기각.
'유의 수준' 과 '유의 확률'
이부분의 내용은 아래 내용을 참고하였습니다.
Characteristic
유의수준(0.05)은 귀무가설을 채택하고자 할 때 그 결정이 틀릴 확률이 5%라는 의미.
유의확률(0.05)은 귀무가설을 기각할 때 그 결정이 틀릴 확률이 5%가 된다는 의미.
Example
가설 예)
① 유의수준(0.05) > 유의확률(0.01) : 채택 결정 시 실수 할 확률(5%)이 기각 결정 시 실수할 확률(1%)보다 크다. 따라서 실수 확률이 높은 결정을 하면 안된다. → 실수확률이 낮은 “기각” 결정을 해야 한다.
② 유의수준(0.05) < 유의확률(0.15) : 채택 결정 시 실수 할 확률(5%)이 기각 결정 시 실수할 확률(15%)보다 작다. 따라서 실수 확률이 높은 결정을 하면 안된다. → 실수확률이 낮은 “채택” 결정을 해야 한다.
Reference
유의 수준, 유의 확률 관련
ko.wikipedia.org/wiki/%EC%9C%8C%EB%A6%AC%EC%97%84_%EC%8B%A4%EB%A6%AC_%EA%B3%A0%EC%85%8B
bioinformaticsandme.tistory.com/80
ko.wikipedia.org/wiki/%EC%9C%A0%EC%9D%98_%ED%99%95%EB%A5%A0
ko.wikipedia.org/wiki/%EC%8A%A4%ED%8A%9C%EB%8D%98%ED%8A%B8_t_%EB%B6%84%ED%8F%AC
ko.wikipedia.org/wiki/T-%ED%85%8C%EC%8A%A4%ED%8A%B8
T test 관련
www.incodom.kr/%EC%9D%B4%EB%A1%A0_%EB%B0%8F_T%EA%B2%80%EC%A0%95
P value 관련
'머신러닝 > 통계' 카테고리의 다른 글
통계 - DOF(자유도) (0) | 2021.03.26 |
---|---|
통계 - Expectation E(X) (0) | 2021.03.24 |
통계 - Likelihood (0) | 2021.03.24 |
통계 - Statistical Estimation (0) | 2021.03.20 |
통계 - Random Variable, Probability Distribution, PDF, CDF, PMF, CMF (0) | 2021.03.13 |