통계 표본에서 자주 다루는 용어인 DOF(Degrees Of Freedom, 자유도)에 대해 정리합니다.
DOF(Degrees Of Freedom)
Definition
통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말함.
크기가 n인 표본의 관측값\((x_1, x_2, ... , x_n)\)의 자유도는 n-1이다.
표본 분산 \(S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i - \overline{X})^{2}\) 에 대해, \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\) 임.
여기서 \(\overline{X}\)는 모집단의 평균μ의 추정치이기 때문에 자유도는 1 적은 n-1이 됨.
\(E[S^2]=E[\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2]\)
\(=\frac{1}{n-1}E[\sum_{i=1}^{n}(X_i-\overline{X})^2]\)
\(=\frac{1}{n-1}E[\sum_{i=1}^{n}((X_i-\mu)+(\mu-\overline{X}))^2]\)
\(=\frac{1}{n-1}E[\sum_{i=1}^{n}((X_i-\mu)^2+2(X_i-\mu)(\mu-\overline{X})+(\mu-\overline{X})^2)]\)
\(=\frac{1}{n-1}E[\sum_{i=1}^{n}(X_i-\mu)^2+\sum_{i=1}^{n}2(X_i-\mu)(\mu-\overline{X})+\sum_{i=1}^{n}(\mu-\overline{X})^2]\)
\(=\frac{1}{n-1}E[\sum_{i=1}^{n}(X_i-\mu)^2+2(\overline{X}-\mu)n(\mu-\overline{X})+n(\mu-\overline{X})^2]\)
\(=\frac{1}{n-1}E[\sum_{i=1}^{n}(X_i-\mu)^2-n(\overline{X}-\mu)^2]\)
이 때,
\(E[(X_i-\mu)^2]=\sigma^2\)
\(E[(\overline{X}-\mu)^2]=V[\overline{X}]=\frac{\sigma^2}{n}\)
자 이제 다시 정리하면
\(\frac{1}{n-1}E[\sum_{i=1}^{n}(X_i-\mu)^2-n(\overline{X}-\mu)^2]=\frac{1}{n-1}\sum_{i=1}^{n}E[(X_i-\mu)^2]-n(E[(\overline{X}-\mu)^2])\)
\(=\frac{1}{n-1}(n\sigma^2-n\frac{\sigma^2}{n})=\sigma^2\)
따라서 표본분산의 기댓값이 모분산이라고 할 수 있음, 그래서 n-1을 분모에 사용.
\(E(S^2)=\sigma^2\)
\(S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2\)
역학에서의 DOF
Definition
어떤 물체의 상태를 표시할 수 있는 최소한의 독립된 변수의 수를 말함.
Mobility라고도 함.
Reference
ko.wikipedia.org/wiki/%EC%9E%90%EC%9C%A0%EB%8F%84_(%ED%86%B5%EA%B3%84%ED%95%99)
ko.wikipedia.org/wiki/%EC%9E%90%EC%9C%A0%EB%8F%84_(%EC%97%AD%ED%95%99)
angeloyeo.github.io/2020/03/23/sample_variance.html
'머신러닝 > 통계' 카테고리의 다른 글
통계 - T test (0) | 2021.03.26 |
---|---|
통계 - Expectation E(X) (0) | 2021.03.24 |
통계 - Likelihood (0) | 2021.03.24 |
통계 - Statistical Estimation (0) | 2021.03.20 |
통계 - Random Variable, Probability Distribution, PDF, CDF, PMF, CMF (0) | 2021.03.13 |