머신러닝/통계

통계 - Statistical Estimation

aiemag 2021. 3. 20. 11:21
반응형

모집단(Population)에서 표본(Sample)을 Random Sampling으로 추출하고, 추출된 표본에 대한 신뢰도에 대한 개념을 정리합니다.

 

The sample of the population


Sample(표본)

Definition

Sample(표본) = 모집단의 부분집합

 

모집단에서 크기가 n인 표본 \(X_{1}, X_{2}, ... X_{n}\) 을 임의추출 하였을 때, 

 

표본평균 \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}\)

 

표본분산 \(S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^2\)

 

표본표준편차 \(S=\sqrt{S^{2}}\)

 

 


Sample Mean(표본 평균)의 평균, 분산, 표준 편차, 표준 오차

Definition

모평균이 m, 모분산이 \(\sigma^{2}\)인 모집단에서 크기가 n인 표본을 복원 추출할 때, 표본평균\(\overline{X}\)에 대해,

 

\(E(\overline{X})=m\)

 

\((V(\overline{X})=E((\overline{X}-\mu)^2)=\frac{\sigma^{2}}{n}\)

 

\(\sigma(\overline{X})=\sqrt{E((\overline{X}-\mu)^2)}=\frac{\sigma}{\sqrt{n}}\)

모분산=\(\sigma^{2}\)

※ 표준 오차(SE - Standard Error) : 표본 평균의 표준 편차.

 - 표본평균은 모평균에 대한 추정값, 모평균은 참값

 - 변량이 표본평균일 때, (변량-평균) = (추정값-참값)을 의미 (추정값-참값)은 오차

 

표준 편차 vs 표준 오차

※ 표준 편차 :  (변량-평균)의 제곱의 평균에 루트

※ 표준 오차 : (추정값-참값)의 제곱의 평균에 루트

 

\(s(\overline{X})=\frac{s}{\sqrt{n}}\)

모분산의 추정치=\(s^{2}\)

※ 표본 평균의 표준 오차"(SEM - Standard Error of Mean) : 표본 평균 분포의 표준 편차

 

 

Charateristic

모집단의 분포가 정규분포를 따르면 표본평균 \(\overline{X}\)는 정규분포 \(N(m,\frac{\sigma^2}{n})\)를 따름

 

모집단의 분포가 정규분포를 따르지 않더라도, 표본의 크기 n이 충분히 크면(n이 30이상) 표본평균 \(\overline{X}\)는 근사적으로 정규분포 \(N(m,\frac{\sigma^2}{n})\)를 따름

 


Statistical Estimation(통계적 추정)

Definition

표본에서 얻은 정보를 이용하여 모집단의 특성을 확률적으로 추측하는 것

 

정규분포 \(N(m,\sigma^2)\)을 따르는 모집단에서 임의추출한 크기가 n인 표본으로부터 얻은 표본평균이 \(\overline{X}\)일 때, 모평균 m의 신뢰구간

 

신뢰도 95%의 신뢰구간: \(\overline{X}-1.96\frac{\sigma}{\sqrt{n}}\leq m \leq \overline{X}+1.96\frac{\sigma}{\sqrt{n}}\)

 

신뢰도 99%의 신뢰구간: \(\overline{X}-2.58\frac{\sigma}{\sqrt{n}}\leq m \leq \overline{X}+2.58\frac{\sigma}{\sqrt{n}}\)

 

※ 실제로 모집단의 표준편차 σ를 모르는 경우가 대부분, 표본표준편차S 를 이용해도 신뢰도는 성립.

 

Charateristic

Confidence Interval(신뢰구간)은 넓게 잡으면 더욱 신뢰할 수 있는 추정이라고 할 수 있으나, 추정으로서의 가치는 떨어짐

 

막연한 추정은 의미가 없고, 어느 정도의 오차를 허용하더라도 적당한 크기의 구간으로 평균을 추정하는 합리적인 방법이 필요

 

Inducement

정규분포 \(N(m,\sigma^{2})\) 을 따르는 모집단에서 크기가 n인 표본을 임의추출하였을 때, 표본평균 \(\overline{X}\) 는 정규분포 \(N(m,\frac{\sigma^{2}}{n})\)을 따름

 

확률변수 \(\overline{X}\) 를 표준화한 확률변수 \(Z=\frac{\overline{X}-m}{\frac{\sigma}{\sqrt{n}}}\) 은 표준정규분포 N(0, 1)을 따름

 

 

\(P(-1.96\leq Z \leq 1.96)=0.95\)

 

 

\(P(-1.96\leq\frac{\overline{X}-m}{\frac{\sigma}{\sqrt{n}}}\leq 1.96)=0.95\)

 

\(P(\overline{X}-1.96\frac{\sigma}{\sqrt{n}}\leq m \leq \overline{X}+1.96\frac{\sigma}{\sqrt{n}})=0.95\)

 

 


Sample Size Calculator

위의 추정 지식을 바탕으로, 이제는 모집단의 전체 수 N을 알 때, 원하는 신뢰도와 신뢰구간의 필요한 sample 개수를 알아낼 수 있다.

 

표본 sample 개수가 필요한 경우는 선거 조사 시 모든 국민을 대상으로 조사할 수 없으므로 필요한 표본을 고르는 예가 있을 수 있음.

 

Machine Learning 에서는 전체 데이터의 분포를 알고 싶은데, computing power 또는 시간 절약의 이유로 적절히 random sampling 하여 대략의 분포를 알고자 할 때 쓰임.

Formula

공식은 다음과 같은데 유도 과정 등에 대해서는 아직 100% 이해는 하지 못하였다. 관련 parameter들에 관한 정보는 아래를 참조하자.

 

z : z score (ex : 1.96)

p : observed percentage - 관찰치(응답 비율)로 보통 최대 표본오차를 구하기 위해 0.5를 사용 (ex : 0.5)

N : population size (ex : 100000)

e : margin of error (ex : 0.02)

 오차 한계 = \(z\times \frac{\sigma}{\sqrt{n}}\)

 

 


표본 오차 정의

표본오차 = ±(Z)*SQRT(표본분산/표본수)
표본분산 = (응답 비율)*(1–응답 비율)
Z = 1.96: 신뢰수준 95%, 2.58: 신뢰수준 99%
SQRT: square root, 제곱근

 

예를 들어, 표본수 2,000명에서 예상 응답 비율 50%라면 표본오차는 ±2.19%포인트로 계산됩니다.
±2.19 = ±(1.96)*SQRT[(0.5)*(1-0.5)/2000]

 

※ 아래 사이트 참조했습니다.

 

www.gallup.co.kr/gallupdb/faqContents.asp?seqNo=107

www.nownsurvey.com/calculator/

 


Reference

 

아래는 해당 공식으로 원하는 Confidence Level 및 Confidence Interval 에서의 sample size를 쉽게 구할 수 있는 기능을 제공하는 사이트

www.surveysystem.com/sscalc.htm

www.calculator.net/sample-size-calculator.html?type=1&cl=95&ci=5&pp=50&ps=13370&x=60&y=4%EF%BB%BF

hsm-edu.tistory.com/794

ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%EC%98%A4%EC%B0%A8

 

 

반응형