머신러닝/통계

통계 - Statistical Estimation

aiemag 2021. 3. 20. 11:21
반응형

모집단(Population)에서 표본(Sample)을 Random Sampling으로 추출하고, 추출된 표본에 대한 신뢰도에 대한 개념을 정리합니다.

 

The sample of the population


Sample(표본)

Definition

Sample(표본) = 모집단의 부분집합

 

모집단에서 크기가 n인 표본 X1,X2,...Xn 을 임의추출 하였을 때, 

 

표본평균 X=1ni=1nXi

 

표본분산 S2=1n1i=1n(XiX)2

 

표본표준편차 S=S2

 

 


Sample Mean(표본 평균)의 평균, 분산, 표준 편차, 표준 오차

Definition

모평균이 m, 모분산이 σ2인 모집단에서 크기가 n인 표본을 복원 추출할 때, 표본평균X에 대해,

 

E(X)=m

 

(V(X)=E((Xμ)2)=σ2n

 

σ(X)=E((Xμ)2)=σn

모분산=σ2

※ 표준 오차(SE - Standard Error) : 표본 평균의 표준 편차.

 - 표본평균은 모평균에 대한 추정값, 모평균은 참값

 - 변량이 표본평균일 때, (변량-평균) = (추정값-참값)을 의미 (추정값-참값)은 오차

 

표준 편차 vs 표준 오차

※ 표준 편차 :  (변량-평균)의 제곱의 평균에 루트

※ 표준 오차 : (추정값-참값)의 제곱의 평균에 루트

 

s(X)=sn

모분산의 추정치=s2

※ 표본 평균의 표준 오차"(SEM - Standard Error of Mean) : 표본 평균 분포의 표준 편차

 

 

Charateristic

모집단의 분포가 정규분포를 따르면 표본평균 X는 정규분포 N(m,σ2n)를 따름

 

모집단의 분포가 정규분포를 따르지 않더라도, 표본의 크기 n이 충분히 크면(n이 30이상) 표본평균 X는 근사적으로 정규분포 N(m,σ2n)를 따름

 


Statistical Estimation(통계적 추정)

Definition

표본에서 얻은 정보를 이용하여 모집단의 특성을 확률적으로 추측하는 것

 

정규분포 N(m,σ2)을 따르는 모집단에서 임의추출한 크기가 n인 표본으로부터 얻은 표본평균이 X일 때, 모평균 m의 신뢰구간

 

신뢰도 95%의 신뢰구간: X1.96σnmX+1.96σn

 

신뢰도 99%의 신뢰구간: X2.58σnmX+2.58σn

 

※ 실제로 모집단의 표준편차 σ를 모르는 경우가 대부분, 표본표준편차S 를 이용해도 신뢰도는 성립.

 

Charateristic

Confidence Interval(신뢰구간)은 넓게 잡으면 더욱 신뢰할 수 있는 추정이라고 할 수 있으나, 추정으로서의 가치는 떨어짐

 

막연한 추정은 의미가 없고, 어느 정도의 오차를 허용하더라도 적당한 크기의 구간으로 평균을 추정하는 합리적인 방법이 필요

 

Inducement

정규분포 N(m,σ2) 을 따르는 모집단에서 크기가 n인 표본을 임의추출하였을 때, 표본평균 X 는 정규분포 N(m,σ2n)을 따름

 

확률변수 X 를 표준화한 확률변수 Z=Xmσn 은 표준정규분포 N(0, 1)을 따름

 

 

P(1.96Z1.96)=0.95

 

 

P(1.96Xmσn1.96)=0.95

 

P(X1.96σnmX+1.96σn)=0.95

 

 


Sample Size Calculator

위의 추정 지식을 바탕으로, 이제는 모집단의 전체 수 N을 알 때, 원하는 신뢰도와 신뢰구간의 필요한 sample 개수를 알아낼 수 있다.

 

표본 sample 개수가 필요한 경우는 선거 조사 시 모든 국민을 대상으로 조사할 수 없으므로 필요한 표본을 고르는 예가 있을 수 있음.

 

Machine Learning 에서는 전체 데이터의 분포를 알고 싶은데, computing power 또는 시간 절약의 이유로 적절히 random sampling 하여 대략의 분포를 알고자 할 때 쓰임.

Formula

공식은 다음과 같은데 유도 과정 등에 대해서는 아직 100% 이해는 하지 못하였다. 관련 parameter들에 관한 정보는 아래를 참조하자.

 

z : z score (ex : 1.96)

p : observed percentage - 관찰치(응답 비율)로 보통 최대 표본오차를 구하기 위해 0.5를 사용 (ex : 0.5)

N : population size (ex : 100000)

e : margin of error (ex : 0.02)

 오차 한계 = z×σn

 

 


표본 오차 정의

표본오차 = ±(Z)*SQRT(표본분산/표본수)
표본분산 = (응답 비율)*(1–응답 비율)
Z = 1.96: 신뢰수준 95%, 2.58: 신뢰수준 99%
SQRT: square root, 제곱근

 

예를 들어, 표본수 2,000명에서 예상 응답 비율 50%라면 표본오차는 ±2.19%포인트로 계산됩니다.
±2.19 = ±(1.96)*SQRT[(0.5)*(1-0.5)/2000]

 

※ 아래 사이트 참조했습니다.

 

www.gallup.co.kr/gallupdb/faqContents.asp?seqNo=107

www.nownsurvey.com/calculator/

 


Reference

 

아래는 해당 공식으로 원하는 Confidence Level 및 Confidence Interval 에서의 sample size를 쉽게 구할 수 있는 기능을 제공하는 사이트

www.surveysystem.com/sscalc.htm

www.calculator.net/sample-size-calculator.html?type=1&cl=95&ci=5&pp=50&ps=13370&x=60&y=4%EF%BB%BF

hsm-edu.tistory.com/794

ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%EC%98%A4%EC%B0%A8

 

 

반응형