모집단(Population)에서 표본(Sample)을 Random Sampling으로 추출하고, 추출된 표본에 대한 신뢰도에 대한 개념을 정리합니다.

Sample(표본)
Definition
Sample(표본) = 모집단의 부분집합
모집단에서 크기가 n인 표본
표본평균
표본분산
표본표준편차
Sample Mean(표본 평균)의 평균, 분산, 표준 편차, 표준 오차
Definition
모평균이 m, 모분산이
모분산=
※ 표준 오차(SE - Standard Error) : 표본 평균의 표준 편차.
- 표본평균은 모평균에 대한 추정값, 모평균은 참값
- 변량이 표본평균일 때, (변량-평균) = (추정값-참값)을 의미 (추정값-참값)은 오차
표준 편차 vs 표준 오차
※ 표준 편차 : (변량-평균)의 제곱의 평균에 루트
※ 표준 오차 : (추정값-참값)의 제곱의 평균에 루트
모분산의 추정치=
※ 표본 평균의 표준 오차"(SEM - Standard Error of Mean) : 표본 평균 분포의 표준 편차
Charateristic
모집단의 분포가 정규분포를 따르면 표본평균
모집단의 분포가 정규분포를 따르지 않더라도, 표본의 크기 n이 충분히 크면(n이 30이상) 표본평균
Statistical Estimation(통계적 추정)
Definition
표본에서 얻은 정보를 이용하여 모집단의 특성을 확률적으로 추측하는 것
정규분포
신뢰도 95%의 신뢰구간:
신뢰도 99%의 신뢰구간:
※ 실제로 모집단의 표준편차 σ를 모르는 경우가 대부분, 표본표준편차S 를 이용해도 신뢰도는 성립.
Charateristic
Confidence Interval(신뢰구간)은 넓게 잡으면 더욱 신뢰할 수 있는 추정이라고 할 수 있으나, 추정으로서의 가치는 떨어짐
막연한 추정은 의미가 없고, 어느 정도의 오차를 허용하더라도 적당한 크기의 구간으로 평균을 추정하는 합리적인 방법이 필요
Inducement
정규분포
확률변수

Sample Size Calculator
위의 추정 지식을 바탕으로, 이제는 모집단의 전체 수 N을 알 때, 원하는 신뢰도와 신뢰구간의 필요한 sample 개수를 알아낼 수 있다.
표본 sample 개수가 필요한 경우는 선거 조사 시 모든 국민을 대상으로 조사할 수 없으므로 필요한 표본을 고르는 예가 있을 수 있음.
Machine Learning 에서는 전체 데이터의 분포를 알고 싶은데, computing power 또는 시간 절약의 이유로 적절히 random sampling 하여 대략의 분포를 알고자 할 때 쓰임.
Formula
공식은 다음과 같은데 유도 과정 등에 대해서는 아직 100% 이해는 하지 못하였다. 관련 parameter들에 관한 정보는 아래를 참조하자.

z : z score (ex : 1.96)
p : observed percentage - 관찰치(응답 비율)로 보통 최대 표본오차를 구하기 위해 0.5를 사용 (ex : 0.5)
N : population size (ex : 100000)
e : margin of error (ex : 0.02)
오차 한계 =
표본 오차 정의
표본오차 = ±(Z)*SQRT(표본분산/표본수)
표본분산 = (응답 비율)*(1–응답 비율)
Z = 1.96: 신뢰수준 95%, 2.58: 신뢰수준 99%
SQRT: square root, 제곱근
예를 들어, 표본수 2,000명에서 예상 응답 비율 50%라면 표본오차는 ±2.19%포인트로 계산됩니다.
±2.19 = ±(1.96)*SQRT[(0.5)*(1-0.5)/2000]
※ 아래 사이트 참조했습니다.
www.gallup.co.kr/gallupdb/faqContents.asp?seqNo=107
www.nownsurvey.com/calculator/
Reference
아래는 해당 공식으로 원하는 Confidence Level 및 Confidence Interval 에서의 sample size를 쉽게 구할 수 있는 기능을 제공하는 사이트
www.surveysystem.com/sscalc.htm
www.calculator.net/sample-size-calculator.html?type=1&cl=95&ci=5&pp=50&ps=13370&x=60&y=4%EF%BB%BF
ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%EC%98%A4%EC%B0%A8
'머신러닝 > 통계' 카테고리의 다른 글
통계 - T test (0) | 2021.03.26 |
---|---|
통계 - Expectation E(X) (0) | 2021.03.24 |
통계 - Likelihood (0) | 2021.03.24 |
통계 - Random Variable, Probability Distribution, PDF, CDF, PMF, CMF (0) | 2021.03.13 |
통계 - Normal distribution 어렵지 않아요 (0) | 2021.03.07 |