통계 - Statistical Estimation

머신러닝/통계

통계 - Statistical Estimation

aiemag 2021. 3. 20. 11:21

모집단(Population)에서 표본(Sample)을 Random Sampling으로 추출하고, 추출된 표본에 대한 신뢰도에 대한 개념을 정리합니다.

Sample(표본)

Definition

Sample(표본) = 모집단의 부분집합

모집단에서 크기가 n인 표본 \(X_{1}, X_{2}, ... X_{n}\) 을 임의추출 하였을 때,

표본평균 \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}\)

표본분산 \(S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^2\)

표본표준편차 \(S=\sqrt{S^{2}}\)

Sample Mean(표본 평균)의 평균, 분산, 표준 편차, 표준 오차

Definition

모평균이 m, 모분산이 \(\sigma^{2}\)인 모집단에서 크기가 n인 표본을 복원 추출할 때, 표본평균\(\overline{X}\)에 대해,

\(E(\overline{X})=m\)

\((V(\overline{X})=E((\overline{X}-\mu)^2)=\frac{\sigma^{2}}{n}\)

\(\sigma(\overline{X})=\sqrt{E((\overline{X}-\mu)^2)}=\frac{\sigma}{\sqrt{n}}\)

모분산=\(\sigma^{2}\)

※ 표준 오차(SE - Standard Error) : 표본 평균의 표준 편차.

- 표본평균은 모평균에 대한 추정값, 모평균은 참값

- 변량이 표본평균일 때, (변량-평균) = (추정값-참값)을 의미 (추정값-참값)은 오차

표준 편차 vs 표준 오차

※ 표준 편차 : (변량-평균)의 제곱의 평균에 루트

※ 표준 오차 : (추정값-참값)의 제곱의 평균에 루트

\(s(\overline{X})=\frac{s}{\sqrt{n}}\)

모분산의 추정치=\(s^{2}\)

※ 표본 평균의 표준 오차"(SEM - Standard Error of Mean) : 표본 평균 분포의 표준 편차

Charateristic

모집단의 분포가 정규분포를 따르면 표본평균 \(\overline{X}\)는 정규분포 \(N(m,\frac{\sigma^2}{n})\)를 따름

모집단의 분포가 정규분포를 따르지 않더라도, 표본의 크기 n이 충분히 크면(n이 30이상) 표본평균 \(\overline{X}\)는 근사적으로 정규분포 \(N(m,\frac{\sigma^2}{n})\)를 따름

Statistical Estimation(통계적 추정)

Definition

표본에서 얻은 정보를 이용하여 모집단의 특성을 확률적으로 추측하는 것

정규분포 \(N(m,\sigma^2)\)을 따르는 모집단에서 임의추출한 크기가 n인 표본으로부터 얻은 표본평균이 \(\overline{X}\)일 때, 모평균 m의 신뢰구간

신뢰도 95%의 신뢰구간: \(\overline{X}-1.96\frac{\sigma}{\sqrt{n}}\leq m \leq \overline{X}+1.96\frac{\sigma}{\sqrt{n}}\)

신뢰도 99%의 신뢰구간: \(\overline{X}-2.58\frac{\sigma}{\sqrt{n}}\leq m \leq \overline{X}+2.58\frac{\sigma}{\sqrt{n}}\)

※ 실제로 모집단의 표준편차 σ를 모르는 경우가 대부분, 표본표준편차S 를 이용해도 신뢰도는 성립.

Charateristic

Confidence Interval(신뢰구간)은 넓게 잡으면 더욱 신뢰할 수 있는 추정이라고 할 수 있으나, 추정으로서의 가치는 떨어짐

막연한 추정은 의미가 없고, 어느 정도의 오차를 허용하더라도 적당한 크기의 구간으로 평균을 추정하는 합리적인 방법이 필요

Inducement

정규분포 \(N(m,\sigma^{2})\) 을 따르는 모집단에서 크기가 n인 표본을 임의추출하였을 때, 표본평균 \(\overline{X}\) 는 정규분포 \(N(m,\frac{\sigma^{2}}{n})\)을 따름

확률변수 \(\overline{X}\) 를 표준화한 확률변수 \(Z=\frac{\overline{X}-m}{\frac{\sigma}{\sqrt{n}}}\) 은 표준정규분포 N(0, 1)을 따름

\(P(-1.96\leq\frac{\overline{X}-m}{\frac{\sigma}{\sqrt{n}}}\leq 1.96)=0.95\)

\(P(\overline{X}-1.96\frac{\sigma}{\sqrt{n}}\leq m \leq \overline{X}+1.96\frac{\sigma}{\sqrt{n}})=0.95\)

Sample Size Calculator

위의 추정 지식을 바탕으로, 이제는 모집단의 전체 수 N을 알 때, 원하는 신뢰도와 신뢰구간의 필요한 sample 개수를 알아낼 수 있다.

표본 sample 개수가 필요한 경우는 선거 조사 시 모든 국민을 대상으로 조사할 수 없으므로 필요한 표본을 고르는 예가 있을 수 있음.

Machine Learning 에서는 전체 데이터의 분포를 알고 싶은데, computing power 또는 시간 절약의 이유로 적절히 random sampling 하여 대략의 분포를 알고자 할 때 쓰임.

Formula

공식은 다음과 같은데 유도 과정 등에 대해서는 아직 100% 이해는 하지 못하였다. 관련 parameter들에 관한 정보는 아래를 참조하자.

z : z score (ex : 1.96)

p : observed percentage - 관찰치(응답 비율)로 보통 최대 표본오차를 구하기 위해 0.5를 사용 (ex : 0.5)

N : population size (ex : 100000)

e : margin of error (ex : 0.02)

오차 한계 = \(z\times \frac{\sigma}{\sqrt{n}}\)

표본 오차 정의

표본오차 = ±(Z)*SQRT(표본분산/표본수)
표본분산 = (응답 비율)*(1–응답 비율)
Z = 1.96: 신뢰수준 95%, 2.58: 신뢰수준 99%
SQRT: square root, 제곱근

예를 들어, 표본수 2,000명에서 예상 응답 비율 50%라면 표본오차는 ±2.19%포인트로 계산됩니다.
±2.19 = ±(1.96)*SQRT[(0.5)*(1-0.5)/2000]

※ 아래 사이트 참조했습니다.

www.gallup.co.kr/gallupdb/faqContents.asp?seqNo=107

www.nownsurvey.com/calculator/

Reference

아래는 해당 공식으로 원하는 Confidence Level 및 Confidence Interval 에서의 sample size를 쉽게 구할 수 있는 기능을 제공하는 사이트

www.surveysystem.com/sscalc.htm

www.calculator.net/sample-size-calculator.html?type=1&cl=95&ci=5&pp=50&ps=13370&x=60&y=4%EF%BB%BF

hsm-edu.tistory.com/794

ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%EC%98%A4%EC%B0%A8

저작자표시 (새창열림)

'머신러닝 > 통계' 카테고리의 다른 글

통계 - T test (0)	2021.03.26
통계 - Expectation E(X) (0)	2021.03.24
통계 - Likelihood (0)	2021.03.24
통계 - Random Variable, Probability Distribution, PDF, CDF, PMF, CMF (0)	2021.03.13
통계 - Normal distribution 어렵지 않아요 (0)	2021.03.07

현재글통계 - Statistical Estimation

평범한 직장인의 일상 + 독서 + SW 개발 위주의 공간입니다. aiemag.lhh@gmail.com

k8s, Docker, 미라클모닝, 육아팁, 독서 목록, 영어표현, 디자인패턴, 독서목록, 육아일기, 매일일기, 딥러닝, 알고리즘, 이상탐지, PYTHON, TensorFlow, 통계, 프로그래머스, 독후감, 칼럼LINK, 감사일기,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

책 읽는 개발자