머신러닝/통계

통계 - Random Variable, Probability Distribution, PDF, CDF, PMF, CMF

aiemag 2021. 3. 13. 23:50
반응형

확률 변수, 확률 분포, PDF, CDF 는 통계에서 항상 따라 다니지만, 개념이 제대로 안집히면 항상 햇갈리고 고생하는 용어이며 개념입니다.

 

이번 기회에 용어 및 개념 정리를 합니다.

※ 통계는 개념 못지 않게 Definition이 중요한 것 같습니다. 햇갈리지 않게 용어에 대한 개념을 확실히 익힙니다.

 

 

 


Random Variable(확률변수)

Definition

1. 확률적인 결과에 따라 결과값이 바뀌는 변수를 묘사하는 통계학 및 확률론의 개념

2. 어떤 시행의 결과에 따라 변수 X가 가지는 값과, 확률이 정해질 때, 이 변수 X를 확률 변수라 함.

 

즉, 어떤 확률 공간에서 확률 값을 나타내는 특정 값이 될 수 있는 변수를 확률 변수라 합니다.

※ 확률 공간(probability space) : 전체 측도가 1인 측도 공간

※ 확률 변수는 대문자로 표기 ex : 확률변수 X

Example

자, 주사위를 던졌을 때, 

 

주사위의 눈이 짝수가 나올 확률이 1/2

주사위의 눈이 홀수가 나올 확률이 1/2 

 

이 되는 확률변수를 X라 하겠습니다.

 

이 때, 확률변수 X는 '짝수' 또는 '홀수' 가 될 수 있습니다.

 

Characteristic

Discrete Random Variable(이산확률변수) : 존재할 수 있는 값의 수가 유한한 경우, 확률 함수는P(X)

 

 

Continuous Random Variable(연속확률변수) : 존재할 수 있는 값의 수가 무한한 경우(어떤 범위에 속하는 모든 실숫값을 가질 때), 확률 함수는 P(a<= X <= b)

 


Probability Distribution(확률 분포)

Definition

확률 변수가 특정한 확률 값을 가지는 대응 관계

 

Characteristic

Discrete Probability Distribution(이산 확률 분포)

주사위 두 개를 던졌을 때 두 눈의 합 S에 대한 확률분포(이미지 출처 : 위키백과)

 

Continuous Probability Distribution(연속 확률 분포)

정규 분포 (이미지 출처 : 위키백과)


PDF(Probability Density Funciton 확률 밀도 함수)

Definition

연속 확률 변수의 분포(확률)를 나타내는 함수 \(f(x)\)

 

확률 밀도 함수 \(f(x)\) 와 구간[a, b]에 대해서 확률 변수 X가 구간에 포함될 확률

\(P(a\leq X \leq b) = \int_{a}^{b}f(x)dx\)

 

Example

Normal Distribution(m=0, σ=1)의 구간 1에서 2를 가질 확률 graph

Characteristic

모든 실수값 x에 대해 \(f(x)\geq 0\)

 

\(\int_{-\infty}^{\infty}f(x)dx = 1\)

 

(CDF)\(F(x)=\int_{-\infty}^{x}f(x)dx\)

 

(PDF)\(f(x)=\frac{\mathrm{d} }{\mathrm{d} x}F(x)\)


CDF(Cumulative Distribution Function 누적 분포 함수)

Definition

연속형 분포의 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수

 

확률변수 X에 대한 확률을 \(P_{X}\) 라 하면 CDF는 

\(F_{X}(x)= P_{X}(X \leq x)\)

 

Example

Normal Distribution(m=0, σ=1)의 모든 구간에 대한 CDF graph

 

Characteristic

\(F(-\infty) = 0\)

 

\(F(\infty) = 1\)

 

(CDF)\(F(x)=\int_{-\infty}^{x}f(x)dx\)

 

(PDF)\(f(x)=\frac{\mathrm{d} }{\mathrm{d} x}F(x)\)

 

 


PMF(Probability Mass Function 확률 질량 함수)

Definition

이산 확률 변수의 분포(확률)를 나타내는 함수

 

\(P(X=x_{i})=p_{i}\) (i=1,2,3, ... n)

 

주사위의 각 눈의 확률값에 대한 PMF

Characteristic

 

\(0\leq p_{i}\leq 1\)

 

\(\sum_{i=1}^{n}p_{i}=1\)

 

\(P(x_{i}\leq X \leq x_{j})=\sum_{k=i}^{j}p_{k}\)

 

 

 


CMF(Cumulative Mass Function 누적 질량 함수)

Definition

이산형 분포의 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수

 

큰 범위에서 CDF(Cumulative Distribution Function) 으로 그냥 부르기도 함.

 

\(F(x)=P(X\leq x)\)

 

\(F(x)= P(X \leq x) = \sum_{t \leq x}^{}f(t)\)

 

주사위의 각 눈보다 같거나 작은 눈이 나올 확률값(P(X<=주사위 눈))에 대한 CMF

 

Characteristic

F(x) 를 CMF라하면 \(P(a< X \leq b) = F(b) - F(a)\)

반응형

'머신러닝 > 통계' 카테고리의 다른 글

통계 - T test  (0) 2021.03.26
통계 - Expectation E(X)  (0) 2021.03.24
통계 - Likelihood  (0) 2021.03.24
통계 - Statistical Estimation  (0) 2021.03.20
통계 - Normal distribution 어렵지 않아요  (0) 2021.03.07