머신러닝/통계 7

통계 - DOF(자유도)

통계 표본에서 자주 다루는 용어인 DOF(Degrees Of Freedom, 자유도)에 대해 정리합니다. DOF(Degrees Of Freedom) Definition 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말함. 크기가 n인 표본의 관측값\((x_1, x_2, ... , x_n)\)의 자유도는 n-1이다. 표본 분산 \(S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i - \overline{X})^{2}\) 에 대해, \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\) 임. 여기서 \(\overline{X}\)는 모집단의 평균μ의 추정치이기 때문에 자유도는 1 적은 n-1이 됨. \(E[S^2]=E[\frac{1}{..

머신러닝/통계 2021.03.26

통계 - T test

두 집단 간의 평균을 비교하는 모수적 통계방법인 T test(검정)에 대해 정리합니다. T test를 하는 방법 자체는 간단?할 수 있지만, 여기에 포함되는 개념들을 모두 이해하고 T test 를 하는 것은 쉽지 않다고 생각합니다. T test에 관련된 대부분의 개념을 아래 나열합니다. T test Definition T test는 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정법. T test는 모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법, (집단의 수는 최대 2개까지 비교 가능, 3개 이상인 경우 분산분석(ANOVA) 사용) T test는 표본 데이터에서 t값이라 불리는 통계를 계산하고 t ..

머신러닝/통계 2021.03.26

통계 - Expectation E(X)

Mean(평균)과 햇갈리는 Expectation(기댓값)에 대한 개념을 정리합니다. Expection(기댓값) Definition 확률 변수의 기댓값은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값. 이산 확률 변수의 경우 이산 확률 변수 X 의 PMF가 \(P(X=x_{i})=p_i\) 이고 (i=1, 2, ..., n) 일 때, \(E[X]=\sum_{i}^{n}p_{i}x_{i}\) 연속 확률 변수의 경우 연속 확률 변수 X의 PDF가 f(x)이고 \((\alpha \leq x \leq \beta)\) 일 때, \(E[X]=\int_{\alpha}^{\beta}xf(x)dx\) Mean 과 Expectation Characteristic Mean(평균..

머신러닝/통계 2021.03.24

통계 - Likelihood

회귀분석이나 Machine Learning등에서 많이 사용되는 개념인 Likelihood(가능도) 에 대해 정리합니다. Likelihood(가능도) Definition 연속사건에서는 특정 사건이 일어날 확률이 0으로 계산됨. Likelihood(가능도)라는 개념을 적용하면 이를 비교할 수 있음. 즉, 연속사건에서 특정 사건일 때의 PDF 의 값을 Likelihood라고 볼 수 있음. ※ PDF의 값이 클 때 일어날 가능성이 높은 사건. ex) 아래 연속확률변수X의 PDF graph에서 X가 1일 확률은 0이지만, X가 1일 Likelihood는 0.2419707 이다. Characteristic Likelihood의 직관적인 정의 : 확률분포함수의 y 값 - 이산 사건에서는 Likelihood는 Prob..

머신러닝/통계 2021.03.24

통계 - Statistical Estimation

모집단(Population)에서 표본(Sample)을 Random Sampling으로 추출하고, 추출된 표본에 대한 신뢰도에 대한 개념을 정리합니다. Sample(표본) Definition Sample(표본) = 모집단의 부분집합 모집단에서 크기가 n인 표본 \(X_{1}, X_{2}, ... X_{n}\) 을 임의추출 하였을 때, 표본평균 \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}\) 표본분산 \(S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^2\) 표본표준편차 \(S=\sqrt{S^{2}}\) Sample Mean(표본 평균)의 평균, 분산, 표준 편차, 표준 오차 Definition 모평균이 m, 모분산이 \(..

머신러닝/통계 2021.03.20

통계 - Random Variable, Probability Distribution, PDF, CDF, PMF, CMF

확률 변수, 확률 분포, PDF, CDF 는 통계에서 항상 따라 다니지만, 개념이 제대로 안집히면 항상 햇갈리고 고생하는 용어이며 개념입니다. 이번 기회에 용어 및 개념 정리를 합니다. ※ 통계는 개념 못지 않게 Definition이 중요한 것 같습니다. 햇갈리지 않게 용어에 대한 개념을 확실히 익힙니다. Random Variable(확률변수) Definition 1. 확률적인 결과에 따라 결과값이 바뀌는 변수를 묘사하는 통계학 및 확률론의 개념 2. 어떤 시행의 결과에 따라 변수 X가 가지는 값과, 확률이 정해질 때, 이 변수 X를 확률 변수라 함. 즉, 어떤 확률 공간에서 확률 값을 나타내는 특정 값이 될 수 있는 변수를 확률 변수라 합니다. ※ 확률 공간(probability space) : 전체 ..

머신러닝/통계 2021.03.13

통계 - Normal distribution 어렵지 않아요

Normal Distribution Definition 기초 통계에서 빠질 수 없는 Normal distribution(정규 분포)에 대해 정리합니다. 독일 수학자 가우스(1777 ~ 1855)가 처음 개념을 정립해서 '가우시안 분포'라고 하기도 합니다. 우선 생긴건 이렇게 생겼습니다. 이 종모양의 확률밀도함수를 어떻게 해석하고 의미를 부여하느냐에 따라 상당히 많은 것을 할 수 있습니다. 자연 현상이나 사회 현상에서 나타나는 여러가지 통계자료를 히스토그램으로 그리면, 자료의 개수를 늘릴수록, 계급의 크기를 작게 할수록 좌우대칭인 종모양의 곡선에 가까워집니다. 데이터 분석이라고 하는 것이, 데이터의 특성을 파악하고 분포에 따른 분류 작업이 주를 이룹니다. 그래서 보통 데이터 분포가 Normal Distri..

머신러닝/통계 2021.03.07
반응형