머신러닝/딥러닝

딥러닝 - Parameter Optimizer

aiemag 2021. 4. 10. 12:44
반응형

딥러닝에서 학습 시 가중치 parameter의 최적화에 사용되는 최적화 기법에 대해 정리합니다.

 

 


SGD

Definition

매개변수의 기울기를 구해, 기울어진 방향으로 매개변수 값을 갱신하는 일을 반복해서 최적의 값을 찾는 것.

 

최소값인 (0,0) 까지 지그재그로 이동하니 비효율적.

Formula

\(W \leftarrow W - \eta \frac{\partial L }{\partial W}\)

 

parameters

W : 갱신할 가중치 매개변수

 

\(\frac{\partial L }{\partial W}\) : W에 대한 손실 함수의 기울기

 

\(\eta\) : 학습률


Momentum

Definition

기울기 방향으로 힘을 받아 물체가 가속되듯이 매개변수 값을 갱신하는 방법

 

SGD와 비교하면 지그재그 정도가 덜함.

 

x축의 힘은 아주 작지만 방향은 변하지 않아서 한 방향으로 일정하게 가속.

 

y축의 힘은 크지만 위아래로 번갈아 받아서 상충하여 y축 방향의 속도는 안정적이지 않음.

 

 

Formula

\(v \leftarrow \alpha v - \eta \frac{\partial L}{\partial W}\)

 

\(W \leftarrow W + v\)

 

parameters

W : 갱신한 가중치 매개변수

 

\(\frac{\partial L}{\partial W}\) : W에 대한 손실 함수의 기울기

 

\(\eta\) : 학습률

 

\(\alpha\) : 0.9 등의 값으로 설정, \(\alpha v\) 는 물체가 아무런 힘을 받지 않을 때 서서히 하강시키는 역할


AdaGrad

Definition

개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행.

※ learning rate decay : 학습을 진행하면서 학습률을 점차 줄여가는 방법.

 

y축 방향은 기울기가 커서 처음에는 크게 움직이지만, 큰 움직임에 비례해 갱신 정도도 큰 폭으로 작아지도록 조정됨.

 

Formula

\(h \leftarrow h + \frac{\partial L}{\partial W}\bigodot \frac{\partial L}{\partial W}\)

 

\(W \leftarrow W - \eta\frac{1}{\sqrt{h}}\frac{\partial L}{\partial W}\)

 

parameters

W : 갱신한 가중치 매개변수

 

\(\frac{\partial L}{\partial W}\) : W에 대한 손실 함수의 기울기

 

\(\eta\) : 학습률

 

h : 기존 기울기 값을 제곱하여 더해줌.

 

※ 매개변수를 갱신할 때 \(\frac{1}{\sqrt{h}}\) 을 곱해 학습률을 조정, 매개변수의 원소 중에서 많이 움직인(크게 갱신된) 원소는 학습률이 낮아진다는 말.

 


RMSProp

Definition

과거의 모든 기울기를 균일하게 더해가는 것이 아니라, 먼 과거의 기울기는 서서히 잊고 새로운 기울기 정보를 크게 반영(EMA:Exponential Moving Average)

 


Adam

Definition

Momentum과 AdaGrad의 장점을 취함.(2015년도에 제안됨)

 

hyper parameter 의 '편향 보정'이 됨.

 

 


 

 

반응형