initialization(2)
-
[GoogleML] Optimization Problem
Normalizing Inputs Vanishing / Exploding Gradients 겹겹이 쌓인 W -> weights 1.5 -> 지수적으로 증가 (gradient 폭발) 0.5 -> 지수적으로 감소 (gradient vanishing) layer가 깊게 쌓일수록, 학습이 어려워지는 문제 이를 해결하기 위한 웨이트 초기화 Weight Initialization for Deep Networks weight init 중요하다 gradient가 폭발하거나 사라지게 하지 않기 위해서 Numerical Approximation of Gradients 단방향 / 양방향 grad 계산 Gradient Checking 이 수식은 어떤 값을 확인하라는거지 . . ? 잘 모르겠다. cos 유사도도 아닌 것 같고,..
2023.09.13 -
[GoogleML] Activation Functions' Derivatives
Explanation for Vectorized Implementation Activation Functions tanh는 sigmoid를 shift한 func (거의 동일) but tanh가 sigmoid보다는 조금 더 유리하다 why? -> mean이 zero에 형성 -> 통과한 이후 값들의 평균이 중앙에 분포, 더 유리 (sigmoid는 0.5) 마지막 layer에서는 sigmoid 사용 why? y는 0 or 1 따라서 출력을 0과 1 사이로 맞추려고 tanh 보다는 sigmoid gradient 기울기가 소멸되는 문제를 해결하기 위해 ReLU를 사용한다. 0이 되는 미분 불가능한 point에서는 0에 가까운 값을 대신 출력 어떠한 활성화 함수를 쓸 지 모르겠다면, ReLU를 써라 Leaky Re..
2023.09.10