[GoogleML] Optimization Problem
Normalizing Inputs Vanishing / Exploding Gradients 겹겹이 쌓인 W -> weights 1.5 -> 지수적으로 증가 (gradient 폭발) 0.5 -> 지수적으로 감소 (gradient vanishing) layer가 깊게 쌓일수록, 학습이 어려워지는 문제 이를 해결하기 위한 웨이트 초기화 Weight Initialization for Deep Networks weight init 중요하다 gradient가 폭발하거나 사라지게 하지 않기 위해서 Numerical Approximation of Gradients 단방향 / 양방향 grad 계산 Gradient Checking 이 수식은 어떤 값을 확인하라는거지 . . ? 잘 모르겠다. cos 유사도도 아닌 것 같고,..
2023.09.13