KimAnt 🥦

Normalization(2)

[GoogleML] Batch Normalization
Normalizing Activations in a Network normalize를 통해 수렴 속도를 향상시킬 수 있다. 이때 normalize의 대상은 a가 아닌, z인 경우가 더 많다. (활성화 함수 통과한 이전의 값을 normalize) 선형 변환을 위한 감마와 베타는 Learnable params이다! 감마와 베타 Fitting Batch Norm into a Neural Network z와 a를 계산하는 사이에 들어간다 tf.nn.batch_normalization 한 줄의 코드로 구현할 수 있다 Why does Batch Norm work? batch norm은 input의 distribution이 변하는 것을 막아준다 speed up learning 초기 층들의 params update 전..
2023.09.21
[GoogleML] Optimization Problem
Normalizing Inputs Vanishing / Exploding Gradients 겹겹이 쌓인 W -> weights 1.5 -> 지수적으로 증가 (gradient 폭발) 0.5 -> 지수적으로 감소 (gradient vanishing) layer가 깊게 쌓일수록, 학습이 어려워지는 문제 이를 해결하기 위한 웨이트 초기화 Weight Initialization for Deep Networks weight init 중요하다 gradient가 폭발하거나 사라지게 하지 않기 위해서 Numerical Approximation of Gradients 단방향 / 양방향 grad 계산 Gradient Checking 이 수식은 어떤 값을 확인하라는거지 . . ? 잘 모르겠다. cos 유사도도 아닌 것 같고,..
2023.09.13

1

티스토리툴바