[GoogleML] Activation Functions' Derivatives
Explanation for Vectorized Implementation Activation Functions tanh는 sigmoid를 shift한 func (거의 동일) but tanh가 sigmoid보다는 조금 더 유리하다 why? -> mean이 zero에 형성 -> 통과한 이후 값들의 평균이 중앙에 분포, 더 유리 (sigmoid는 0.5) 마지막 layer에서는 sigmoid 사용 why? y는 0 or 1 따라서 출력을 0과 1 사이로 맞추려고 tanh 보다는 sigmoid gradient 기울기가 소멸되는 문제를 해결하기 위해 ReLU를 사용한다. 0이 되는 미분 불가능한 point에서는 0에 가까운 값을 대신 출력 어떠한 활성화 함수를 쓸 지 모르겠다면, ReLU를 써라 Leaky Re..
2023.09.10