random(2)
-
[GoogleML] Hyperparameter Tuning
Tuning Process 왜냐하면 params 별 (축 별) 중요도가 다르기 때문 섬세한 정도가 달라야 하는데, grid는 모두 동일하게 다루기 때문 random하게 보는 것이 더 좋다 Using an Appropriate Scale to pick Hyperparameters 다음과 같이 베타가 분모에 들어갈 경우, 단순한 델타값 이상의 중요도가 있다 (sensitivity) Hyperparameters Tuning in Practice: Pandas vs. Caviar 작은 setting / computational 으로 하나의 model을 평가 vs 다양한 모델, 다양한 setting을 병렬적으로 처리 판다식 vs 캐비어
2023.09.20 -
[GoogleML] Activation Functions' Derivatives
Explanation for Vectorized Implementation Activation Functions tanh는 sigmoid를 shift한 func (거의 동일) but tanh가 sigmoid보다는 조금 더 유리하다 why? -> mean이 zero에 형성 -> 통과한 이후 값들의 평균이 중앙에 분포, 더 유리 (sigmoid는 0.5) 마지막 layer에서는 sigmoid 사용 why? y는 0 or 1 따라서 출력을 0과 1 사이로 맞추려고 tanh 보다는 sigmoid gradient 기울기가 소멸되는 문제를 해결하기 위해 ReLU를 사용한다. 0이 되는 미분 불가능한 point에서는 0에 가까운 값을 대신 출력 어떠한 활성화 함수를 쓸 지 모르겠다면, ReLU를 써라 Leaky Re..
2023.09.10