[GoogleML] Optimization Algorithms
Mini-batch Gradient Descent Understanding Mini-batch Gradient Descent batch도 시간이 많이 걸린다. 이 둘의 하이브리드 너무 크거나 작지 않은 미니 배치 사이즈 1. vectorization 2. 전체를 full로 다 기다릴 필요 X 1. 2000개 이하의 데이터 -> full batch 2. 큰 데이터 셋 -> 64 / 128 / 512 중 하나를 택해서 사용 3. GPU / CPU 메모리에 맞게 사용 주의 Exponentially Weighted Averages Understanding Exponentially Weighted Averages Bias Correction in Exponentially Weighted Averages t 가 커..
2023.09.20