ArtificialIntelligence(72)
-
[GoogleML] Hyperparameter Tuning, Regularization and Optimization ์๋ฃ 2023.09.22
-
[GoogleML] Batch Normalization
Normalizing Activations in a Network normalize๋ฅผ ํตํด ์๋ ด ์๋๋ฅผ ํฅ์์ํฌ ์ ์๋ค. ์ด๋ normalize์ ๋์์ a๊ฐ ์๋, z์ธ ๊ฒฝ์ฐ๊ฐ ๋ ๋ง๋ค. (ํ์ฑํ ํจ์ ํต๊ณผํ ์ด์ ์ ๊ฐ์ normalize) ์ ํ ๋ณํ์ ์ํ ๊ฐ๋ง์ ๋ฒ ํ๋ Learnable params์ด๋ค! ๊ฐ๋ง์ ๋ฒ ํ Fitting Batch Norm into a Neural Network z์ a๋ฅผ ๊ณ์ฐํ๋ ์ฌ์ด์ ๋ค์ด๊ฐ๋ค tf.nn.batch_normalization ํ ์ค์ ์ฝ๋๋ก ๊ตฌํํ ์ ์๋ค Why does Batch Norm work? batch norm์ input์ distribution์ด ๋ณํ๋ ๊ฒ์ ๋ง์์ค๋ค speed up learning ์ด๊ธฐ ์ธต๋ค์ params update ์ ..
2023.09.21 -
[GoogleML] Hyperparameter Tuning
Tuning Process ์๋ํ๋ฉด params ๋ณ (์ถ ๋ณ) ์ค์๋๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ ์ฌ์ธํ ์ ๋๊ฐ ๋ฌ๋ผ์ผ ํ๋๋ฐ, grid๋ ๋ชจ๋ ๋์ผํ๊ฒ ๋ค๋ฃจ๊ธฐ ๋๋ฌธ randomํ๊ฒ ๋ณด๋ ๊ฒ์ด ๋ ์ข๋ค Using an Appropriate Scale to pick Hyperparameters ๋ค์๊ณผ ๊ฐ์ด ๋ฒ ํ๊ฐ ๋ถ๋ชจ์ ๋ค์ด๊ฐ ๊ฒฝ์ฐ, ๋จ์ํ ๋ธํ๊ฐ ์ด์์ ์ค์๋๊ฐ ์๋ค (sensitivity) Hyperparameters Tuning in Practice: Pandas vs. Caviar ์์ setting / computational ์ผ๋ก ํ๋์ model์ ํ๊ฐ vs ๋ค์ํ ๋ชจ๋ธ, ๋ค์ํ setting์ ๋ณ๋ ฌ์ ์ผ๋ก ์ฒ๋ฆฌ ํ๋ค์ vs ์บ๋น์ด
2023.09.20 -
[GoogleML] Adam Optimizer
Gradient Descent with Momentum RMSprop ์ด๊ฒ์ด ์ด๋ป๊ฒ ๋์ํ ์ ์๋๊ฐ? ์ธ๋ก ๋ฐฉํฅ์ผ๋ก๋ ์ ๊ฒ, ๊ฐ๋ก ๋ฐฉํฅ์ผ๋ก๋ ๋ง์ด update ๋์ด์ผ ํ๋ค! (๋ง์ด ๊ฐ์ผ ํ๋ค) Adam Optimization Algorithm Learning Rate Decay ์ด๋ฐ์๋ ํฌ๊ฒ ํ ํ ๋์ค์๋ learning rate ํฌ๊ธฐ๋ฅผ ์ค์ธ๋ค The Problem of Local Optima ์ค๋ซ๋์ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ ๊ฐ๊น์ด, plateau๋ ํ์ต์ ๋ฐฉํดํ๋ ์์ธ์ด ๋๋ค
2023.09.20 -
[GoogleML] Optimization Algorithms
Mini-batch Gradient Descent Understanding Mini-batch Gradient Descent batch๋ ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆฐ๋ค. ์ด ๋์ ํ์ด๋ธ๋ฆฌ๋ ๋๋ฌด ํฌ๊ฑฐ๋ ์์ง ์์ ๋ฏธ๋ ๋ฐฐ์น ์ฌ์ด์ฆ 1. vectorization 2. ์ ์ฒด๋ฅผ full๋ก ๋ค ๊ธฐ๋ค๋ฆด ํ์ X 1. 2000๊ฐ ์ดํ์ ๋ฐ์ดํฐ -> full batch 2. ํฐ ๋ฐ์ดํฐ ์ -> 64 / 128 / 512 ์ค ํ๋๋ฅผ ํํด์ ์ฌ์ฉ 3. GPU / CPU ๋ฉ๋ชจ๋ฆฌ์ ๋ง๊ฒ ์ฌ์ฉ ์ฃผ์ Exponentially Weighted Averages Understanding Exponentially Weighted Averages Bias Correction in Exponentially Weighted Averages t ๊ฐ ์ปค..
2023.09.20 -
[Paper reading] Denoising Diffusion Probabilistic Models
Abstract We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. (๋นํํ ์ด์ญํ) Our best results are obtained by training on a weighted variational bound designed according to a novel connection between diffusion probabilistic models and denoising score matching with Langevin..
2023.09.19 -
[OpenAI] ChatGPT Prompt ๊ฐ๋ฐ
https://platform.openai.com/examples OpenAI Platform Explore developer resources, tutorials, API docs, and dynamic examples to get the most out of OpenAI's platform. platform.openai.com ๐ฉ๐ป UI๋ ๊น๋ํ๊ณ ์งฑ ์ด์๋ค. structure๋ ํ๋ฉด์ ์ง์ธ ๊ตฌ์กฐ๊ฐ API JSON request์ ๊ทธ๋๋ก ๋ฐ์๋์ด์, ๊ฐ๋ฐํ๊ธฐ ๋๋ฌด ์ข์๋ค. :) ๐ฅบ ํด๋น ํ๋ฉด์์ ํธ์ถํ๋ API ์ฝ๋๋ ๊ทธ๋๋ก ๋ณด์ฌ์ค๋ค. ์ต๊ณ ๋ค. ๐ message ๊ตฌ์กฐ๋ง ์กฐ๊ธ ์์ ํด์ colab์์ ๊ฐ๋ฐํ๋ค. ๐ฉ๐ป ๋ค๋ฅธ ์ฌ๋ฏธ์๋ ๊ธฐ๋ฅ๋ค๋ ๋ง์ ๊ฒ ๊ฐ๋ค. ํ๋ก์ ํธ์ ํ์ฉํ๋ฉด ์ ๋ง ํธํ๊ณ , ๋น ๋ฅด๊ฒ ๊ตฌํ..
2023.09.18 -
[Paper reading] Implicit Neural Representations
Implicit Neural Representations with Periodic Activation Functions Abstract Implicitly defined, continuous, differentiable signal representations parameterized by neural networks have emerged as a powerful paradigm, offering many possible benefits over conventional representations. However, current network architectures for such implicit neural representations are incapable of modeling signals w..
2023.09.18 -
[GoogleML] Optimization Problem
Normalizing Inputs Vanishing / Exploding Gradients ๊ฒน๊ฒน์ด ์์ธ W -> weights 1.5 -> ์ง์์ ์ผ๋ก ์ฆ๊ฐ (gradient ํญ๋ฐ) 0.5 -> ์ง์์ ์ผ๋ก ๊ฐ์ (gradient vanishing) layer๊ฐ ๊น๊ฒ ์์ผ์๋ก, ํ์ต์ด ์ด๋ ค์์ง๋ ๋ฌธ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์จ์ดํธ ์ด๊ธฐํ Weight Initialization for Deep Networks weight init ์ค์ํ๋ค gradient๊ฐ ํญ๋ฐํ๊ฑฐ๋ ์ฌ๋ผ์ง๊ฒ ํ์ง ์๊ธฐ ์ํด์ Numerical Approximation of Gradients ๋จ๋ฐฉํฅ / ์๋ฐฉํฅ grad ๊ณ์ฐ Gradient Checking ์ด ์์์ ์ด๋ค ๊ฐ์ ํ์ธํ๋ผ๋๊ฑฐ์ง . . ? ์ ๋ชจ๋ฅด๊ฒ ๋ค. cos ์ ์ฌ๋๋ ์๋ ๊ฒ ๊ฐ๊ณ ,..
2023.09.13 -
[GoogleML] Regularizing Neural Network
Regularization ๋์ ์ฐจ์์ W์ ๋นํด, b๋ ๋งค์ฐ ๋ฎ์ ์ฐจ์(์ค์) bias๋ regularization ํ์ง ์๋๋ค. @Logistic regression @Neural Network Why Regularization Reduces Overfitting? ๋๋ค๋ฅผ ํค์ธ ๊ฒฝ์ฐ, W๊ฐ ์ฃฝ๊ฒ ๋๋ค ๋ ๊ฐ๋จํ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ๋๋ค W๋ฅผ 0์ผ๋ก ๋ง๋ค๊ธฐ ์ํด ๋ simpleํ network -> parmas size๋ฅผ ์ค์ฌ์ ์ค๋ฒํผํ ๋ฐฉ์ง ๊ฐ๋ฅ (๊ณผ์ ํฉ ํด๊ฒฐ) layer๋ฅผ linearํ๊ฒ ๋ง๋ ๋ค -> ์ค๋ฒํผํ ํด๊ฒฐ second term์ ์ถ๊ฐ๋ก, ๊ธฐ์กด cost func์์ ๋ณํ๊ฐ ๋ฐ์ํ๊ฒ ๋๋ค Dropout Regularization ๋ ์์ ๊ท๋ชจ์ network๋ก ๋ง๋๋ ์ญํ 1๋ณด๋ค ์์ ๊ฐ์ผ๋ก ๋๋๋ค ..
2023.09.12