2023. 10. 17. 14:27ใArtificialIntelligence/2023GoogleMLBootcamp
Why Sequence Models?
Notation
๋จ์ด ๋จ์๋ก ๋์ ๋ค, ์ด๋ฆ์ ๊ด๋ จํ ๋ถ๋ถ์ ์๋ณํ๋ค๊ณ ํ์ (์ด๋ฆ y -> 1, ์๋๋ฉด 0)
X<1> -> ์ฒซ๋ฒ์งธ ๋จ์ด
i ๋ฒ์งธ sample(๋ฌธ์ฅ)์ ๋ํด t๋ฒ์งธ ๋จ์ด, ์์ -> X(i)<t> ๋ผ๊ณ ํ๊ธฐํ๋ค
Tx(i) = 9 (๋จ์ด ๊ฐ์๊ฐ 9๊ฐ๋ผ๋ ์๋ฏธ)
one-hot vector๋ก ํํ๋๋ ๊ฐ ๋จ์ด๋ค ex) X<t>
์ฃผ์ด์ง ์ฌ์ , vocavulary์ ๋ํด, mapping ๋๋ ๊ฐ๋ง 1, ๋๋จธ์ง๋ 0 -> one-hot
๋ง์ฝ์ ์ฌ์ ์ ์๋ ๋จ์ด๊ฐ ์ฃผ์ด์ง๋ค -> <UNK> unknown
์ด๋ฅผ ํตํด x -> y mapping
Recurrent Neural Network Model
๊ธฐ์กด์ ๊ตฌ์กฐ๋ก๋ ํํํ๊ธฐ ์ด๋ น๋ sequential data
๊ฐ์ค์น๋ค์ ๊ณต์ ํ๋ค!
y3์ ์์ธกํ๊ธฐ ์ํด์ x1, x2, x3๋ฅผ ํ์ฉํ๋ค
์ด๋ Recurrent Neural Net์ ํ๊ณ
๋ค์์ ์ฌ (๋ฏธ๋์, ๋ค์) ๋จ์ด๋ค์ ํ์ฉํ์ง ๋ชปํ๋ค.
์๋ง ๋ณธ๋ค๋ฉด ๋ฃจ์ฆ๋ฒจํธ๋ผ๋ ์ ๋ณด ์์ด, ๋์ ๊ตฌ๋ถํ๊ธฐ ์ด๋ ต๋ค
forward ๊ณผ์ ์ ์๋ฏธํ๋ค
Waa์ Wax๋ฅผ ํ๋ฒ์ ํํํ matrix Wa (์ฐจ์ ๊ณ์ฐํ๋ ๋ฒ๋ ๋์ด)
๋์ฑ ๊ฐ๋จํ๊ฒ ์์์ ํํํ ์ ์๋ค.
Backpropagation Through Time
cross entropy loss
๊ฐ step ๋ณ loss๋ฅผ ํฉํ์ฌ ์ด loss๋ฅผ ํํํ๊ณ , updateํ๋ค
backpropagation through time
Different Types of RNNs
ex) ๋ฒ์ญ ๊ณผ์ ๊ฐ์ ๊ฒฝ์ฐ, ๋จ์ด์ ๊ธธ์ด๊ฐ ๋ฐ๋ ์๋ ์๋ค. (์ธ์ด์ ๋ฐ๋ผ ๋ฌธ์ฅ ๊ตฌ์กฐ ๋ณ๊ฒฝ ๊ฐ๋ฅ)
many to many / many to one
one to many - music generation
many to many - ๋ฒ์ญ๊ธฐ
์ ๋ ฅ ์ธ์ด๋ฅผ ์ฝ๋/๋ฒกํฐํ - encoder
์ถ๋ ฅ ์ธ์ด๋ฅผ ์ฝ๋/๋ฒกํฐํ - decoder
๋ค์ํ ๊ตฌ์กฐ๋ค์ด ์๋ค (RNN)
Language Model and Sequence Generation
์ธ์ด๋ชจ๋ธ์ด ํ๋ ๊ฒ์ ๊ฐ output (์๋ฆฌ, ๋จ์ด)์ P ํ๋ฅ ์ ๋์ถํ๋ ๊ฒ !
๊ฐ sequence์ ํ๋ฅ ์ ๊ณ์ฐํ๋ ๊ฒ
tokenize - ํ ํฐํํ๋ค
๊ฐ ๋จ์ด๋ฅผ ์ํซ๋ฒกํฐ๋ก ๋งคํํ๋ ๊ณผ์
๋์ EOS
์ ๋ํฌํ UNK
y1์ ์ฒซ๋ฒ์งธ ์ฌ ๋จ์ด๊ฐ ๋ฌด์์ธ์ง ์ถ์ธกํ๋ ๊ฒ
์ฌ๋ฌ ๋จ์ด์ ๋ํ ํ๋ฅ P(word) ์ค ๊ฐ์ฅ ํฐ ๊ฒ์ pred
๊ทธ ๋ค์ ์ธ๋ฒ์งธ ๋จ์ด๋ฅผ ์์ธก ์ ,
y1, y2 ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ก P(y3)๋ฅผ ์์ธกํ๋ค
์ฆ, P(y3 | y1, y2)
Sampling Novel Sequences
์บ๋ฆญํฐ ๋ ๋ฒจ ์ธ์ด ๋ชจ๋ธ
- UNK ์์ด ํ๋ ํ๋ ๋ค ํํํ ์ ์๋ค
- ์บ๋ฆญํฐ ํ๋๋ง๋ค y<t>๊ฐ ๋งค์นญ๋๋ ๊ฒ
- ํ์ง๋ง ๋จ์ , ๋ expensiveํ๋ค (computational cost ์ธก๋ฉด์์)
Vanishing Gradients with RNNs
ํ๋ฐ๋ถ ๋ ์ด์ด์์ ๋ฐ์ํ gradient๊ฐ ์์ชฝ๊น์ง ์ ํ๋๊ธฐ ์ด๋ ต๋ค
์์ชฝ์ ๋ด์ฉ์ ๋ชจ๋ธ์ด ํ๋ฐ๋ถ๊น์ง ๊ธฐ์ตํ๊ธฐ ์ด๋ ต๋ค
๊ทผ์ฒ์ input์๋ง ์ํฅ์ ๋ง์ด ์ฃผ๊ณ
๋ง์ด ๋จ์ด์ง ๋จ์ด์๋ ์ํฅ๋ ฅ์ ๋ฏธ์น๊ธฐ ์ด๋ ต๋ค
vanishing gradient๋ RNN์์ ์ค์ํ ๋ฌธ์
gradient exploding ์ ๋ฐ์ํ ์ ์๋ Nan ๋ฌธ์
-> gradient clipping์ผ๋ก ํด๊ฒฐํ ์ ์๋ค.
ํ์ง๋ง ์ฌ๋ผ์ง๋ ํ์์ ํด๊ฒฐํ๊ธฐ ๋ ์ด๋ ต๋ค
Gated Recurrent Unit (GRU)
๊ฐ๋ง, ๊ฒ์ดํธ
๊ฐ๋ง๊ฐ ๋งค์ฐ ์์ ๊ฐ -> vanishing gradient ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
๋ค๋ฅธ version -> LSTM
Long Short Term Memory (LSTM)
a<t> = tanh ๋น ์ก๋ค.
๊ธฐ์กด์ GRU์์ ๋๊ฐ์ ๊ฒ์ดํธ๊ฐ LSTM์์๋ 3๊ฐ๋ก ์ฆ๊ฐ
๊ต์ฅํ ๋ ผ๋ฆฌํ๋ก ๊ฐ์ฐ๊ธฐ / ๊ฐ์ฐ๊ธฐ ๋ฎ์๋ค.
ํนํ ์บ๋ฆฌ๋ sum์ผ๋ก ๋ ๊ฐ ๋๋๋ ๊ฒ
peephole connection
Bidirectional RNN
๊ธฐ์กด ๋จ๋ฐฉํฅ RNN
backward๊ฐ ์ถ๊ฐ๋ BRNN
๊ณผ๊ฑฐ์ ๋ฏธ๋ ์ ๋ณด ๋ชจ๋ ํจ๊ป ํด๋น ๋จ์ด๋ฅผ ์์ธกํ๋๋ฐ ํ์ฉ๋ ์ ์๋ค.
Deep RNNs
'ArtificialIntelligence > 2023GoogleMLBootcamp' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[GoogleML] Word Embeddings _ Word2vec & GloVe (0) | 2023.10.29 |
---|---|
[GoogleML] Natural Language Processing & Word Embeddings (1) | 2023.10.29 |
[GoogleML] Convolutional Neural Networks ์๋ฃ (0) | 2023.10.11 |
[GoogleML] Neural Style Transfer (2) | 2023.10.11 |
[GoogleML] Face Recognition (0) | 2023.10.09 |