2023. 10. 30. 00:38ใArtificialIntelligence/2023GoogleMLBootcamp
Basic Models
input ํ๋์ค ๋จ์ด๋ค์ ๋ฐ๋ ๋ถ๋ถ -> ์ธ์ฝ๋
output ์์ด ๋จ์ด๋ค์ ์ถ๋ ฅ -> ๋์ฝ๋
+ ์ถฉ๋ถํ ์์ input / output ๋จ์ด ์๋ค์ด ์๋ค๋ฉด, ํด๋น ๊ตฌ์กฐ๋ working
๋ง์ด ๊ธธ์ง ์์ ๋ฌธ์ฅ์ output์ผ๋ก ๋ธ๋ค๋ฉด image captioning๋ ๊ฐ๋ฅ
sequence to seq
image to seq
Picking the Most Likely Sentence
condition์ผ๋ก ํ๋์ค์ด ๋จ์ด๊ฐ ๋ค์ด์์ ๋,
์๋จ์ด์ ํ๋ฅ ์ ์์ธกํ๋ ๊ฒ -> conditional probablity
๋๋คํ๊ฒ ๋ฝ์๋ด๋ค๊ฐ๋ ์ด์ํ ๋ฌธ์ฅ์ ๋ง๋ค ์ ์๋ค.
๋ฐ๋ผ์ ํ๋ฅ ๊ฐ์ ์ต๋ํํ๋ ๋ฌธ์ฅ์ ์์ธกํ๋ ๊ฒ์ด ์ ํฉํจ
๋ฐ๋ผ์ most likely english sentence
์ ๋ฌธ์ฅ์ด ๋ ์ฌ๋ฐ๋ฅธ ๋ฒ์ญ
ํ์ง๋ง ํ์์ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ๋ฉด is ๋ค์์ผ๋ก going์ด ์ค๋ ํ๋ฅ ์ด ๋ ์ปค์ ์๋ ๋ฌธ์ฅ์ ๋์ถํจ
๋ฐ๋ผ์ ํ์ ์๊ณ ๋ฆฌ์ฆ์ด ์ต์ ์ ๋ฐฉ์์ ์๋๋ค.
๋จ์ํ ์์ 3 ๋จ์ด๋ง ๋๋ค๋ฉด, ํ์๋ฒ ๊ฒฐ๊ณผ์ ํ๋ฅ ์ด ๋ ํผ
ํ์ง๋ง ์์ ๋ฌธ์ฅ์ด ๋ ์ข์ ๋ฌธ์ฅ (๋ ์ ํฉํ ๋ฒ์ญ)
Beam Search
beam search์์ B๊ฐ ์๋ฏธํ๋ ๊ฒ์ beam width
B = 3
3๊ฐ์ ๋จ์ด์ ๋ํ์ฌ, ๊ฐ๊ฐ 10000
-> 30000 ํ์ํ ๊ฒ
+ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ก ์ชผ๊ฐ๊ธฐ ๊ฐ๋ฅ
๋ง์ฝ, beam search output 2๊ฐ ์์ธก -> in, jane์ ๋นํด ์๋์ ์ผ๋ก ๋ฎ์ september -> ๋ฒ๋ฆฐ๋ค.
beam search๋ฅผ ํตํด ์ ์ฒด ๋ฌธ์ฅ์ ๋์ถํ๋ ๊ณผ์
Refinements to Beam Search
ํ์ด ๋์ ๋ก๊ทธ(์๊ทธ๋ง)๋ฅผ ์ฌ์ฉํ์ -> log scale
0๊ณผ 1 ์ฌ์ด์ ํ๋ฅ ๊ฐ์ด ์ง์์ ์ผ๋ก ๊ณฑํด์ง๋ฉด ๊ฐ์ด 0์ ์๋ ด
์ํ๊ฐ 1์ ๊ฐ๊น์ฐ๋ฉด full normalization
0์ ๊ฐ๊น์ฐ๋ฉด normalization X
Ty -> ๊ธธ์ด (์ํ ํ์)
B -> ์ผ๋ง๋ ๊ฒฝ์ฐ์ ์๋ฅผ ๊ณ ๋ คํ ๊ฒ์ธ๊ฐ?
B๊ฐ ํฌ๋ฉด, ๋ง์ ๊ฒฝ์ฐ๋ฅผ ๊ณ ๋ คํ๋ ๊ฒ -> ์ฑ๋ฅ์ ์ข์ผ๋, ์๋๊ฐ ๋๋ฆด ๊ฒ
+ ํด๋ฆฌ์คํฑํ ํ์ ๋ฐฉ๋ฒ
Error Analysis in Beam Search
์ฌ๋์ด ๋ฒ์ญํ ๊ฒ์ด y*
ML์ด ๋ฒ์ญํ ๊ฒ์ด y^
์ด ๋ ๊ฒฐ๊ณผ์ ํ๋ฅ ์ ๋น๊ตํ๋ ๊ฒ์ด RNN
์ธ๊ฐ ํ๋ฅ ์ด ๋๋ค๊ณ RNN์ด ์์ธก -> beam search fault
ML ํ๋ฅ ์ด ๋๋ค๊ณ RNN์ด ์์ธก -> RNN fault
B์ R์ ๋น์จ์ ๊ณ์ฐํ์ฌ ๋ฌด์์ด ๋ ๋ง์ ์๋ฌ๋ฅผ ์ ๋ฐํ๋ ์์ธ์ธ์ง ํ์ ํ ์ ์๋ค.
Bleu Score
bleu score - ๋ฒ์ญ, generation, image caption ๋ฑ๋ฑ ์ฌ๋ฌ ๋ถ์ผ์ ํ์ฉ๋๋ค.
Attention Model Intuition
๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก ์ ๊ฒฝ๋ง์ด ๊ธฐ์ตํ๊ธฐ ์ด๋ ต๋ค -> ์ฑ๋ฅ์ด ๊ฐ์ํ๋ ํ์ ๋ฐ์
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ attention ๋ฉ์ปค๋์ฆ (๋ฅ๋ฌ๋์์ ๋งค์ฐ ์ค์)
Jane์ด๋ผ๋ ์ฒซ๋ฒ์งธ ๋จ์ด๋ฅผ output ๋์ถํ๊ธฐ ์ํด์ ๋ฌด์์ด ํ์ํ๊ฐ?
์ด ๊ฐ๊ฐ์ input X ๋จ์ด๋ค์ ๋ํ์ฌ ๊ฐ์ค์น๋ฅผ ๋์ -> ์ํ๊ฐ : ์ผ๋ง๋ ์ฌ๊ธฐ์ attention ํ ๊ฒ์ธ์ง ์๋ฏธ
S : hidden state
์ง์ ๋จ๊ณ์์ ์์ฑ๋ ๋จ์ด + attention ๊ฐ์ค์น์ ๋ฐ๋ผ input๋ ํจ๊ป ์์ธกํ๋ ๊ณผ์ ์ ํฌ์
next word๋ฅผ ์์ธกํ๋ค.
a < t , t' >
์์ด t๋ฅผ ์์ธกํ ๋,
ํ๋์ค์ด t'์ ์ผ๋งํผ ๋ฐ์, attention ํ ๊ฒ์ธ๊ฐ?
๊ฐ์ค์น ๊ฐ์ ์๋ฏธํ๋ค. (์ผ๋ง๋ ํด๋น context๊ฐ ๊ทธ feature์ ์์กดํ ๊ฒ์ธ๊ฐ?)
t -> target, output
t' -> context, input
Attention Model
์ํ์ ๋ฌ๋ฆฌ a๋ input (x<t>)๋ฅผ ์๋ฏธํ๋ค!
์ฌ๊ธฐ์ ์ดํ ์ ์ํ๋ฅผ ๊ณฑํ ๊ฒ์ ๋ชจ๋ ๋ํ๋ฉด c๊ฐ ๋๋ค.
๊ทธ๋ ๋ค๋ฉด ์ด ์ดํ ์ alpha<t, t'>์ ์ด๋ป๊ฒ ๊ตฌํ๋๊ฑธ๊น?
Tx, Ty์ ๋ํ์ฌ quadratic cost๊ฐ ์์๋๋ค๋ ๋จ์
+ image captioning์ ์ ์ฌํ ์๊ณ ๋ฆฌ์ฆ์ด ์ ์ฉ๋ ์ ์๋ค.
Speech Recognition
phonemes -> ์๋ฆฌ๋ฅผ ๋ค๋ฆฌ๋๋๋ก ํ๊ธฐํ ๊ฒ (the -> de)
์์ฑ ์ธ์์๋ attention ๋ฉ์ปค๋์ฆ์ด ์ฌ์ฉ๋ ์ ์๋ค.
Trigger Word Detection
์๋ฆฌ์ผ! ํ๋ ๊ทธ trigger detection์ ์๋ฏธํ๋ค. (์ค ์ ๊ธฐ๋ฐฉ๊ธฐ)
trigger word -> 1
์๋๋ฉด 0
'ArtificialIntelligence > 2023GoogleMLBootcamp' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[GoogleML] Coursera ์๋ฃ ์๋ฃ! ๐ฅณ (0) | 2023.10.31 |
---|---|
[GoogleML] Transformer Network (Final) (0) | 2023.10.30 |
[GoogleML] Word Embeddings _ Word2vec & GloVe (0) | 2023.10.29 |
[GoogleML] Natural Language Processing & Word Embeddings (1) | 2023.10.29 |
[GoogleML] Recurrent Neural Networks (1) | 2023.10.17 |