[GoogleML] Recurrent Neural Networks

[GoogleML] Recurrent Neural Networks

2023. 10. 17. 14:27ㆍArtificialIntelligence/2023GoogleMLBootcamp

Why Sequence Models?

Notation

단어 단위로 끊은 뒤, 이름에 관련한 부분을 식별한다고 하자 (이름 y -> 1, 아니면 0)

X<1> -> 첫번째 단어

i 번째 sample(문장)에 대해 t번째 단어, 요소 -> X(i)<t> 라고 표기한다

Tx(i) = 9 (단어 개수가 9개라는 의미)

one-hot vector로 표현되는 각 단어들 ex) X<t>

주어진 사전, vocavulary에 대해, mapping 되는 값만 1, 나머지는 0 -> one-hot

만약에 사전에 없는 단어가 주어진다 -> <UNK> unknown

이를 통해 x -> y mapping

Recurrent Neural Network Model

기존의 구조로는 표현하기 어령누 sequential data

가중치들을 공유한다!

y3을 예측하기 위해서 x1, x2, x3를 활용한다

이때 Recurrent Neural Net의 한계

다음에 올 (미래의, 뒤의) 단어들은 활용하지 못한다.

앞만 본다면 루즈벨트라는 정보 없이, 둘을 구분하기 어렵다

forward 과정을 의미한다

Waa와 Wax를 한번에 표현한 matrix Wa (차원 계산하는 법도 나옴)

더욱 간단하게 수식을 표현할 수 있다.

Backpropagation Through Time

cross entropy loss

각 step 별 loss를 합하여 총 loss를 표현하고, update한다

backpropagation through time

Different Types of RNNs

ex) 번역 과정같은 경우, 단어의 길이가 바뀔 수도 있다. (언어에 따라 문장 구조 변경 가능)

many to many / many to one

one to many - music generation

many to many - 번역기

입력 언어를 코드/벡터화 - encoder

출력 언어를 코드/벡터화 - decoder

다양한 구조들이 있다 (RNN)

Language Model and Sequence Generation

언어모델이 하는 것은 각 output (자리, 단어)의 P 확률을 도출하는 것 !

각 sequence의 확률을 계산하는 것

tokenize - 토큰화하다

각 단어를 원핫벡터로 매핑하는 과정

끝에 EOS

유니크한 UNK

y1은 첫번째 올 단어가 무엇인지 추측하는 것

여러 단어에 대한 확률 P(word) 중 가장 큰 것을 pred

그 다음 세번째 단어를 예측 시 ,

y1, y2 조건부 확률로 P(y3)를 예측한다

즉, P(y3 | y1, y2)

Sampling Novel Sequences

캐릭터 레벨 언어 모델

- UNK 없이 하나 하나 다 표현할 수 있다

- 캐릭터 하나마다 y<t>가 매칭되는 것

- 하지만 단점, 더 expensive하다 (computational cost 측면에서)

Vanishing Gradients with RNNs

후반부 레이어에서 발생한 gradient가 앞쪽까지 전파되기 어렵다

앞쪽의 내용을 모델이 후반부까지 기억하기 어렵다

근처의 input에만 영향을 많이 주고

많이 떨어진 단어에는 영향력을 미치기 어렵다

vanishing gradient는 RNN에서 중요한 문제

gradient exploding 시 발생할 수 있는 Nan 문제

-> gradient clipping으로 해결할 수 있다.

하지만 사라지는 현상은 해결하기 더 어렵다

Gated Recurrent Unit (GRU)

감마, 게이트

감마가 매우 작은 값 -> vanishing gradient 문제를 해결할 수 있다.

다른 version -> LSTM

Long Short Term Memory (LSTM)

a<t> = tanh 빠졌다.

기존의 GRU에서 두개의 게이트가 LSTM에서는 3개로 증가

굉장히 논리회로 가산기 / 감산기 닮았다.

특히 캐리랑 sum으로 두 개 나뉘는 것

peephole connection

Bidirectional RNN

기존 단방향 RNN

backward가 추가된 BRNN

과거와 미래 정보 모두 함께 해당 단어를 예측하는데 활용될 수 있다.

Deep RNNs

'ArtificialIntelligence > 2023GoogleMLBootcamp' 카테고리의 다른 글

[GoogleML] Word Embeddings _ Word2vec & GloVe (0)	2023.10.29
[GoogleML] Natural Language Processing & Word Embeddings (1)	2023.10.29
[GoogleML] Convolutional Neural Networks 수료 (0)	2023.10.11
[GoogleML] Neural Style Transfer (2)	2023.10.11
[GoogleML] Face Recognition (0)	2023.10.09

KimAnt 🥦