[GoogleML] Transformer Network (Final)

2023. 10. 30. 01:19ArtificialIntelligence/2023GoogleMLBootcamp

 

 

 

Transformer Network Intuition   //   구글 마지막 강의! :) 

 

 

 

기존의 sequence 데이터를 다루던 방식과 달리, parallel하게 처리 

+ 두 개념이 중요하다 (self-attention, multi-head attention)

 

 

 

Self-Attention

Query, Key, Value 세가지 값이 중요

+ softmax 수식과 유사하다

 

 

 

예를 들어, q3이 what's happen in there(아프리카) 라면, 

q3과 k1 -> 해당 질문에 대한 답이 jane인 것 (person)

q3과 k2 -> 해당 질문에 대한 답이 visit인 것 (action) 등등

 

 

 

dot product attention이라고 불리기도 한다. 

전에 key, value, query + 어텐션

 

 

 

Multi-Head Attention

head 만큼 반복하겠다

 

 

 

두번째 질문 -> 2nd head

when? 

스택처럼 뒤에 쌓인다 

이것이 head의 concept! 

 

 

 

 

 

 

Transformer Network

인코더 / 디코더 구조

 

 

 

Positional Encoding 

 

 

 

batch norm과 유사한 Add & norm