[GoogleML] Convolutional Neural Networks Case Studies

[GoogleML] Convolutional Neural Networks Case Studies

2023. 10. 6. 23:16ㆍArtificialIntelligence/2023GoogleMLBootcamp

Why look at case studies?

Classic Networks

LeNet

- 현재는 1000배 이상 더 많은 params

- layer가 진행될수록 nh, nw는 줄어들고, nc (채널의 수)는 증가하는 구조

- conv와 pooling이 번갈아가면서 수행된다. (풀링 진행할 때는 채널 수 유지)

- 채널의 수 == 이전 레이어의 필터 수

- 끝단에 softmax activation func을 활용하여 y' target 예측

AlexNet

- LeNet과 유사한 구조이나, 훨씬 더 크다 (params 1000배 증가)

- ReLU activation func 활용

- multiple GPU 병렬처리

- Local Response Normalization (LRN) 활용 -> 한 pixel 잡아서, 채널 (256) 방면으로 길게 normalization

-> 현재는 잘 사용하지 않는 방법

+ CV 분야, 및 여러 분야에서 딥러닝의 가능성을 보여준 AlexNet

VGG

- simple한 구조이나, layer를 깊게 쌓았다.

- 138M parameters

- 깊어질수록 H, W는 줄어들고, C는 늘어가는 것이 conv의 구조!

ResNets

skip connection / short cut 연결

input을 후반부에 그대로 다시 더해줌으로써

gradient vanishing 문제를 개선 + 훨씬 더 많이 쌓을 수 있게 되었다.

g는 activation func으로 ReLU를 말한다.

즉, skip connection의 input 값은 ReLU 통과 전에 더해짐

이처럼 short cut 연결이 더해지면 residual block이 됨

위의 경우 5개의 residual block이 있는 것

ResNet의 경우, 매우 많은 layer를 쌓음으로써 문제를 해결할 수 있었다.

Deeper Network -> doing well

Why ResNets Work?

많은 residual block을 쌓아도, 네트워크의 성능을 해치지 않는 이유

identity func을 더하는 것과 유사한 기능을 하기 때문에

즉 이전의 a[l]과 유사한 a[l+1]이 되어, 네트워크에 부담이 X

(weight와 bias가 0에 가까운 작은 값이라는 가정 하에)

a[l] 차원과, a[l+2]의 차원을 맞춰주기 위하여

만약에 둘의 차원이 다르다면, a[l]에 적절한 차원의 W를 곱하여

둘의 차원을 동일하게 바꾸어준다

마지막에 FC -> for softmax

Networks in Networks and 1x1 Convolutions

1 X 1을 사용하게 되면, 한 픽셀에 대하여 채널 방향으로,

하나의 뉴런으로 연산하여, 값을 도출하는 효과를 가진다.

이 1 X 1의 필터 수가 출력의 마지막 차원이 되는 것

만약에 뉴런이 여러개였다면 (1개가 아니라)

연두색 차원 방향으로 레이어가 쌓이게 된다.

이것이 1 X 1 conv (Network in network)의 concept

shrink number of channel

차원을 줄여주는 역할을 할 수 있다.

1 X 1 필터의 수를 통해 차원 축소 가능

Inception Network Motivation

여러 conv layer들의 결과를 concat하여 output

각 size마다 channel 수에 따라, 64, 128, 32, 32개의 output이 나오고

이걸 다 더해서 256개의 layer를 갖는 next layer가 도출된다.

+ 28 * 28로 유지 / 따라서 모두 same conv

이 cost를 어떻게 해결하는가?

이거 계산하는 방법

output dim * conv * 이전 layer 채널 수 (192)

28 28 32 * 5 5 * 192

1 X 1 을 활용하여 bottle neck 구조

중간에 필터수로 차원을 확 죽인다

parameter 수를 획기적으로 줄일 수 있다

Inception Network

max pooling의 경우, same -> 28 * 28 * 192 (channel수도 유지됨)

input과 동일한 매우 큰 차원이 output

이때, 1 X 1 conv layer를 활용하여 채널 수를 조절하는 방식으로 차원을 축소시킨다.

왜 풀링만 나중에 1 X 1을 적용시키는걸까 . . ? (conv는 전처리처럼 쓰였는데)

inception block 구조가 반복되는 형태의 네트워크

보조 학습기가 붙는다

왜 이름이 인셉션 net인가?

인셉션 영화 밈을 가져왔다! :)

아 인셉션 보고싶다. . .

MobileNet

더 제한적인 환경에서도 동작 가능한 NN

일반적인 conv의 경우

어떤 방식으로 computational cost가 발생할까? 에 대한 고찰

어떻게 이 두 step으로 나뉘는가?

R G B 필터 별 연산이 이루어지는 과정

pointwise conv가 어떻게 이루어지는가?

핑크색 1 X 1 도 동일하게 연산이 된다

어떻게 차원을 3 -> 5로 늘리는가?

핑크의 차원 수 !

핑크색을 5개 쓰면 -> 결과 채널 dim이 되는 것

더 나은 추론 시간을 가질 수 있는 이유

depthwise와 pointwise로 나누어, 더해지면서

computational cost가 획기적으로 줄어든다 (30%)

MobileNet Architecture

depthwise와 pointwise로 나뉘어

computational cost를 획기적으로 줄인것이 key

bottlenet block 구조의 장점

- expansion을 통해 더 좋은 representation

- memory 관점에서

EfficientNet

1. 보다 더 높은 해상도

resolution을 높이기

2. depth를 더 쌓자

더 깊은 네트워크

3. width를 늘린다

블럭 size를 키우자

셋 다 늘려보기 scale up

주어진 computational cost 상에서

최적의 r, d, w를 찾기 위해 조절한다

'ArtificialIntelligence > 2023GoogleMLBootcamp' 카테고리의 다른 글

[GoogleML] Face Recognition (0)	2023.10.09
[GoogleML] Object Detection (1)	2023.10.09
[GoogleML] Convolutional Neural Networks (1)	2023.10.04
[GoogleML] Structuring Machine Learning Projects 수료 (0)	2023.10.01
[GoogleML] Transfer Learning & End-to-end Deep Learning (0)	2023.09.30

KimAnt 🥦