[GoogleML] Convolutional Neural Networks

[GoogleML] Convolutional Neural Networks

2023. 10. 4. 14:26ㆍArtificialIntelligence/2023GoogleMLBootcamp

Computer Vision

CV 이미지 처리의 문제

input (image)의 차원이 매우 크다 (3 channel까지 고려)

더 높은 해상도의 이미지일수록, 상대적으로 데이터 수가 부족하여 오버피팅 날 확률 높아짐

Edge Detection Example

edge의 개념

Convolution 연산의 의의 (과정)

프레임워크 별 conv 연산을 수행하는 각각의 연산이 존재한다 (method 이름은 다름)

왜 세로 방향 edge를 detect 하는가?

반은 밝고 (값이 크고), 반은 어두운 이미지를 생각해보자

이때 vertical filter를 활용하면 (이미지 변화를 검출하는 것)

좌우 변화를 detect 한 부분은 +30으로 밝게 표현된다

따라서 경계선 (세로 줄 부분)이 다음 단계에서는 밝은 값으로 표현되는 것

오..!

More Edge Detection

input image 반대로 뒤집힌 상황에서는

가운데가 -30으로, 어두운 값(dark region)을 갖게 됨

Horizontal edge (filter)

가로 방향을 기준으로 값의 변화를 검출

흥미로운 부분 -> 체크 표시의 중앙 경계에서 재미있는 값이 나온다 (위아래의 좌, 우 계산 +10)

vertical + 가운데에 가중치를 준 sobel filter

나아가서 scharr filter

이러한 필터를 학습하는 것이 CNN

전체 image 대신, 이와 연산 될 9개의 params를 학습하는 것

Padding

이미지 수축되는 공식

( n - f + 1 ) ^ 2

n : input / original

f : filter size

ex) 6 - 3 + 1 = 4 (따라서 16)

한 겹의 padding으로 input과 동일한 pixel의 ouput을 얻을 수 있다

패딩까지 적용된 Ouput 공식

( n + 2p - f + 1 ) ^ 2

valid = 패딩 없는 버전

same = 패딩으로 인풋 아웃풋 사이즈 동일하게

따라서 padding = ( filter - 1 ) / 2

* 필터는 홀수로 (convention)

1. central pixel

2. padding

Strided Convolutions

두 칸 씩, step을 뛰기

stride의 개념

floor 함수

output 계산하는 공식 변화

{ ( n + 2p - f ) / s + 1 } ^ 2

신호처리에서는 convolution 연산이 (수학적으로)

대각 축으로 (가로, 세로) 반전된 (변환된) filter에 대한 연산이 이루어져야하지만

Deep learning 연산에서는 대칭 적용하지 않고, 있는 그대로 합성 곱 연산이 이루어진다

Convolutions Over Volume

큐브 단위의 27번의 곱의 합이 한 칸에 적히게 된다

Red channel의 vertical edge를 detect하고 싶을 때

channel과 무관하게 세로 엣지를 검출하고 싶다면

2번째 줄의 경우와 같이 모두 다 vertical filter

output의 마지막 차원은

필터의 pixel이 아니라, (f 와는 무관)

필터의 개수에 대응하는 차원을 갖게 된다

number of channel

One Layer of a Convolutional Network

1. 3*3 Conv 통과

2. bias를 더하고, ReLU를 통과

3. 2 개의 4 * 4 더한다

-> next a (4 * 4 * 2)

input image의 size와는 무관하다!

필터를 학습하는 것, 따라서 필터의 params만 고려

CV 분야에서 컨볼루션을 활용한 이유가 되기도 함

* input dimension

previous layer에 대한 표기로 l - 1 으로 사용한다.

이전의 height, width, channel (필터의 수)을 의미함

Simple Convolutional Network Example

예시를 통해 params 알아보기

딥러닝 네트워크가 깊어질수록, H,W는 줄어들고, 깊이는 늘어난다. (channel 방향)

Pooling Layers

max pooling의 과정

filter 2*2 , stride2를 준 것과 동일하다

max pooling

필터수 3개, 스트라이드 1

average pooling

max pooling이 NN에서 더 많이 쓰인다.

(평균이 더 쓰이는 경우도 있음)

풀링의 장점!

- parameter X

- padding X

CNN Example

parameter와 함께 어떻게 Conv 과정이 진행되는 것인지 상세하게 알 수 있었다.

후반부에 Fully connected layer를 추가하여

softmax 통과 후 classification

Nh, Nw는 줄여가면서,

Nc를 늘이는게 일반적인 경우

conv pooling conv pooling -> FC FC FC -> softmax (일반적인 과정)

Why Convolutions?

컨볼루션 레이어를 활용하는 것이 parameter 훨씬 적다

1. parameter sharing

전체 이미지에 대해 filter의 params를 모두 공유한다

2. 연결의 sparsity

sparse하게 이미지 정보를 처리

특정 부분에만 영향을 받게 된다.

dense한 기존의 MLP 기반과는 다름

'ArtificialIntelligence > 2023GoogleMLBootcamp' 카테고리의 다른 글

[GoogleML] Object Detection (1)	2023.10.09
[GoogleML] Convolutional Neural Networks Case Studies (1)	2023.10.06
[GoogleML] Structuring Machine Learning Projects 수료 (0)	2023.10.01
[GoogleML] Transfer Learning & End-to-end Deep Learning (0)	2023.09.30
[GoogleML] Error Analysis & Mismatched Train and Test Set (0)	2023.09.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

KimAnt 🥦

KimAnt 🥦

태그

최근글

댓글

공지사항

아카이브