Lecture 10~12
<Lec 10 ์ ๋ฆฌ>
Sigmoid function ์ network ์์๋ Activation function ์ด๋ผ๊ณ ๋ง์ด ๋ถ๋ฅธ๋ค.
- Layer๊ฐ ์ฌ๋ฌ ๊ฐ ์์ ๋ ์ฒ์ ๋ค์ด๊ฐ๋ ๋ถ๋ถ์ Input layer ์ถ๋ ฅ ๋ถ๋ถ์ output layer, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ด๋ฐ๋ Hidden Layer๋ผ๊ณ ํ๋ค.
- Layer๊ฐ ์ฌ๋ฌ ๊ฐ ์์๋ ์ ํํ๋ ์ lyaer์ output๊ณผ ๊ทธ ๋ฐ๋ก ๋ค์ input์ด ์ผ์นํด์ผํ๋ค.
Backpropagation (lec 9-2 ๋ด์ฉ)
- ๊ฒฐ๊ณผ ๊ฐ์ ๋ฏธ์น ์ํฅ์ ์๊ธฐ ์ํด ๊ฐ๊ฐ์ ๊ฐ์ ๋ฏธ๋ถ. ์ฌ๊ธฐ์ Sigmoid ํจ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ : ๋ฏธ๋ถ์ ์ฌ์ฉํด ๊ฒฐ๊ณผ์ ๋ฏธ์น๋ ์ ๋๋ฅผ ํ์ ํ๊ณ ์ถ๋ ฅ์ ์กฐ์ . ์ด ๋ Sigmoid ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด 0~1 ์ฌ์ด์ ๊ฐ์ด ์ถ๋ ฅ์ด ๋๋ฏ๋ก ์ ๋๋ก ๋ ๊ฐ์ ๊ณ์ฐํ์ง ๋ชปํจ. ์ด๋ฅผ Vanishing Gradient ์ด๋ผ ํจ. - ์ต์ข ๋จ ๊ทผ์ฒ์ ์๋ ๊ฒฝ์ฌ๋ ๊ธฐ์ธ๊ธฐ๋ ๋ํ๋์ง๋ง, ์์ผ๋ก ๊ฐ ์๋ก ๊ฒฝ์ฌ๋๊ฐ ์ฌ๋ผ์ง.

=> Layer์์ Sigmoid ํจ์ ๋์ ReLU ๋ผ๋ ํจ์๋ฅผ ์ฌ์ฉํ๋ค. ํ์ง๋ง ๋ง์ง๋ง ๋จ์์ sigmoid ํจ์๋ฅผ ์ฌ์ฉํ๋ค. 0~1 ์ฌ์ด ๊ฐ์ ์ถ๋ ฅํด์ผ ํ๊ธฐ ๋๋ฌธ.
ReLU ํจ์ : 0์์ 0 ๊ฐ์ ์ถ๋ ฅํ๊ณ , ๋ค๋ฅธ 0๋ณด๋ค ํฐ ๊ฐ์์ ๊ฐ์ ์ถ๋ ฅํ๋ค.
Weight ์ด๊ธฐํ ๋ชจ๋ weight ์ 0์ผ๋ก ์ด๊ธฐํํ๋ฉด ๋ชจ๋ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด ๋๋ฏ๋ก ๋ชจ๋ gradient๊ฐ ์ฌ๋ผ์ง๋ค. โ ๊ทธ๋ฌ๋ฏ๋ก ๋ชจ๋ ๊ฐ์ 0์ผ๋ก ์ด๊ธฐํํ๋ฉด ์๋จ. => RBM ์ ์ด์ฉํด ์ด๊ธฐํ ํด์ผ ํ๋ค.
RBM : ๊ฐ์ง๊ณ ์๋ x ๊ฐ๊ณผ ์์ฑ๋ x' ์ ๊ฐ์ ๋น๊ตํจ. ์ด ์ฐจ์ด๊ฐ ์ต์๊ฐ ๋๋๋ก weight ์ ์กฐ์ .
- ์ธต์ด ์ฌ๋ฌ๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ ๊ฐ layer ๋ฅผ ๋ฐ๋ณตํ์ฌ weight๋ฅผ ์ด๊ธฐํ ์ํจ๋ค.
Drop out - ๋๋คํ๊ฒ ์ด๋ค ๋ด๋ฐ๋ค์ ๋์ด๋ธ ํ ํ๋ จํ๋ค. (๋ด๋ฐ๋ค ์ญ์ ) - ๋ง์ง๋ง์ ๋์ด๋๋ ๋ด๋ฐ๋ค์ ๋์ ํด ์์ธกํ๋ค. โ overfitting ํด๊ฒฐ ๊ฐ๋ฅ. ๋ ์ข์ ์ฑ๋ฅ.
Ensemble (์์๋ธ)
- ๋ ๋ฆฝ์ ์ผ๋ก ํ์ต์์ผ ๋ง๋ ๋ฌ๋ ๋ชจ๋ธ์ ํฉ์น ๋ชจ๋ธ์ด๋ค.
- ๋ ์ข์ ์ฑ๋ฅ์ผ๋ก ๋ง๋ค ์ ์๋ค. (๋๋ต 4~5% ํฅ์ ๊ฐ๋ฅ.)
๋คํธ์ํฌ ๊ตฌ์กฐ
- Fast forward : ์ฌ๋ฌ๊ฐ์ Layer ๊ฐ ์์ ๋ ๋ช ๋จ์ ๊ฑด๋ ๋ฐ๋๋ก ํ๋ ๊ตฌ์กฐ.
- Split & Merge : ํ๋์ ๋ชจ๋ธ๋ก ํ๋ จ์ํค๋ค ์ฌ๋ฌ๊ฐ๋ก ํฉ์น๋ ๊ตฌ์กฐ.
- Recurrent network : ์์ผ๋ก๋ Layer๊ฐ ์ฆ๊ฐํ๋ฉด์ ์ฌ๊ท์ ์ผ๋ก.
<Lec 11 ์ ๋ฆฌ>
Convolutional Neural Networks (CNN)
- ๋ถ๋ถ์ ๋๋์ด ์ฝ์ ํ ์ ์ฒด๋ฅผ ํฉ์น๋ ๊ธฐ๋ฒ.
<์์>
1) 32*32*3 ์ด๋ผ๋ image๋ฅผ ์ ๋ ฅ.
2) 5*5*3 filter๋ฅผ ๋ณธ๋ค. (ํ๋์ ํฌ๊ธฐ๋ ์์๋ก ์ ๋ ฅ ๊ฐ๋ฅ.)
3) ์์ ํํฐ๋ ๊ถ๊ทน์ ์ผ๋ก ํ๋์ ๊ฐ์ ์๋ฏธํจ. = ํ ์ ๋ง ๋ฝ์๋ด ์ถ๋ ฅํ๋ค.
4) ์์ ์ถ๋ ฅ ๊ฐ์ weight์ผ๋ก ์ง์ ํด ์ ์ฒด ๊ทธ๋ฆผ์ ํ๋๋ค. (๋ช ์นธ์ฉ ์์ง์ผ์ง๋ฅผ 'stride'๋ผ ํ๋๋ฐ, ์ด ๊ฐ์ ์์๋ก ์ค์ )
5) ์ ์ฒด ๊ทธ๋ฆผ์ด ๋ช๊ฐ์ ๊ฐ์ ๋ชจ์๋์ง๋ฅผ ๊ณ์ฐ. (ex : 7*7 input ์์ 3*3 filter๋ฅผ ์ฌ์ฉํ๋ฉด 5*5 output ์ด ๋์จ๋ค.)
=> Output size = (N-F) / stride + 1
(์ฌ๊ธฐ์ N์ input image์ ํฌ๊ธฐ, F ๋ Filter ์ size)
์์ ์์์ ๊ฐ์ ๊ฒฝ์ฐ image๊ฐ ์ ์ ์์์ง๋๋ฐ, ๊ทธ๋ ๊ฒ ๋๋ฉด ์ ๋ณด๋ฅผ ์์ด๋ฒ๋ฆฐ๋ค.
โ Padding ์ด๋ผ๋ ๊ฐ๋ ์ฌ์ฉ.
Padding : ๊ทธ๋ฆผ์ด ๋๋ฌด ์์์ง๋ ๊ฒ์ ๋ฐฉ์ง, ๋ชจ์๋ฆฌ ๋ถ๋ถ์ ๋คํธ์ํฌ์ ์๋ ค์ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ๋ ฅ์ ์ด๋ฏธ์ง์ ์ถ๋ ฅ์ ์ด๋ฏธ์ง ์ฌ์ด์ฆ๋ฅผ ๊ฐ๊ฒ ๋ง๋ค์ด์ค๋ค.
Actiation maps
- ๊น์ด๊ฐ ํํฐ์ ๊ฐ์์ธ ์ถ๋ ฅ์ ๊ฐ์ง. (์ฌ๋ฌ๊ฐ์ filter๋ฅผ ๊ฐ์ง๊ณ ์์)
- ๊ฐ์ด ( a, b, c) ํํ๋ก ๋์ค๋๋ฐ ์ฌ๊ธฐ์ a,b ๋ filter์ ์ฌ์ด์ฆ, c๋ ๊ฐ์๋ฅผ ์๋ฏธํจ.
- ์ด activation maps์ convolution์ ์ฌ๋ฌ๋ฒ ์ ์ฉํ๋ฉฐ ๋ฐ๋ณตํ๋ค.
Pooling layer (Sampling)
- ์ด๋ฏธ์ง์์ filter ์ฒ๋ฆฌ ํด Convolution Layer๋ฅผ ๋ง๋ค์ด๋. ์ฌ๊ธฐ์ ํ layer๋ง ๋ฝ์๋ธ๋ค.
- ์ด๋ฏธ์ง๋ฅผ resize ํจ (์๊ฒ ๋ง๋ค๊ธฐ) = ์ด๋ฅผ Pooling ์ด๋ผ ํจ.
- ์์ ๊ฐ๋ค์ ๋ค์ ์๋๋ค. Sampling ํ ๊ฒ๋ค์ ๋ชจ์ผ๋ ํํ
โ Max Pooling : ํฝ์ ๋ชจ์์์ ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ณ ๋ฅธ๋ค.
Convolution โ ReLU โConvolution โReLU โPooling โ...๊ณ์๋ฐ๋ณต
๋ง์ง๋ง์์ Pooling ์์ ์ ํ ํ ์ํ๋ ์ถ๋ ฅ๊ฐ์ ๋ง๋๋ก ์กฐ์ .
<Lec 12 ์ ๋ฆฌ>
RNN
Sequence data : ํ์ฌ์ state ๊ฐ ๊ทธ ๋ค์ state ์ ์ํฅ์ ๋ฏธ์น๋ค.

์์ ๊ฒฐ๊ณผ ๊ฐ์ด ๊ทธ ๋ค์ ๊ณ์ฐ์ ์ํฅ์ ๋ฏธ์น๋ค.
ht ๊ฐ new state, xt ๊ฐ input vector ๋ผ๊ณ ํ๋ ๊ฒฝ์ฐ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ํํ.
$$h_t=f_w(h_{t-1},x_t)$$
์์ ์์ wx๋ฅผ ๋ฃ์ผ๋ฉด ๋ค์๊ณผ ๊ฐ์ ํํ๊ฐ ๋๋ค.
$$h_t = tanh(W_{hh}h_{t-1}+W_{xh}x_t), y_t=W_{hy}\cdot h_t$$
์์)
'hello'๋ฅผ ์ถ๋ ฅํ๋ ๊ฒฝ์ฐ

1 ) input layer ์ ๊ฐ๊ฐ ์๋ฆฌ์ ํด๋น ํ๋ ๊ฐ์ 1๋ก ์ค์ . ๊ฐ ์ํ๋ฒณ์ ๋ง๋ input vector ๋ฅผ ์ค์ ํ๋ค.
2 ) Hidden layer 1 ์์ input 'h'๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ์ ์ถ๋ ฅํ๋ค.
3 ) Hidden layer 2 ์์ Hidden layer 1 ๊ณผ 'e'๋ฅผ input ์ผ๋ก ๊ฐ์ ์ถ๋ ฅํ๋ค.
4 ) ๊ทธ ๋ค์๋ ์์ฐจ์ ์ผ๋ก ํด๋น ๊ฐ์ ํ๋ฅ ๋ค์ ์ถ๋ ฅ๊ฐ์ผ๋ก ๊ฐ๋๋ค.
RNN ํ์ฉ ์ฌ๋ก ) Language Modeling (์ฐ๊ด ๊ฒ์์ด), Sppech Recognition (์์ฑ ์ธ์), Machine Translation (๋ฒ์ญ๊ธฐ),
Conversation Modeling/Question Answering (์ฑํ ๋ด ๋ฑ), Image/Video Captioning
one-to-one / one to many / many to one / many to many ๋ฐฉ๋ฒ์ด ์์.
Multi-Layer RNN : ์ฌ๋ฌ๊ฐ์ layer๋ฅผ ๋์ด ๋ ๋ณต์กํ ํ์ต์ด ๊ฐ๋ฅํ RNN.
ํ๊ธฐ ์ ๋ฆฌ

Last updated