Lecture 7~9
<Lec 7 ์ ๋ฆฌ>
Learning rate, ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ, overfitting ๋ฐฉ์ง ๋ฐฉ๋ฒ
- Gradient descent์์ ์ต์๊ฐ ๊ตฌํ ๋ learning rate๋ผ๋ ฮฑ๊ฐ์ ์์๋ก ์ง์ ํจ.์ ๋นํ learning rate ๊ฐ์ ์ง์ ํ๋ ๊ฒ์ด ์ค์ํ๋ค.

Learning rate ๊ฐ์ด ๋๋ฌด ํฐ ๊ฒฝ์ฐ : step ์ด ๋๋ฌด ์ปค์ ธ ๊ทธ๋ํ์ ๋ฐ์ผ๋ก ํ๊ฒจ ๋๊ฐ ์ ์๋ค. ์ด๋ฅผ 'overshooting' ์ด๋ผ ํจ.
Learning rate๊ฐ์ด ๋๋ฌด ์์ ๊ฒฝ์ฐ: ๊ฒฝ์ฌ๋ฉด์ ๋๋ฌด ์กฐ๊ธ์ฉ ์ด๋ํด ๋ฐ๋ฅ๊น์ง ๋ด๋ ค๊ฐ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ ์ ์๋ค.
=> ๋ฐฉ์งํ๊ธฐ ์ํด cost ํจ์๋ฅผ ์ถ๋ ฅํด๋ณด๊ณ ํ์ธ. ๊ธฐ์ธ๊ธฐ๊ฐ ๊ฑฐ์ ๋ณํ์ง ์๋๋ค๋ฉด learning rate์ ์กฐ๊ธ ์ฌ๋ ค์ ํ์ธ.
-Observe the cost function (์ฒ์ ์ค์ ์ 0.01 ์ ๋๋ก ํ ํ ํ์ธ)
-Check it goes down in a reasonable rate (์ต์ ๊ฐ์ ํฅํด ์ ๋นํ ์ ๋๋ก ๋ด๋ ค๊ฐ๋์ง ํ์ธ ํ ์๋๋ผ๋ฉด ์กฐ์ )
Data(X) preprocessing for gradient descent
- Normalized data : Data ๊ฐ์ ํฐ ์ฐจ์ด๊ฐ ์์ ๊ฒฝ์ฐ Normalize ํด์ผํจ. data ๊ฐ๋ค์ด ์ด๋ค ํํ์ ๋ฒ์ ์์ ํญ์ ๋ค์ด๊ฐ๋๋ก ํจ.
- zero-centered data : Data์ ์ค์ฌ์ด 0์ผ๋ก ๊ฐ๋๋ก ์กฐ์ .
Standardization
ํ๊ท ๊ณผ ๋ถ์ฐ ์ด์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ํ์คํํ๋ค.
ํ์ด์ฌ ์ด์ฉ ์ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ํํ ๊ฐ๋ฅ.
Overfitting
- ํ์ต ๋ฐ์ดํฐ์ ๋ฑ ๋ง๋ ๋ชจ๋ธ์ ๋ง๋ค์ด ๋๋๋ฐ, ์ค์ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ต ํด ๋ณด๋ฉด ์ ๋ง์ง ์๋ ๊ฒฝ์ฐ.
์ค์ด๋ ๋ฒ - training data ์ ์์ ๋๋ฆฐ๋ค. - Feature ์ ๊ฐฏ์๋ฅผ ์ค์ธ๋ค. (์ค๋ณต ๋ ๊ฒ์ด ์์ ๊ฒฝ์ฐ ์ค์ด๊ธฐ) - Regularization ์ผ๋ฐํ : ์ฐ๋ฆฌ๊ฐ ๊ฐ์ง๊ณ ์๋ weight ์ ๋๋ฌด ํฐ ๊ฐ์ ๊ฐ์ง์ง ์๋๋ก ํจ.
๋ชจ๋ธ์ด ์ผ๋ง๋ ์ฑ๊ณต์ ์ผ๋ก ์์ธก ํ ์ ์์ ์ง ํ๊ฐ : Training set ๊ณผ Test set ์ ๋๋์ด ๊ฒฐ๊ณผ ๋น๊ตํ๋ค.Original Set : Training + Validation + Testing ์ผ๋ก ๊ตฌ์ฑ ๋์ด ์์.Training, Validation ์ ๊ณผ์ ์ ๊ฑฐ์น ํ Testing ๋จ๊ณ๋ก ๊ฐ์ผํจ.
Online learning ํ์ต ๋ฐฉ๋ฒ - ํ์ต ์ํจ ๊ฒฐ๊ณผ๋ค์ model์ ๋จ์์๋๋ก ํจ. ๊ธฐ์กด์ ๊ฐ์ง๊ณ ์๋ Data์ ์ถ๊ฐ๋ก ํ์ต.
Accuracy ์ ํ๋ - ์ค์ ๊ฒฐ๊ณผ ๊ฐ. ๋ชจ๋ธ์ด ๊ฐ์ง๊ณ ์๋ ๊ฐ๊ณผ ์ค์ ๊ฒฐ๊ณผ ๊ฐ์ด ์ผ๋ง๋ ์ผ์นํ๋์ง? - ์ด๋ฏธ์ง ์ธ์์ ์ ํ๋๋ ๋๋ถ๋ถ 95% ~ 99%
<Lec 8 ์ ๋ฆฌ>
์ด๋ ํ input x ์ weight ์ ๊ณฑ์ ํฉ + bias = โ xยทw + b
์ด ๊ฐ๋ค์ Activation Functions ์ ํตํด output์ผ๋ก ์ ํธ๋ฅผ ๋ณด๋ธ๋ค.
Perceptrons
Backpropagation (Hinton)
- ๋คํธ์ํฌ๊ฐ ์ฃผ์ด์ง ์ ๋ ฅ (Training set)์ ๊ฐ์ง๊ณ ์ถ๋ ฅ์ ๋ง๋ค์ด ๋ธ๋ค. ์ด ๋ w,b ์กฐ์ . ์ถ๋ ฅ์์ error๋ฅผ ์ฐพ์ ๋ฐ๋๋ก ์ ๋ฌ์ํจ๋ค.
- ๋ ๋ณต์กํ ํํ์ ์์ธก์ด ๊ฐ๋ฅํด์ง.
Convolutional Neural Networks
- ๊ณ ์์ด๊ฐ ๊ทธ๋ฆผ์ ๋ณด๊ฒ ํ ๋ค ๊ทธ๋ฆผ์ ํํ์ ๋ฐ๋ผ ํ์ฑํ ๋๋ ๋ด๋ฐ์ ๋ฐ๊ฒฌ -> ์ฐ๋ฆฌ์ ์ ๊ฒฝ๋ง ์ธํฌ๋ ์ผ๋ถ๋ถ์ ๋ด๋นํ๊ณ , ์ด ์ธํฌ๋ค์ด ๋์ค์ ์กฐํฉ ๋๋ ๊ฒ์ด๋ผ ์๊ฐ.
- ๋ถ๋ถ๋ถ๋ถ์ ์๋ผ ์ธ์ ํ ๋์ค์ ํฉ์น๋ ๋ฐฉ์.
- 90% ์ด์์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค. ๋ฏธ๊ตญ์์๋ ์ด๋ฅผ ํตํด ์ฑ ์ ์๋์ผ๋ก ์ฝ๋ ๊ธฐ๋ฅ์ ๋ง๋ค์ด ์ฌ์ฉํจ.
๋ฌธ์ ์
- Backpropagation algorithm์ด ์์ ์๋ ์๋ฌ๋ฅผ ๋ค๋ก ๋ณด๋ผ ๋ ์๋ฏธ๊ฐ ๊ฐ ์๋ก ์ฝํด์ ธ ๊ฑฐ์ ์ ๋ฌ ๋์ง ์๊ณ ํ์ต์ ์ํฌ ์ ์๊ฒ ๋จ. ๋ง์ด ํ ์๋ก ์ฑ๋ฅ ์ ํ.
- ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ฑ์ฅ.
CIFAR (Canadian Institute for Advanced Research) : neural network ์ด๋ผ๋ ์ฐ๊ตฌ๋ฅผ ๊ณ์ ์งํํจ.
Breakthrough ๋ ผ๋ฌธ ๋ฐํ. ์ด๊ธฐ๊ฐ์ ์ ์ ํํ๋ค๋ฉด ํ์ต ํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค -> Deep netwrok, Deep Learning ์ผ๋ก ์ด๋ฆ์ ๋ฐ๊ฟ.
Deep API Learning - ์์ฐ์ด๋ก ์์คํ ์ ์ ๋ ฅ์ ์คฌ์ ๋ ์์คํ ์ด ์๋์ ์ผ๋ก ์ด๋ค API๋ฅผ ์ด๋ค ์์๋ก ์จ์ผํ๋์ง ๋์ด. - ์์ง๊น์ง๋ ํ๋ก๊ทธ๋จ์ด ๋ฐ๋ก ์์ฑ๋์ง๋ ์์ง๋ง ์ฝ 65%์ ์ ํ๋๋ก ์ฌ๋ผ์๋ค.
์ฌ์ฉ๋๋ ์ฌ๋ก ์์ ) ๊ตฌ๊ธ ๊ฒ์(๊ด์ฌ ํผ๋), ๋ทํ๋ฆญ์ค, ์๋ง์กด, ์ํ๊ณ ๋ฑ๋ฑ
<Lec 9 ์ ๋ฆฌ>
XOR ๋ฌธ์ ํด๊ฒฐ๋ฒ - And, Or ์ linear line์ผ๋ก ๊ตฌ๋ถ์ด ๊ฐ๋ฅํ์ง๋ง Xor ์ ์ ํ์ผ๋ก ๊ตฌ๋ถํ๋ ์ ์ ์ฐพ์ ์ ์๋ค.
Neural Net - ์ฌ๋ฌ๊ฐ์ ๋ง์ ์ฌ์ฉ.
wยทx + b ๋ฅผ ์ฌ๋ฌ๊ฐ ์ฌ์ฉํ์ฌ y1, y2 ๊ฐ์ ๋ธ ๋ค์ ๊ทธ ๋์ sigmoid ํจ์๋ฅผ ์ฌ์ฉํ์ฌ y hat์ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๋ค.
xor ๊ณ์ฐ ์์ ex
์ฒซ๋ฒ ์งธ ์ ๋์ w=[5,5] , b= -8 ๋ก ์ฃผ์ด์ง๊ณ ๋๋ฒ์จฐ ์ ๋์ w=[-7, -7], b = 3 ์ด๋ผ ํ ํ ๋ ๊ฒฐ๊ณผ ๊ฐ y1, y2๋ฅผ ๋ฃ์ด w = [-11, -11], b = 6 ์ธ ์ ๋์ผ๋ก ๊ณ์ฐํด y hat ์ ๊ฐ์ ๊ตฌํ๋ค.

NN : Forward propagation ์ ๊ทธ๋ฆผ์์ ์ฒซ๋ฒ์งธ ๊ณ์ฐ์ ํฉ์นจ. ๊ฐ๊ฐ ์ฐ์ฐ์ ํด์ ์์์ผ๋ก ์ฒ๋ฆฌ.
K(X) = sigmoid (XW1+ B1)Yhat = H(X) = sigmoid (K(x)W2 + b2)
์๊ฐ๋ณํ์จ = ๋ฏธ๋ถ ๊ฐ.
Partial derivative : ๋ด๊ฐ ๋ฏธ๋ถํ๋ ๊ฐ์ ์ ์ธํ ๋๋จธ์ง๋ฅผ ์์ ์ทจ๊ธ.
Back propagation (chain rule)
f = wx + b, g = wx, f= g+b
- > ์ด๋ฅผ ๊ฐ๊ฐ ํธ๋ฏธ๋ถ ํ๋ค.
1) forward (์ฃผ์ด์ง ๊ฐ์ ๋์ ํด ์ ๋ ฅ์ํจ๋ค.) : ํ์ต ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ฐ์ ์ป๋๋ค.
2) backward (์ค์ ๊ฐ์ผ๋ก ํ์ธ) : ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ ๋น๊ตํด ์ค๋ฅ๋ฅผ ์ฐพ๊ณ , ์ถ๋ ฅ ์กฐ์ ํ๋ค.
ํ๊ธฐ ์ ๋ฆฌ
Last updated