My DevLog
[cs231n] Lecture 3 | Loss Functions and Optimization ๋ด์ฉ ์ ๋ฆฌ ๋ณธ๋ฌธ
[cs231n] Lecture 3 | Loss Functions and Optimization ๋ด์ฉ ์ ๋ฆฌ
๋ฏ๋๋ฅด์ผ 2021. 4. 3. 14:00๐ Stanford cs231n
Loss Functions and Optimization
โ
TODO
โ Define a loss function that quantifies our unhappiness with the scores across the training data
โ Come up with a way of efficiently find the parameters that minimize the loss function(optimization)
W๊ฐ ์ข์์ง ์ ์ข์์ง ์ ๋ํ ํด์ฃผ๋ ๊ฒ์ด ๋ฐ๋ก Loss function ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ข์ ์ชฝ์ผ๋ก ๋ฐ์ ์ํค๋ ๊ฒ์ Optimization์ด๋ผ ํ๋ค.

์์ ๋ฅผ ๋จ์ํ ์์ผ 3๊ฐ์ class ๋ง ์๋ค๊ณ ๊ฐ์ ํ์.
์ธ ์ด๋ฏธ์ง์ ๋ํ W ๊ฐ์ ๋ณด๋ฉด ์๋์ฐจ ์ด๋ฏธ์ง๋ง ์ ๋ต์ ๋ง์ถ๊ณ ์๋ค. ์ด๋ Linear classifier๊ฐ ์ ์๋ํ๊ณ ์์ง ์๋ค๋ ์๋ฏธ์ด๋ค.
Multiclass SVM loss

- SVM loss์ ์๋ ์๋ฆฌ
- ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ณด๊ณ ์ ๋ต ์นดํ ๊ณ ๋ฆฌ๋ผ๋ฉด ๋์ด๊ฐ๋ค.
- ์ ๋ต ์นดํ ๊ณ ๋ฆฌ๊ฐ ์๋ ๊ฒฝ์ฐ ํ์ฌ ์นดํ ๊ณ ๋ฆฌ์ ์ ์ - ์ ๋ต ์ ์ + 1 ์ ๊ณ์ฐํ์ฌ 0๋ณด๋ค ํฌ๋ค๋ฉด loss ๊ฐ์ ๋ํ๋ค.
- 0๋ณด๋ค ์์ ๊ฒฝ์ฐ loss ๊ฐ์ 0

โ ์ ์๊ฐ ๋ฎ์ผ๋ฉด ์ข์ ๊ฒ์ธ๊ฐ?
๐ ๋ง๋ค. ๊ตฌํ๋ ๊ฒ์ด ๊ฒฐ๊ตญ ์ ๋ต๊ณผ์ ์ฐจ์ด๊ฐ ์ผ๋ง๋ ํฐ์ง ๋ํ๋ด๋ ๊ฐ์ด๋ฏ๋ก ์ด ์ ์๊ฐ ๋ฎ์ผ๋ฉด ์ ๋ต๊ณผ ๋น์ทํ๋ค๋ ์๋ฏธ์ด๋ค.
โ ์๋์ฐจ์ score์ ์กฐ๊ธ ๋ฐ๊พผ๋ค๋ฉด?
๐ ์ด๋ฏธ ๋ค๋ฅธ class์์ ๊ฒฉ์ฐจ๊ฐ ์์ผ๋ฏ๋ก ์ํฅ ์์. ์ฆ, ๋ฐ์ดํฐ์ ๋ณํ์ ๋๊ฐํ๋ค๊ณ ํด์ ๊ฐ๋ฅํ๋ค. score์ ์ซ์ ๊ทธ ์์ฒด๋ณด๋ค๋ ์ ๋ต ํด๋์ค์ ๋ค๋ฅธ ํด๋์ค๊ฐ์ ์ฐจ์ด๊ฐ ์ค์ํ๋ค.
โ ์ต์๊ฐ / ์ต๋๊ฐ์?
๐ ์ต์๋ 0, ์ต๋๋ ๋ฌดํ๋
โ ์ ๋ต ํด๋์ค๋ฅผ ์ ์ธํ์ง ์๊ณ ๊ณ์ฐํ๋ฉด?
๐ ํ๊ท ๊ฐ์ด 1 ์ฆ๊ฐํ๋ค. ์ด๋ ๊ฒ ๋๋ฉด loss์ ์ต์๊ฐ์ด 1์ด ๋๋ฏ๋ก ์ ๋ต ํด๋์ค๋ฅผ ์ ์ธํ์ฌ ์ต์๊ฐ์ด 0์ด ๋๋๋ก ํ๋ค.
โ Loss ๊ฐ์ด 0์ธ W๋ ์ ์ผํ๊ฐ?
๐ ์๋๋ค! W์ loss๊ฐ 0์ด๋ผ๋ฉด 2W ์ญ์ 0์ loss๋ฅผ ๊ฐ๋๋ค.
Regularization

์ง๊ธ๊น์ง ํ๊ฒ์ training set์ ๋ํด W ๊ฐ์ ๋ง์ถฐ์ค ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๊ฐ ๊ถ๊ทน์ ์ผ๋ก ์ํ๋ ๊ฒ์ test set์๋ ์์ฉํ๋๋ก ํ๋ ๊ฒ! ์ด๋ training set์ overfitting ๋๋ ๊ฒ์ ๋ง์์ค ์ ์๋๊ฒ Regularization์ด๋ค. ์๋์ ๊ฐ์ด ์ฌ๋ฌ ์ข ๋ฅ์ Regularization์ด ์๋ค.

Softmax Classifier

- Softmax์ ์๋ ์๋ฆฌ
- ๊ฐ ํด๋์ค๋ง๋ค score๋ฅผ ๊ตฌํ๊ณ exp๋ฅผ ๊ณฑํ๋ค.
- ์ด ์๋ค์ normalizationํด์ ํ๋ฅ ๋ก ๋ง๋ค์ด์ค๋ค. ์ฆ ์ ๋ถ ๋ํ๋ฉด 1์ด ๋๋๋ก ํ๋ค.
- ์ด ๊ฐ์ -log๋ฅผ ์์ด๋ค. ํ๋ฅ ์ด 0์ ๊ฐ๊น์ด ๊ฒฝ์ฐ loss๊ฐ ๋ฌดํ๋๋ก ๊ฐ๊ณ , ํ๋ฅ ์ด 1์ ๊ฐ๊น์ธ์๋ก loss๊ฐ 0์ ๊ฐ๊น์์ง๋ค.
โ ์ต์๊ฐ / ์ต๋๊ฐ์?
๐ ์ด๋ก ์ ์ผ๋ก๋ ์ต์๊ฐ์ด 0, ์ต๋๊ฐ์ ๋ฌดํ๋์ง๋ง ์ค์ ๋ก๋ ๋์ฌ ๊ฐ๋ฅ์ฑ ๊ฑฐ์ ์๋ค.
โ ๋ฐ์ดํฐ์ score๋ฅผ ์กฐ๊ธ ๋ฐ๊พผ๋ค๋ฉด?
๐ ํ๋ฅ ๋ก ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ์ ๋ณํ์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ค(SVM๊ณผ ๋๋น๋จ)

Optimization
- Random Search
๋ง ๊ทธ๋๋ก ๋๋คํ๊ฒ ์ฐพ๋ ๋ฐฉ๋ฒ. ๋ณ๋ก์! ์ค์ ๋ก ์ฐ์ง ๋ง์๋ผ - Follow the slope : Gradient Descent
- Numerical Method

ํ๋ํ๋ ์ฐจ์ด๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ
๊ต์ฅํ ๋นํจ์จ์ ์! - Analytic Gradient

๋ฏธ๋ถ์ ์จ์ ํ๋ฒ์ ๊ตฌํ์! ์ ํํ๊ณ ๋น ๋ฅด์ง๋ง ์๋ฌ ๋์ฌ ๊ฐ๋ฅ์ฑ ๋์.

์์ -๋ฅผ ๋ถ์ฌ์ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋๋ค๋ฉด +๋ฐฉํฅ, ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋๋ค๋ฉด -๋ฐฉํฅ์ผ๋ก ๊ฐ๋๋ก ํ๋ค.
์ฌ๋ฐ๋ฅธ Step size(Learning rate)๋ฅผ ์ฐพ๋ ๊ฒ์ด ์ค์ํ๋ค. ๊ธฐ์ธ๊ธฐ๊ฐ 0์ธ ์ง์ ์ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ๋๋ฌํ ์ ์๋๋ก ํ๋ ๊ฒ์ด ๋ชฉํ.
adam optimizer, rms prop ๋ฑ ๋ค์ํ ๋ฐฉ๋ฒ์ ๋ฐฐ์ธ ๊ฒ์ด๋ค!
Stochastic Gradient Descent(SGD)

์ง๊ธ๊น์ง๋ ๋ชจ๋ N์ ํ๋ฒ์ ๊ณ์ฐํ๋ค.
์ด๋ N์ด ๊ต์ฅํ ์ปค์ง ๊ฒฝ์ฐ ๋งค์ฐ ๋นํจ์จ์ ์ด๊ณ ๋๋ฆฐ ๋ฐฉ์์ด๋ค. W๊ฐ ํ๋ฒ ์
๋ฐ์ดํธ ๋๋ ค๋ฉด ์ฒ์๋ถํฐ ๋๊น์ง ๊ณ์ฐํด์ผํ๊ธฐ ๋๋ฌธ์ด๋ค.
--> ์ด๋ ์ฌ์ฉํ๋ ๊ฒ์ด SGD์ด๋ค.
minibatch๋ฅผ ์ค์ ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ณดํต 32, 64, 128 ๋ฑ์ ์ซ์๋ก ์๋ผ์ ์ฌ์ฉํ๋ค.
โ Image Features
์ด์ ๊น์ง๋ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ๊ทธ๋ฅ ์ฌ์ฉํ๋ค๋ฉด, ํน์ง๋ค์ ๋ฝ์๋ด๊ณ ์ด๋ฅผ linear regression์ ์ด์ฉํ๋ ๋ฐฉ์์ด ์ฌ์ฉ๋์๋ค.
- Color Histogram
์ด๋ค color๊ฐ ๋ง์ด ๋์ค๋์ง count๋ฅผ ์ธ์ด ํน์ง์ ์ถ์ถํ๋ ๋ฐฉ์. - Histogram of Oriented Gradients(HoG)
๋ฐฉํฅ ๊ฐ์ ํ์คํ ๊ทธ๋จ์ผ๋ก ๋ํ๋ด์ด ํน์ง ์ถ์ถ - Bag of Words
์์ฐ์ด์ฒ๋ฆฌ์์ ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐฉ์
ํ์ฌ๋ ์ ๋ ฅํ ์ด๋ฏธ์ง์์ ์ค์ค๋ก ํน์ง์ ๋ฝ์๋ด๋๋ก ํ๋ CNN์ด ์ฃผ๋ก ์ฌ์ฉ๋จ
'Deep Learning > Stanford c231n' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [cs231n] CNN Architectures ๋ด์ฉ ์ ๋ฆฌ (0) | 2021.06.27 |
|---|---|
| [cs231n] Training Neural Networks I ๋ด์ฉ ์ ๋ฆฌ (0) | 2021.06.27 |
| [cs231n] Convolutional Neural Networks ๋ด์ฉ ์ ๋ฆฌ (0) | 2021.06.27 |
| [cs231n] Introduction to Neural Networks ๋ด์ฉ ์ ๋ฆฌ (0) | 2021.06.27 |
| [cs231n] Lecture 1 | Introduction to CNN for Visual Recognition ๋ด์ฉ ์ ๋ฆฌ (0) | 2021.03.21 |