2021. 8. 16. 13:50ㆍAI/Deep learning
- 목차
목적: train loss를 최소화 하는 것
loss function은 loss를 구하는 것
target function은 loss function을 통해 나온 loss값으로 loss가 최소가 되도록 weight를 갱신하는 것
1. Gradient Descent (GD)
objective (or cost) function to minimize: f(x) = x^3 – 2x^2 + 2
to find a local minimum,
n
min ∑ wi(x - bi)^2
i=1
loss(w)
| \
| \
| |
| \ /
| +- -+
| \ /
| +--+
+---------------------- w
| | | |
w w w w
(1)(2)(4)(3)
w를 random하게 정함
입력으로 구해진 loss에 대해 w로 미분
w(1), w(2)는 각각 시점 1에서의 w, 시점 2에서의 w를 의미함 (w들의 차원을 의미하지 않음)
d loss
------ = gradient
d w(1)
w <- w(1) - 기울기
w(1)은 음수 기울기 -> 우측 이동 (반대 방향으로 이동해야 w가 작아지는 방향으로 갱신됨)
w(2)도 음수 기울기 -> 우측 이동 (값이 커짐)
w(3)은 양수 기울기 -> 좌측 이동 (값이 작아짐)
w(4)에서 0 -> 수렴
w가 vector인 경우, (즉 변수가 많은 경우)
모든 변수의 편미분을 벡터로 표현한 것을 '기울기'라 함
gradient는 vector: 함수가 가장 증가하는 방향 vector
1차원에서는 방향이 우측 혹은 좌측
증가하는 방향은 우측 (+) 의 반대 방향으로 이동하는 것이 gradient descent
w들의 다 변수임 (즉, 편미분 필요)
2. Gradient
w <- w – learning_rate * TrainLoss(w)’
> w에서 loss에 w로 미분한 (다차원이면 gradient vector) 것에 learning rate를 곱한 것을 빼서 새로운 w로 갱신
이로서 loss와 weight의 space에서 최적 loss를 찾기위해 x축(w) 상 좌/우로 이동
for t in range(T):
w <- w - step_size * d TrainLoss(w)
------------
dw
w - 기울기가 바로 w의 이동 방향임(그래프 상에서)
빼주기에 반대방향으로 가는 것 임
step_size는 learning rate
hyperparamters
preset 해야 하는 parameters
iteration 수
1) Least square regression
gradient(use chain rule)
w를 w1, w2,. ..로 각각 편미분 하는 것
w전체로 미분 시 2*…가 되고, 이후 각 w1, w2에 대해 편미분 적용(즉, skip) 하여 계산
d g(w)
----- = 𝜙(w)
dw
2) Gradient Descent 특징
w <- w – learning_rate * TrainLoss(w)’
모든 train data에 대해 다 더해서 곱하여 w를 갱신 (즉, w의 갱신이 오래걸림)
너무 느려서 SGD가 나옴
GD는 trainloss에 대한 gradient를 구함
GD는 local의 최적화를 찾음
그런데 실제 loss space의 그래프는 굴곡이 많음 매우 복잡한 다차원 함수
global optimization을 찾는것이 쉽지 않음
3. 가중치 갱신 방법
SGD, batch, mini batch
1) SGD
SGD는 학습 시 마다 가중치를 갱신
N개 data면 N번 가중치를 갱신
학습 시마다 신경망 성능이 들쑥날쑥하며 정답에 가까워짐
train data에서 random으로 취한 data로 loss를 구함
w <- w - 𝜂∇Loss_hinge(x, y, w)
loss function의 gradient를 구함 (w에 대해 편미분)
loss_hinge는 scalar를 주나 scalar를 편미분 하면 vector가 됨
w는 vector임
- 𝜂*loss(x,y,w1) < 0 -> 우측 이동 (커지도록)
- 𝜂*loss(x,y,w2) > 0 -> 좌측 이동 (작아지도록)
w vector는 여러 방향이니, 포물선 경사의 하강을 따라가게 됨
ex.
Loss_hinge(x,y,w) = max{0, 1 - w ⋅ 𝜙(x)y}
이를 w로 미분
w는 벡터이나 1차 함수임
max, min 함수는 구간을 나눠서 미분함
1 - w ⋅ 𝜙(x)y if 1 - w ⋅ 𝜙(x)y > 0
0 otherwise
미분하면
-𝜙(x)y if 1 - w ⋅ 𝜙(x)y > 0
0
결과는 vector (방향, 크기)
즉,
∇ Loss(x,y,w) = -𝜙(x)y if Loss(x,y,w) > 0
0 otherwise
Loss(x,y,w) > 0 인 경우
w <- w(1) - 기울기
w(1)은 음수 기울기 -> 우측 이동
w(2)도 음수 기울기 -> 우측 이동
w(3)은 양수 기울기 -> 좌측 이동
w <- w + 𝜂 𝜙(x) y
ex.
최초 w의 모든 원소는 0 값을 지님
loss = max(0, 1 - w ⋅ 𝜙(x)y))
w ⋅ 𝜙(x)은 모두 0인 0 vector가 됨
loss = max(0, 1 - w + 𝜂*0vector*y))
최초 입력 𝜙(x) feature vector의 값이 무엇인지에 관계 없이 loss는 1이됨
loss값이 0보다 크니, 좌측으로 이동해야 함
w = w + 𝜂*0vector*y
w = w - 𝜂*(-𝜙(x))y
w = w + 𝜂*𝜙(x)*y
w vector는 최초 입력 𝜙(x) vector의 값을 갖게 됨
두 번째 입력값 𝜙(x)
와 현재 w간 space에 같은 값을 가진 것이 없다면, 즉, 서로 직교라면,
역시 loss는 1이 나오게 되고,
w = w + 𝜂*𝜙(x)*y
...
SGD의 경우 매 입력마다 이런식으로 w값이 계속 갱신되게 됨
2) Batch
전체 학습 data를 모두 학습한 후 가중치를 갱신
-> 모든 데이터의 loss의 평균으로 가중치를 갱신
Δω = 1/N ∑(k=1, N) Δω(k)
3) Mini-batch (mini-batch SGD)
SGD와 배치를 섞은 것
전체 데이터를 N 등분하여 각각의 학습 데이터를 배치 방식으로 학습
일부 학습 데이터의 가중치 갱신값을 계산한 후 이 값들의 평균으로 가중치 갱신
학습 데이터가 100개고, 배치 하나를 20으로 잡았으면 총 5번의 가중치 갱신이 필요
GD와 SGD의 사이 정도
data를 batch로 구성(전체보단 작고, 하나보단 많은)
이 mini-batch 내 loss로 w를 update
Adam (ADAptive Moment estimation)은 mini-batch, batch 등을 가지고 새롭게 고안된 알고리즘
이전 w 방향을 기억하다가, 너무 갑자기 방향이 바뀌지 않도록 update를 진행
실험적으로 이렇게 했더니 더 잘 찾더라 라는 것임
그래서 SGD와 mini-batch는 공존 가능 함
adam = adaptive ~~ 임
4) Summary
SGD는 어떤 data에 대한 gradient를 구함
train data에서 random으로 취한 data
그 데이터에 대한 loss를 train loss로 '가정'
더 많은 w 값의 이동은 하지만, data를 한번만 읽기에 실제적으로 훨씬 적은 시간에 수렴함
data가 10만
T가 100
gradient를 구할때 몇 개씩 data를 뽑아서 구하는지가 batch size
batch size = 1 -> SGD
batch size = data size -> GD
data를 한 번씩이 아니라, 100번씩 빼서 64, 128개씩 하는 경우도 있음
좀 더 gradient를 정확하게 하자는 것
batch size 커질수록 -> gradient는 정확해 지나 오래걸림
batch size 작을수록 -> gradient는 부정확 하나 빠름
batch는 묶음
batch size 가 크면
GPU들이 일을 더 잘 쪼개서 수행함
5) 기타 고려사항
epoch (밖의 loop): data 전체를 쭉 읽는 것 (이팍)
batch (안의 loop): 각 data에 대한 subset
Random sampling with replication
쓰고 다시 원래 bucket에 넣음 (복원추출)
이 경우 여러번 읽을 수 있고 아무것도 안 읽은게 나올 수 있음
Random sampling without replication
쓴건 재사용 안 함 (비복원추출)
하나의 epoch 시 처음부터 한 번씩 읽음
step size(=learning rate)
step size가 크면, 경사가 0인 곳으로 가지 못하고 주위에서 왔다갔다
그래서 step size를 처음에는 크게 하다 점차 줄임
lr = 1/sqrt(# updates made so far)
성능에 지대한 영향을 줌
step size에 민감하게 반응하지 않게 하기 위한 heuristics
- RMSP
- Adam: 평균적으로 제일 괜찮은 성능
- AdamGround
'AI > Deep learning' 카테고리의 다른 글
data partitioning, hyper-parameter tuning (0) | 2021.08.16 |
---|---|
Back-propagation (역전파) (0) | 2021.08.16 |
딥러닝 성능 향상 (0) | 2021.08.16 |
Activation functions (0) | 2021.08.16 |
Deep learning basic: 모델 평가지표, 모델종류, loss function, score, margin, 유사도, 이진분류/선형회귀, 비선형회귀 (0) | 2021.08.16 |