AI/Deep learning(16)
-
Loss 최소화, SGD, 가중치 갱신 방법
loss function loss(x, y, w) e.g., ∑(w ⋅ x - y)^2 loss 함수의 결과를 최소화 하는 방향으로 w 값을 조절 즉, w (변수별로) 미분하여 기울기가 최소가 되는 곳을 찾으면 됨 Regression loss function L1 loss abs |w ⋅ 𝜙(x) - y| outlier에 둔감 모든 값에 골고로 영향을 받음 L2 loss squared (w ⋅ 𝜙(x) - y)^2 L2는 에러를 더 크게 함 즉, outlier에 더 크게 영향을 받음 SGD (Stochastic Gradient Descent) train loss를 최소화 하도록 함 GD (Gradient Descent) f(x) = x^3 – 2x^2 + 2 위 목적 함수의 cost를 최소화 하자. GD..
2022.03.06 -
DLFS - CH 3
CHAPTER 3 신경망 Perceptron은 weight의 설정을 수동으로 해야 함 신경망은 자동으로 설정함 입력층 은닉층 출력층 x1 --------> s1-\ \ /+---> \+--> y \ +--> / \+----> / x2 --------> s2 -/ 그림 3-1 (p64) 입력층 은닉층 출력층 () () () () () () () 각 층들의 node들은 다음층의 모든 node로 출력을 내보내는 구조 은닉층은 사람 눈에는 보이지 않기에 '은닉' 신경망은 모두 3층으로 구성됨 가중치를 갖는 층은 2개뿐이라 2층 신경망이라고 함 (3층 신경망으로 부르기도 함) Perceptron에서와 특별히 다른 것이 없음 Perceptron 복습 w1 (x1)--------> w2 (y) (x2)--------..
2021.09.27 -
텐서(Tensor)
0차원 텐서 스칼라값을 0차원 텐서 d = np.array(5) print(d.ndim) # 0 print(d.shape) # () 이 텐서의 크기는 (32, 6, 5)을 의미 배치 크기까지 지정해주고 싶다면 batch_input_shape=(8, 2, 10) 그 외에도 입력의 속성 수를 의미하는 input_dim, 시퀀스 데이터의 길이를 의미하는 input_length 등의 인자도 사용합니다. 사실 input_shape의 두 개의 인자는 (input_length, input_dim)라고 볼 수 있음
2021.08.16 -
data partitioning, hyper-parameter tuning
데이터를 training과 testing으로 분할 보통 8:2 혹은 9:1 파라미터를 추정하는데는 많은 데이터가 필요하므로, training을 크게 testing은 모형들의 성능을 구별할 정도만 되면 충분하므로 작게 training에 과적합되면 testing에서 성능이 낮아짐 training과 testing의 data가 섞이지 않도록 주의 섞일 시, testing 결과의 성능이 좋게 됨 다른 data를 가지고 test하게 되면 성능이 높지 않게 나옴 즉, 객관적인 성능 수치를 파악하기 어려움 Validation / Development set 딥러닝에서는 다양한 hyperparameter의 결정이 필요 hyperparameter 은닉층 개수, filter size 등 테스트셋 데이터를 이용해서 결정하면 ..
2021.08.16 -
data partitioning, hyper-parameter tuning
데이터를 training과 testing으로 분할 보통 8:2 혹은 9:1 파라미터를 추정하는데는 많은 데이터가 필요하므로, training을 크게 testing은 모형들의 성능을 구별할 정도만 되면 충분하므로 작게 training에 과적합되면 testing에서 성능이 낮아짐 training과 testing의 data가 섞이지 않도록 주의 섞일 시, testing 결과의 성능이 좋게 됨 다른 data를 가지고 test하게 되면 성능이 높지 않게 나옴 즉, 객관적인 성능 수치를 파악하기 어려움 Validation / Development set 딥러닝에서는 다양한 hyperparameter의 결정이 필요 hyperparameter 은닉층 개수, filter size 등 테스트셋 데이터를 이용해서 결정하면 ..
2021.08.16 -
Back-propagation (역전파)
제프리 힌튼이 찾은것은 계속 같은 parameter에 대해서 미분을 하고 있음 layer를 계속 거치면서 편미분의 횟수가 quadratic의 quadratic...으로 계산 이미지는 수만개의 learning parameter 이미지의 각 feature는 pixel ! 중복 없이 하려면? back-propagation back-propagation 편미분의 중복을 없애고 효율적으로 수행 각 layer들의 여러 weight들의 최적화를 위해 미분값을 구함 미분의 체인룰 사용 x3 x4 ----> g(x) -------> f(x) ----> x g(x) f(g(x)) 1 3 12 (x*3)*4 x가 소량 증가 시 g(x)가 얼마나 증가하는지 delta를 의미 f(g(x))를 x로 미분하고자 함 d f(g(x)..
2021.08.16