Lecture 7: Training Neural Networks, part I

2019. 10. 17. 17:09

오늘은 Neural Networks을 학습시키는 방법에 대해서 공부하겠습니다.

6-1 먼저 지난시간에 배운것을 복습하겠습니다.

6-4 뉴럴 네트워크에 대해서 자세히 배웠습니다. linear layer들이 있고 중간에 activation function으로 비선형함수를 적용하여 깊은 층을 쌓을 수 있었습니다. 선형함수를 쌓게 되면 예를들어 y(x)=h(h(h(x))) = c^3이 되어 마치 1개의 layer처럼 됩니다. 층을 쌓는게 의미가 없어지는 것이죠

6-5 cnn에 대해 자세히 배웠습니다. Cnn은 공간구조를 사용하기 위해 convolutional layer를 사용하는 형태입니다

6-6

6-7 convolutional layer는 대개 다수의 필터를 사용했습니다. 그리고 각 필터는 서로 다른 activation map을 생성합니다. 지난번에 언급된것처럼 왼쪽의 깊이와 오른쪽의 깊이는 다르다는 점을 기억해야합니다. 왼쪽의 깊이 3은 이미지의 채널 즉 rgb를 의미하며 오른쪽의 6은 5x5x3의 크기인 6개의 필터가 스트라이드를 통해 얻어진 액티베이션 맵이고 각 액티베이션 맵은 입력의 공간적인 정보를 보존하고 있습니다.

6-8 optimization을 통해서 네트워크의 파라미터를 학습할수 있었습니다. Loss가 줄어드는 방향으로 학습하게 됩니다. 그리고 이는 gradient의 반대 방향으로 이동하는 것과 같습니다.

6-9 Mini-batch SGD는 1. 데이터에서 샘플을 뽑은 뒤 2. Forwar prop을 통해 loss를 얻습니다. 3. Backprop을 통해 gradients를 얻고 4. gradient를 통해 parameters를 업데이트합니다.

6-10 다음은 뉴럴네트워크를 학습시키는 방법에대해 알아보겠습니다.

6-11 우선 네트워크 초기설정에 관해 배우고 학습과정을 세팅하며 파라미터 업데이트 및 하이퍼파라미터 최적화를 배우겠습니다. 모델 앙상블 또한 배워보겠습니다.

6-12 part1에서는 Activation Functions, Data Preprocessing, Weight Initialization, Batch Normalization, Babysitting the Learning Process, Hyperparameter Optimization에 대해 배우겠습니다.

6-13 Activation Functions

6-14 Activation Functions은 들어오는 입력(앞의 함수의 출력값)에 총합을 출력신호로 변환하는 함수이다. 활성함수라고 말하며 뉴럴 네트워크의 활성함수는 모두 비선형함수를 사용합니다.

6-15 앞서배운 익숙한 Sigmoid함수도 보이고 생소한 함수들도 보입니다. 뒤에서 Activation Functions에 대해 자세히 알아보겠습니다.

6-16 먼저 Sigmoid함수입니다. 시그모이드함수는 들어오는 입력값에 대해 0~1사이의 값으로 출력하며 역사적으로 뉴런의 발화점을 saturate한다는 점에서 뉴런과 비슷한 역할을 한다고 생각했습니다.

6-17 그러나 시그모이드는 saturated되는 부분에서 gradients가 죽는다는 문제가 있습니다.

6-18 X가 -10일 경우 시그모이드는 flat(=saturated)되고 gradient는 0이 됩니다. 그리고 이값이 밑으로 내려가며 0에가 까운 값이 backprop되고 이부분에서 gradient가 죽게 되고 밑으로 0이 내려갑니다. 10의 경우도 마찬가지입니다. 0일경우에는 선형으로 잘 작동됩니다.

6-19 시그모이드의 두 번째 문제는 출력값이 0을 중심으로 되어있지않고 0~1의 양수값만 출력하는 것 입니다.

6-20 이게 왜 문제가 되냐면 시그모이드의 출력은 바로 뒤에 층의 입력값으로 들어가게됩니다. 그런데 모든 입력값이 양수로 들어가면 backporp시 weight의 gradients(DL/Dw)는 DL/Da * x(local graient)가 되고 DL/Da의 부호에 따라 모두 양수 또는 음수로 가중치가 업데이트 되게 됩니다. 여기서 x 는 sigmoid의 입력값이라고 가정합니다.

6-21 그 결과 파란색 선이 최적의 w vector이지만 빨간색 선과 같이 양수 또는 음수로 업데이트 되는 지그재그의 모양을 띄며 이는 매우 비효율적인 업데이트입니다.

6-22 세 번째 문제는 exp()를 통한 연산으로 계산 비용이 비싸다는 내용이지만 무시할 정도의 수준이라고 합니다.

6-23 tanh activation function은 -1~1사이의 출력값을 가집니다 zero centered로 앞의 sigmoid의 단점을 극복했습니다. 그러나 아직까지도 saturated된 부분에서 gradients가 죽는 문제가 있습니다.

6-24 activation function은 ReLU입니다. 최근 거의 ReLU만 쓴다고 말할 정도옵니다. ReLU의 장점은 양수방향으로 saturate되지 않는다는 점입니다. 그리고 max함수 사용으로 계산측면에서 효율이며 sigmoid나 tanh보다 6배 빠르게 수렴합니다. 다음 그림을 보면 tanh은 36epoch동안 0.25error에 다다른 반면 ReLU 는 6epoch만에 도달합니다.

6-25 ReLU 단점을 알아보면 zero-centered 하지 않습니다. 그리고 x<0 일 경우 어떨까요?

6-26 x가 -10일 경우 saturate됩니다. gradient가 0이 되겠죠, 그렇다면 x가 10일때는 어떻게 될까요? 선형 영역(linear regime)에 속합니다. x가 0일 때는 어떨까요? 0입니다.

6-27 기본적으로 ReLU는 gradient의 절반을 죽여버리는 셈입니다. 모델이 학습하는 동안 일부 뉴런이 0만을 출력하여 활성화 되지 않는 문제인데, 이러한 문제를 dead ReLU라고 합니다. Dead relu가 발생하는 주요 원인에는 2가지가 있는데 첫 번째 초기화를 잘 못한 경우 입니다. 초기화를 잘못하여 음수영역에 들어가면 ReLU의 경우 회복하지 못하고 죽어버립니다. 두 번째 학습률(Leraning rate)이 지나치게 높은 경우입니다. 처음에 "적절한 ReLU" 로 시작할 수 있다고 해도 만약 update를 지나치게 크게 해 버려 가중치가 날뛴다면 Dead relu영역에 들어갈 수 있습니다. 그래서 처음에는 학습이 잘 되다가 갑자기 죽어버리는 경우가 생기는 것입니다. 실제로 잘된 학습이여도 10~20%는 dead relu가 발생하며 학습에 지장은 없습니다.

6-28 그래서 사람들은 초기화시 0.01을 더해주기도 하는데 별 효과는 없습니다.

6-29 다음은 Leaky ReLU입니다. Leaky ReLU는 음수 역역에 기울기를 추가해 saturate되는 부분이 없으며 max함수를 사용해 효율적입니다. 포인트는 Dead relu가 없어졌다는 것입니다.

6-30 기울기가 알파 파라미터로 결정되는데 임의로 정하는 것이 아닌 backpro로 학습시키는 파라미터로 결정됩니다.

6-31 Leaky lelu와 비교하면 elu는 nagative부분에서 기울기를 가지는 동시에 saturation 됩니다. Elu에 주장에 따르면 이러한 saturation이 노이즈에 더강인하다고 합니다. Elu는 relu와 leaky relu의 중간이라고 보시면됩니다. Zero-mean에 가까운 출력이지만 saturation된다는 점에서 relu와 비슷합니다.

6-32입력을 받아들이는 기본 형식을 가지고 있지 않습니다. 기본 내적은 선형을 따르지만 max함수를 통해 비선형을 보이고 있습니다!. 단점은 두개의 선형결합으로 파라미터와 뉴런의 수가 두배라 계산량이 많아집니다.

결론 1. 가장 먼저 ReLU사용하자, Leaky ReLU/Maxout/ELU도 시도해보면 좋습니다. sigmoid는 절대 사용하지말자!

6-34 이번엔 데이터 전처리에 대해 알아보겠습니다.

6-35 데이터 전처리에는 zero-centered와 nomailzed가 있습니다. 왜 사용할까요?

6-36 앞서 sigmoid의 예에서 모든 입력변수가 양수일 경우에 대해 단점을 이야기했습니다. 기본적으로 image데이터는 pixel값을 가지고 있으므로 모두 양수입니다. 그러므로 입력차원에서 전처리를 통해 모든 입력이 양수가 되는걸 방지하자는 의미로 사용하게됩니다.

6-37 znormalization을 해주는 이유는 모든 차원이 동일한 범위안 있게 해줘서 전부 동등한 기여(contribute)를 하게 합니다. 기본적으로 이미지의 경우 각 차원간의 스케일이 맞춰져 있어 사용하지 않고 zero-centered만 해줍니다.

6-38 그리고 Machine learning 에서는 PCA나 whitening 같은 더 복잡한 전처리 과정도 있긴 합니다만 이미지에서는 단순히 zero-mean 정도만 사용하고 normalization 그 밖의 여러 복잡한 방법들은 잘 안씁니다.

6-39 요약해보자면 이미지 전처리에서는 대부분 zero-mean으로 해줍니다. 일부 모델들은 채널 전체를 계산해서 빼주는 경우도 있지만 각 채널을 독립적으로 생각해서 빼주는 경우도 있습니다. 이는 판단하기 나름입니다.

6-40 또 ResNet의 경우 각 채널의 표준편차를 나누어주기도 합니다.

6-40 이제 weight를 어떻게 초기화시켜야 하는지를 알아보겠습니다.

6-41 초기값을 0으로 설정하면 어떨까요 답부터 이야기하면 매우 나쁜 아이디어 입니다. 모두 0으로 해서는 안되는 이유는 뭘까요? 바로 backpropagation에서 모든 가중치의 값이 똑같이 갱신되기 때문입니다. 예를 들어 2층 신경망에서 첫 번째와 두 번째 층의 가중치가 0이라고 가정하면 순전파 때는 입력층의 가중치가 0이기 때문에 모두 같은 값이 전달될 것이고 같은 값이 입력된다는 것은 두번 째 층의 가중치가 똑같이 갱신된다는 의미입니다. 이는 가중치가 가지는 의미가 사라집니다.

6-41 이해가 안간다면 조금 쉬운 예를 들어보겠습니다. 헬기를 타고 산에 어느 지점에 떨어졌습니다. 안개가 자욱하여 앞이 안보이는 상황에서 밑으로 내려가야합니다. 어떻게 내려갈까요? 발의 느낌을 통해 경사를 보고 내려갈 것입니다. 초기화값을 0으로 설정한다는 것은 헬기가 같은 장소에 떨어 뜨린다는 걸 의미합니다. 그렇다면 앞이 안보이며, 같은 지점이라고 생각하지 못하기 때문에 몇번을 시도해도 같은방향으로 내려갑니다. 이러한 이유로 초기값을 0으로 설정하면 안된다는 겁니다.

6-42 처음의 아이디어는 0대신에 작은 random값을 가지는 숫자를 넣어보자 입니다. 표준편차가 0.01이며 가우시안 분포를 가지는 숫자를 넣어봅니다.

6-43 이러한 아이디어는 작은 네트워크에는 잘 작동하나 네트워크가 깊어질수록 문제가 생깁니다.

6-44 10개의 레이어가 500개의 뉴런을 가지는 네트워크를 한번 보겠습니다. 활성함수로 tanh인 비선형함수를 사용하였고, 초기값을 6-43슬라이드의 값을 사용했습니다.

6-45 왼쪽 그림의 평균은 2번째 step부터 0에 가깝게 형성되었는데 tanh함수 자체가 zero-mean이기 때문에 당연합니다. 문제는 표준편차입니다. 오른쪽 그림의 표준편차 또한 가파르게 0에 가까워지고 있습니다.

6-46 첫 번째 레이어는 가우시안과 비슷한 좋은 분포를 형성하고 있습니다. 하지만 문제는 w를 곱할 수록 w가 너무 작은 값이라서 출력값이 줄어들게 됩니다. 결국 0이 됩니다. 자그럼 이상황에서 packprop를 생각해봅시다 x가 엄청 작은 값이기 때문에 gradint도 작을것이고 업데이트가 잘 일어나지 않을 것 입니다. Backprop 를 생각해보면 내려가면서 local gradient가 곱해지는데 local gradient는 입력X입니다. X가 엄청 작은 값이기 때문에 gradient는 작을 것이고 결국 업데이트는 일어나지 않습니다.

6-47 그럼 가중치의 편차를 크게 하면 어떻게 될까요 여기서는 0.01대신 1을 사용해보겠습니다. 가중치가 큰값을 가지니까 tanh의 출력은 항상 -1또는 1로 saturation될 것입니다.

6-48 가중치를 어떻게 주면 훈련을 잘할 수 있을까 고민중에 나온것이 Xavier initialization입니다. 앞서 표준편차가 1 또는 0.01인 정규분포와 달리 Xavier initialization은 앞 계층의 노드가 n개라면 표준편차가 1/루트n의 분포를 사용합니다. Xavier initialization이 하는 일은 입 출력의 분산을 맞춰주는 것입니다. 입력의 수가 작으면 작은값으로 나누고 크면 큰값을 나눕니다. 쉽게말하면 탄젠트로 들어오는 값이 x와 w의 내적의 합인데 이게 인풋이 많아지면 합이 커지면서 saturation됩니다 그래서 saturation을 막기위해 w의 갑을 인풋에 맞게끔 줄여줍니다.

6-49 문제점이 하나 있는데 ReLU를 사용하면 잘 작동하지 않습니다. 이유는 렐루는 출력의 절반을 죽여버립니다. 절반은 0이 됩니다. 그렇다면 출력의 분산을 반토막냅니다. 여기 그림을 보면 처음 layer부터 많은 부분이 0이 되고 점점 많은 값이 0이됩니다.

6-50 이러한 문제점을 해결하기 위해 나온 것이 He initialization입니다.ReLU는 출력의 절반을 죽이기 때문에 Xavier에서 2만큼 한번더 나누어 줍니다 보면 잘 작동하는걸 볼 수 있습니다. 실제 ReLU 입력은 반밖에 안들어가므로 반으로 나눠줍니다.

6-51 그래프를 보면 잘 작동하는 걸 볼 수 있습니다.

6-53 가중치의 초깃값을 적절히 설정하면 각 층의 활성화 값 분포가 적당히 퍼지면서 학습이 원활하게 수행됨을 배웠습니다. 그렇다면 강제로 적당히 퍼트리도록 하면 어떻게 될까요? 배치 정규화가 그런 아이디어에서 출발한 방법입니다.

Batch Normalization의 장점은 1. 학습을 빨리할 수 있습니다. 2. 초깃값에 크게 의존하지 않습니다.(매우 환영) 3. 오버피팅을 억제해줍니다.

6-54 또한 미분 가능한 함수입니다. 평균과 분산을 "상수" 로 가지고만 있으면 언제든지 미분이 가능하며 따라서

Backprop이 가능하게 됩니다.

6-55 배치당 N개의 데이터와 D차원이있는데 차원당 평균과 분산을 구해주고 정규화 해줍니다. 이건 fc일 경우이며,

CNN경우 activation map당 평균과 분산을 계산해줍니다.

6-56 BN의 경우 활성화 함수 전에 FC나 CNN layer후에 넣어줍니다.

6-57 그러나 한가지 의문이 있습니다. FC layer를 거칠 때 마다 매번 normalization를 해주는 것에 대한 의문이 있습니다.

우리가 정말 tanh의 입력이 unit gaussian이기를 바라는 것일까요? normalization이 하는 일은 입력이 tanh의 linear한 영역에만 존재하도록 강제하는 것입니다. 그렇게 되면 saturation이 전혀 일어나지 않게 됩니다. saturation이 아예 일어나지 않는 것 보다 조절할 수 있으면 좋겠죠? 이 부분은 6-31에서 Elu를 알아보며 saturation이 노이즈에 강인하다는 점을 배웠습니다.

6-58 Batch normalization에서는 normalization연산(왼쪽 상단)이 있었습니다. 감마와 베타가 추가되었습니다. 감마로는 스케일링 베타로는 이동의 효과를 줍니다. 네트워크를 원상복구 하고 싶다면 감마를 = 분산 베타를 = 평균으로 하면 됩니다. 이렇게 감마와 베타를 적용하면 얼마나 saturation 시킬지를 학습하기 때문에 유연성을 얻을 수 있습니다. 또 앞에서 노이즈에 강하다는 이야기가 있었는데 그거와도 일맥상통한다고 생각합니다.

6-59 Batch normalization를 다시한번 요약해 보자면 입력이 있고 mini-batch를 통해 평균을 계산합니다. 그리고 분산도 계산합니다. 평균과 분산으로 normalize 한 이후에 감마와 베타를 통해 scaling과 shifting을 사용합니다. BN은 gradient의 흐름을 보다 원활하게 해주며 결국 더 학습이 더 잘되게(robust) 해줍니다. BN을 쓰면 learning rates를 더 키울 수도 있고 다양한 초기화 기법들도 사용해 볼 수 있습니다. 또하나 regularization의 역할도 한다는 것입니다. 각 레이어의 출력이 하나의 데이터의 영향을 받은 것이 아닌 batch안에 모든 데이터의 영향을 받아 regularization 효과를 줍니다.

6-59 그래프는 초기값에 따른 epoch마다 accuracy를 나타낸 그래프입니다. BN을 사용할 경우 초기값에 영향을 받지 않는 것을 그래프를 통해 볼 수 있습니다.

6-61 이제 학습과정을 다루는법에 대해 알아보겠습니다. 지금까지 네트워크 설계를 배웠습니다. 이제는 학습과정을 어떻게 모니터링하고 하이퍼파라미터를 조절할 것인지를 배워보겠습니다.

6-62 첫 단계는 데이터 전처리 입니다. 앞에서 배운 것 처럼 zero-centered를 해줍니다.

6-63 50개의 뉴런을 가진 하나의 hidden layer를 학습해보겠습니다.

6-64 Forward pass를 하고난 후에 Loss가 그럴듯해야 합니다. Softmax classifer의 로스는 negative log likelihood가 되어야합니다. 10개의 클래스라면 Loss는 -log(1/10) = 2.3 이니 잘 작동합니다.

6-65 지금까지는 여기 regularization을 0으로 설정하였습니다. 앞서 계산한 2.3은 regularization을 사용하지 않은 상태입니다. 여기에 regularization을 추가하면 Loss가 증가합니다. regularization이 더해지니 Forward pass시 로스가 증가하는 것은 당연하겠죠?

6-66 처음 시작할 때는 데이터의 일부만 학습하는게 좋습니다. 데이터가 적으면 오버핏이 생기고 로스가 많이 줄어듭니다. 이때는 regulaization을 사용하지 않고 단지 로스가 내려가는지 확인합니다. CIFAR-10데이터에서 20개의 샘플을 사용하며 10개의 클래스를 가집니다. optimizer는 SGD를 사용합니다.

6-67 loss는 줄어들고 accuracy는 100%를 달성합니다. overfit 되었습니다.

6-68 Sanity chack가 끝나면 본격적으로 훈련할 차례입니다.이제는 전체 데이터 셋을 사용하고 regularization을 약간씩 주면서 적절한 learning rate를 찾아야합니다. learning rate은 가장 중요하고가장 먼저 정해야만합니다.

6-69 loss가 거의 변화하지 않습니다.

6-70 그 이유는 learning rate이 매우 작기 때문입니다.

6-71 그렇다면 loss의 변화는 없지만 정확도는 올라갔을까요? 그 이유는 손실함수는 조금 씩 옳은 방향으로 갑니다. 정확도는 그저 가장 큰값만 취하기 때문에 크게 오를 수 있습니다.

6-72 learning rate을 1e6으로 학습해보겠습니다.

6-73 loss가 발산하는 것을 볼 수 있습니다. learning rate이 너무 작으면 loss의 변화가 없고 너무 크면 발산해버립니다.

6-74 3e-3또한 너무 높아 발산합니다. 보통 learning rate은 1e-3 ~ 1e-5범위를 사용해서 cross valiation을 통해 결정합니다.

6-75 이제 하이퍼파라미터 최적화에 대해 알아보겠습니다. 어떻게 최적화 할까요? 앞서 말씀드렸습니다. cross valiation을 통해 최적화시킬 수 있습니다.

6-76 cross valiation은 train set을 다시한번 train과 val로 분류한 후 Coarse stage에서 넓은 범위에서 값을 골라냅니다.

Epoch 몇번 만으로도 잘 동작하는지 알 수 있습니다. 예를 들어 NaN이 뜨거나 loss가 줄지 않거나 Coares stage가 끝나면 어느 지점에서 잘 작동한다 알 수 있고 좀 더 좁은 범위를 설정하고 학습을 길게 시켜 최적의 값을 찾습니다. NaN로 발산하는 징조를 미리 감지할 수도 있습니다. 이전의 cost보다 3배 높아졌다면 잘못 하고 있는 것입니다. 이런 경우 다른 하이퍼파라미터를 선택합니다.

6-77 예로 5epochs를 통해 Coares stage를 해보겠습니다. 여기서 볼것은 acc가 높은 곳을 빨간색으로 표시했는데 이부분을 중심으로 fine stage를 할 것입니다.

6-78 Coares stage를 통해 얻는 범위로 다시 학습합니다.

6-70 가장 높은 val_acc를 얻은 부분이 있습니다. 그렇다면 이때의 learning rate이 Best일까요? 잘 보면 좋은 learning rates은 전부 1e-4 사이에 존재하고 있습니다. Coares stage에서 얻은 결과를 통해 설정한 범위에 집중되어있습니다. 이것은 좋지 않습니다. learning rate을 효율적으로 탐색할 수 없기 때문입니다. 1e-5에서 최적의 learning rate이 있을 수 있습니다. 보통 최적의값을 범위의 중앙에위 치합니다.예를들어 1e-4일 경우 1e-3~1e-5의 범위로 찾습니다.

6-80 하이퍼파라미터를 최적화시키는 방법에는 Random Search와 Grid Search가 있는데, Random Search가 좋습니다. Grid Search의 경우 그림과 같이 3번의 샘플링밖에 하지못해 좋은 하이퍼파라미터를 찾기에 제한이있습니다.

6-81 하이퍼파라미터는 턴테이블을 만지는 것과 같다...

6-82 cross valiation을 진짜 많이해봐야 한다..

6-83 learning rate이 적절한지는 epoch당 loss의 그래프를 보면 직관적으로 알 수 있습니다. learning rate이 높을 경우 loss는 발산하며 매우 낮을 경우 천천히 수렴합니다.

6-84 가끔 이런 그래프를 볼 수 있는데

6-85 이런경우 초기값의 설정이 잘못된 것입니다.

6-86 train과 val사이의 gap이 크다면 regularization을 고려해볼 수 있으며 gap이 작다면 모델의 성능이 올라갈 가능성이 있습니다.

6-88 요약하자면 활성화함수로는 ReLU를 사용하며 전처리의 경우 zero-centered가 되게 하며 Xavier초기값을 많이 사용합니다. Batch Normalization을 사용합니다. 이런점은 현재 2019년에도 비슷하게 적용됩니다.

'데이터분석 > vision' 카테고리의 다른 글

VGGNet using keras (0)	2019.11.07
LRN(Local Response Normalization) 이란 무엇인가?(feat. AlexNet) (0)	2019.11.07
AlexNet using keras (0)	2019.11.06
LeNet-5 using keras (0)	2019.10.30
Lecture 9: CNN Architectures (0)	2019.10.27

Taegu

Lecture 7: Training Neural Networks, part I

'데이터분석 > vision' 카테고리의 다른 글

+ Recent posts

티스토리툴바