AI Deep Dive, Chapter 7. 깊은 인공신경망의 고질적 문제와 해결 방안 02. vanishing gradient의 해결방안 ReLU

AI Deep Dive Note

Chapter 7 - 02. vanishing gradient의 해결방안 ReLU

vanishing gradient의 주범: sigmoid
미분값이 그리 작지 않은 함수를 activation으로 써보자, ReLU
ReLU Rectified Linear Unit
- 적어도 양수쪽으로 인풋이 들어오면, 적어도 미분 값이 1은 됨.
  - 적어도 activation에 의해서 (액웨액웨액웨…액앤)에서 0으로 가는 일은 없겠다.
  - 다만 마이너스 인풋이면 0이 되긴 하는데, 아직 bias 남아있으니까 아예 다 없어지는 건 아니지만..
    - 그래도 음수쪽을 살짝 살려줌
      - Leaky ReLU: y = 0.01x
      - 학습하자, Parametric ReLU: y = ax
        
        미분은 되나? chain rule에 의해서 미분만 되면, 학습 가능

Share on

Twitter Facebook LinkedIn

You may also enjoy

CUDA example code 1. main.cpp, kernel.cu, kernel.cuh 구성으로 빌드하기, ubuntu

CUDA sample code

CMake

CMake

Tesseract OCR and OpenCV in Ubuntu

Create cpp and build it using tesseract OCR and openCV in ubuntu

Qt for Linux

Qt for Linux