티스토리 뷰

GRU(Gated Recurrent Unit)

2개의 Gate를 이용해 현 단계의 인풋과 이전 히든 정보 비율을 조절합니다.

1️⃣ Reset gate : 새로운 hidden을 생성할 때 현재 입력 정보와 관련없는 과거의 정보를 drop

2️⃣ Update gate : 과거의 정보를 얼마나 기억할지를 결정

 

만약, r(Reset Gate)가 0에 가까우면, 과거 히든의 정보는 이번 step의 feature을 만드는 데에 기여도가  낮다.

만약, z(Update Gate)가

  1) 0에 가까운 경우, 과거의 정보를 그대로 복사(이번 스텝의 정보는 히든을 만드는 데 기여X)
      → Vanishing gradient가 줄어든다.

  2) 1에 가까운 경우, 과거 히든을 그대로 복사하는 부분은 줄어들고
      이번 스텝에서 만들어진 벡터를 크게 반영하여 이번 스텝의 히든을 만든다.

 

 

 

[참고문헌]

https://medium.com/analytics-vidhya/lstm-and-gru-a-step-further-into-the-world-of-gated-rnns-99d07dac6b91