반응형
- 순환신경망(RNN, Recurrent Neural Network)
- 여러 개의 Data가 순서대로 입력될 경우 앞서 입력되었던 Data를 잠시 기억하는 방법으로 입출력값 설정에 따라 다방면으로 활용이 가능
- 시간축을 따라 이동불변성이 없는 패턴을 가진 경우에 사용하기 적합하다
- 시간 순서에 따른 학습이므로 backpropagation update를 위한 병렬학습이 불가능하다
- 매개변수를 공유하여 장거리 종속성을 Modeling 할 수 있다.
- 입력된 값이 서로 연관이 있을 때, 이를 모두 받아두어야 적절한 출력이 가능하지만 입력값 길이가 너무 길면 입력받은 Cell의 길이가 길어지며 선두에서 전달받은 결과값이 중간에 희미해지기도 하고 문맥벡터가 모든 값을 제대로 디코더에 전달하기 힘들어지는 문제가 발생. 즉, 많은 단계의 역전파를 계산할 경우 기울기 소실의 문제 또는 기울기 폭발적 증가가 가능하다
- 위의 문제를 해결하기 위하여 Attention
- 인코더와 디코더 사이에 층을 하나 만들고 새로 삽입된 층에 각 Cell로부터 계산된 스코어가 모인다.
- 위의 스코어를 이용하여 softmax를 사용하고 attention 가중치를 생성하여 이를 기준으로 입력값 중 어떤 값을 중점적으로 볼지를 결정하는 메커니즘
- 위의 문제를 해결하기 위하여 Attention
- LSTM으로 기울기소실/기울기폭발 문제를 해결 시도하였으며 GRU(Gated Recurrent Unit)도 유사한 이유로 등장하였다.
반응형
- 장단기메모리(LSTM, Long Short Term Memory)
- 잠재적으로 긴 범위에 걸쳐 Data 포인트 간의 종속성을 특징으로 하는 sequence data학습을 위해 개발되었다.
- 일반적으로 LSTM은 4개의 파라미터화된 layer의 결합으로 나타낼 수 있다.
- 기본적 형태 – input gate / output gate / forget gate / update gate)
- 하지만 layers는 사실상 다양하게 존재
- 게이트 순환 유닛(GRU, Gated Recurrent Unit)
- Output Layer를 생략하고 LSTM유닛을 단순화한 형태(LSTM의 3개의 gate를 GRU 2개의 gate로 변경)
- Gate단위로 reset이나 유지를 설정한다.
- 대체로 작은 DataSet에서 더 나은 성능을 발휘(성능: LSTM > GRU이지만 거의 유사하다. è 따라서 GRU사용을 많이 함)
- 각 반복단위가 다양한 시간척도의 종속성을 적응적으로 포착하는 것을 목표로 하였다.
- 유닛 내부의 정보흐름을 변조하지만 별도의 메모리셀을 폐기하는 게이팅 유닛이 별도로 존재한다.
728x90
반응형
'Data Science & AI Theories' 카테고리의 다른 글
적대적생성신경망(GAN, Generative Adversarial Networks) (3) | 2023.08.19 |
---|---|
오토인코더(AE, AutoEncoder), Seq2Seq AE, 변이형 오토인코더(VAE, Variational AutoEncoder) (0) | 2023.08.18 |
CNN(컨볼루션 신경망) & 배치 정규화(Batch Normalization) (0) | 2023.08.17 |
Neural Network(신경망) & Deep Learning(딥러닝) (0) | 2023.08.17 |
자연어처리(NLP)(4) - Transformer, Attention (0) | 2023.08.16 |