자연어처리(NLP)(4) - Transformer, Attention

문맥벡터(Context Vector) – 각 Vector의 마지막 Cell에 담긴 값에 전체 문장의 뜻이 함축되어 있는 것

Transformer
- 아키텍처 구성
  - Transformer Encoder - Source Sequence를 처리
    - 입력단어 임베딩 구성
      - 특정 문맥에 독립적으로 단어를 표현하는 일반적인 단어 임베딩
      - 현재 단어 위치를 표현하는 위치 Vector
        
        Vector에 위치 축을 추가하고 Sequence 정보를 추가. 이 경우 위치가 매우 큰 정수가 될 수 있으므로 이상적이지 않을 수도 있기에 (신경망은 큰 입력값이나 이산적인 입력분포값에 잘 동작 안 할 수도 있다.) Attention is all you need 논문에서는 위치별 주기적으로 바뀌는 cosin함수를 활용하여 [-1, 1] 범위벡터를 단어 임베딩에 추가함
      - Transformer Decoder – Source Sequence를 사용하여 변환된 버전을 생성하는 것으로서 RNN Decoder와 마찬가지로 target sequence에 있는 토큰 0~N을 읽고 N+1을 예측. 중요한 점은 이를 수행하면서 Neural Attention을 사용하여 Encoding 된 소스문장에서 어떤 토큰이 현재 예측하려는 target token에 가장 관련성이 높은지 식별한다.
- 기술적으로 순서에 구애받지 않지만 Model이 처리하는 표현에 순서정보를 수동으로 주입하는 하이브리드방식(위치인코딩, Positional Encoding)
- Positional Encoding – Model에 단어순서정보제공을 위하여 문장의 단어위치를 각 단어 임베딩에 추가한다.
- Text분류를 포함하여 어떤 종류의 집합처리나 시퀀스 처리 작업에 사용가능하다
- Seq2Seq Transformer 구성
  - 입력벡터 Seq를 문맥과 순서를 고려한 출력 시퀀스로 변환(Transformer Encoder)
  - 출력과 target Seq를 받아 타깃 Seq의 다음에 올 것을 예측(Transformer Decoder)
- Vector하나의 seq(or set) 처리할 경우에는 Transformer Encoder만 사용됨

Neural Attention
- Context를 고려한 단어표현을 만드는 방법으로서 Transformer 아키텍처의 기초
- 어떤 특성을 강조하거나 삭제하는 것 이상을 위해 사용 가능하다
- Self-Attention
  1. Sequence에 있는 관련된 Token의 표현을 사용하여 한 Token의 표현을 조절하는 것. 즉, 문맥에 따른 다의어에 대한 의미 파악 및 조정
  2. Sequence원소 쌍 사이의 관계에 초점을 맞춘 집합처리 메커니즘으로 원소와 Sequence등장 순서와는 무관하다.

Transformer Encoder 는 Multi-Head Attention층과 밀집투영 , 정규화, 잔차를 연결한다

728x90

'Data Science & AI Theories' 카테고리의 다른 글

CNN(컨볼루션 신경망) & 배치 정규화(Batch Normalization) (0)	2023.08.17
Neural Network(신경망) & Deep Learning(딥러닝) (0)	2023.08.17
자연어처리(NLP)(3) - word2vec, cbow, sg model, lsa단점, 노이즈 대조추정(NCE), NEG(Negative Sampling) (0)	2023.08.16
자연어처리(NLP)(2) - 자연어처리란? sparsity problem, word representation, BOW, DTM의 한계, TF-IDF (0)	2023.08.16
자연어처리(NLP)(1) - One-Hot Encoding, Word Embedding, Seq2Seq, 언어Model의 종류 (0)	2023.08.16

OliverHouse

자연어처리(NLP)(4) - Transformer, Attention

'Data Science & AI Theories' 카테고리의 다른 글

티스토리툴바

자연어처리(NLP)(4) - Transformer, Attention

'Data Science & AI Theories' 카테고리의 다른 글

관련글

티스토리툴바