반응형
- 문맥벡터(Context Vector) – 각 Vector의 마지막 Cell에 담긴 값에 전체 문장의 뜻이 함축되어 있는 것
- Transformer
- 아키텍처 구성
- Transformer Encoder - Source Sequence를 처리
- 입력단어 임베딩 구성
- 특정 문맥에 독립적으로 단어를 표현하는 일반적인 단어 임베딩
- 현재 단어 위치를 표현하는 위치 Vector
- Vector에 위치 축을 추가하고 Sequence 정보를 추가. 이 경우 위치가 매우 큰 정수가 될 수 있으므로 이상적이지 않을 수도 있기에 (신경망은 큰 입력값이나 이산적인 입력분포값에 잘 동작 안 할 수도 있다.) Attention is all you need 논문에서는 위치별 주기적으로 바뀌는 cosin함수를 활용하여 [-1, 1] 범위벡터를 단어 임베딩에 추가함
- Transformer Decoder – Source Sequence를 사용하여 변환된 버전을 생성하는 것으로서 RNN Decoder와 마찬가지로 target sequence에 있는 토큰 0~N을 읽고 N+1을 예측. 중요한 점은 이를 수행하면서 Neural Attention을 사용하여 Encoding 된 소스문장에서 어떤 토큰이 현재 예측하려는 target token에 가장 관련성이 높은지 식별한다.
- 입력단어 임베딩 구성
- Transformer Encoder - Source Sequence를 처리
- 기술적으로 순서에 구애받지 않지만 Model이 처리하는 표현에 순서정보를 수동으로 주입하는 하이브리드방식(위치인코딩, Positional Encoding)
- Positional Encoding – Model에 단어순서정보제공을 위하여 문장의 단어위치를 각 단어 임베딩에 추가한다.
- Text분류를 포함하여 어떤 종류의 집합처리나 시퀀스 처리 작업에 사용가능하다
- Seq2Seq Transformer 구성
- 입력벡터 Seq를 문맥과 순서를 고려한 출력 시퀀스로 변환(Transformer Encoder)
- 출력과 target Seq를 받아 타깃 Seq의 다음에 올 것을 예측(Transformer Decoder)
- Vector하나의 seq(or set) 처리할 경우에는 Transformer Encoder만 사용됨
- 아키텍처 구성
반응형
- Neural Attention
- Context를 고려한 단어표현을 만드는 방법으로서 Transformer 아키텍처의 기초
- 어떤 특성을 강조하거나 삭제하는 것 이상을 위해 사용 가능하다
- Self-Attention
- Sequence에 있는 관련된 Token의 표현을 사용하여 한 Token의 표현을 조절하는 것. 즉, 문맥에 따른 다의어에 대한 의미 파악 및 조정
- Sequence원소 쌍 사이의 관계에 초점을 맞춘 집합처리 메커니즘으로 원소와 Sequence등장 순서와는 무관하다.
728x90
반응형