반응형
- Word2Vec 종류와 단점
- CBOW(Continuous Bag Of Words)
- 빠르고 빈번한 단어에 대해 약간 더 정확하지만 빈번한 단어에는 약함
- 문맥 단어 Vector의 평균을 입력으로 사용하여 대상단어 예측하므로 순서가 중요하지 않음
- CBOW(Continuous Bag Of Words)
-
- Skip-Gram(SG) Model
- 목표단어를 사용하여 문맥에서 사용된 샘플링된 단어를 예측
- 작은 Dataset에서 잘 작동하며 low frequent 단어나 구문에서도 좋은 표현을 찾아냄
- Skip-Gram(SG) Model
-
- Word2Vec 단점
- 분포가설 기반으로 학습하고 희소단어는 제대로 Embedding을 못함
- 단어집에 없는 단어 출현할 경우 전체 재학습이 필요하다.
- 단어의 유사도는 측정에 좋지만 사용자가 지정한 윈도내에서 학습과 분석이 이루어져 corpus전체의 co-occurance가 반영되기 쉽다.
- Word2Vec 단점
반응형
- LSA(Latent-Semantic Analysis 단점
- corpus전체 통계를 이용하지만 단어/문서 간의/ 유사도 측정이 어렵다.
- NCE 노이즈 대조추정(Noise Contrastive Estimation)
- 문맥을 벗어난 ‘노이즈단어’를 샘플링하고 이진분류문제로 멀티클래스 작업을 근사화한다
- 단어가 너무 많을 경우 분류가 어려워서 샘플링하므로 Good!
- NCE미분은 샘플 수 증가에 따라 softmax기울기에 가까워진다. 하지만 N≥25의 경우 softmax보다 성능이 약 45배 빠름
- 문맥을 벗어난 ‘노이즈단어’를 샘플링하고 이진분류문제로 멀티클래스 작업을 근사화한다
- NEG(Negative Sampling)
- 노이즈단어 샘플을 생략하여 NCE를 근사화하고 목표단어의 확률을 직접 최대화한다.
- 즉, NEG는 test세트에서 정확도보다는 임베딩 벡터의 의미 품질을 최적화하는 용도
- 단, 빈번한 단어가 아닐 경우에는 성능이 떨어질 수도 있다는데 주의!
- 노이즈단어 샘플을 생략하여 NCE를 근사화하고 목표단어의 확률을 직접 최대화한다.
728x90
반응형
'Data Science & AI Theories' 카테고리의 다른 글
Neural Network(신경망) & Deep Learning(딥러닝) (0) | 2023.08.17 |
---|---|
자연어처리(NLP)(4) - Transformer, Attention (0) | 2023.08.16 |
자연어처리(NLP)(2) - 자연어처리란? sparsity problem, word representation, BOW, DTM의 한계, TF-IDF (0) | 2023.08.16 |
자연어처리(NLP)(1) - One-Hot Encoding, Word Embedding, Seq2Seq, 언어Model의 종류 (0) | 2023.08.16 |
비지도학습(Unsupervised Learning)(6) - 군집(Clustering) 성능 측정 (0) | 2023.08.16 |