본문 바로가기
Data Science & AI Theories

자연어처리(NLP)(3) - word2vec, cbow, sg model, lsa단점, 노이즈 대조추정(NCE), NEG(Negative Sampling)

by Oliver J 2023. 8. 16.
반응형
  • Word2Vec 종류와 단점
    • CBOW(Continuous Bag Of Words)
      1. 빠르고 빈번한 단어에 대해 약간 더 정확하지만 빈번한 단어에는 약함
      2. 문맥 단어 Vector의 평균을 입력으로 사용하여 대상단어 예측하므로 순서가 중요하지 않음

CBOW

    • Skip-Gram(SG) Model
      1. 목표단어를 사용하여 문맥에서 사용된 샘플링된 단어를 예측
      2. 작은 Dataset에서 잘 작동하며 low frequent 단어나 구문에서도 좋은 표현을 찾아냄

Skip-Gram(SG)

    • Word2Vec 단점
      1. 분포가설 기반으로 학습하고 희소단어는 제대로 Embedding을 못함
      2. 단어집에 없는 단어 출현할 경우 전체 재학습이 필요하다.
      3. 단어의 유사도는 측정에 좋지만 사용자가 지정한 윈도내에서 학습과 분석이 이루어져 corpus전체의 co-occurance가 반영되기 쉽다.
반응형

 

  • LSA(Latent-Semantic Analysis 단점
    • corpus전체 통계를 이용하지만 단어/문서 간의/ 유사도 측정이 어렵다.

 

  • NCE 노이즈 대조추정(Noise Contrastive Estimation)
    • 문맥을 벗어난 ‘노이즈단어’를 샘플링하고 이진분류문제로 멀티클래스 작업을 근사화한다
      1. 단어가 너무 많을 경우 분류가 어려워서 샘플링하므로 Good!
      2. NCE미분은 샘플 수 증가에 따라 softmax기울기에 가까워진다. 하지만 N≥25의 경우 softmax보다 성능이 약 45배 빠름

 

  • NEG(Negative Sampling)
    • 노이즈단어 샘플을 생략하여 NCE를 근사화하고 목표단어의 확률을 직접 최대화한다.
      1. , NEG는 test세트에서 정확도보다는 임베딩 벡터의 의미 품질을 최적화하는 용도
      2. , 빈번한 단어가 아닐 경우에는 성능이 떨어질 수도 있다는데 주의!

 

 

728x90
반응형