본문 바로가기
Data Science & AI Theories

자연어처리(NLP)(2) - 자연어처리란? sparsity problem, word representation, BOW, DTM의 한계, TF-IDF

by Oliver J 2023. 8. 16.
반응형
  • 자연어처리(NLP, Natural Language Processing)
    • 자연어처리에서 자료 불충분의 경우 해당과정과 유사한 사전 훈련된 커브넷을 사용할 경우 자신만의 좋은 특성을 학습하지 못하더라도 꽤 일반적인 특성을 재사용하는 것이 합리적이다.
    • 일반적 언어Model 처리 순서 : Tokenizer() -> fit_on_text(docs) -> text_to_sequence(docs)
    • Deep learning Model 입력할 경우 학습 Data의 크기가 모두 동일해야 하므로Padding 과정이 존재한다.
    • Sparsity Problem : 충분한 Data를 관측하지 못하여 언어를 정확히 Modeling하지 못하는 문제
    • NLP평가방법
      1. Perplexity(PPL) : 언어 Model이 특정시점에서 평균적으로 몇 개의 선택지를 가지고 고민하는지를 의미하는 것으로서 값이 낮을수록 좋다.
      2. Domain에 알맞은 동일한 test data를 사용해야 신뢰도가 높다.
    • Word Representation
      • 국소표현(Local Representation) : 해당 단어 자체만을 보고 특정값을 매핑하여 단어를 표현하는 방법
      • 분산표현(Distributed Representation) : 해당 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법
반응형

Word Representation Classification Image

    • BOW(Bag Of Words)
      • 단어 등장의 순서를 고려하지 않은 빈도기반 단어 표현 방법
      • 주요 등장 단어 구성에 따라 문서가 어떤 종류의 문서인지 판단하는데 BOW를 사용할 수 있다.
        • Ex) 수학단어(미분,적분,항등식…)의 빈도가 높다 ==>>>  수학 관련 문서 
    • DTM의 한계
      • 희소표현(Sparse Representation) è One-Hot Encoding같이 많은 양의 저장공간과 계산복잡도의 증가
      • 단순 빈도수 기반의 접근법
    • TF-IDF(Term Frequency – Inverse Document Frequency)
      • 단어의 빈도와 역문서빈도를 사용하여 DTM내의 각 단어들마다 중요도를 가중치로 주는 방법
      • DTM생성 후TF-IDF를 생성한다.
      • Ex) 문서유사도, 검색시스템에서 검색결과의 중요도, 문서 내의 특정 단어의 중요도 구하기 등등 활용
      • tf(d, t) : 특정문서 d에서 특정단어 t의 등장 횟수
      • df(t) : 특정단어 t가 등장한 문서의 수
      • idf : df(t)에 반비례하는 수

 

728x90
반응형