자연어처리(NLP)(2) - 자연어처리란? sparsity problem, word representation, BOW, DTM의 한계, TF-IDF

- BOW(Bag Of Words)
  - 단어 등장의 순서를 고려하지 않은 빈도기반 단어 표현 방법
  - 주요 등장 단어 구성에 따라 문서가 어떤 종류의 문서인지 판단하는데 BOW를 사용할 수 있다.
    - Ex) 수학단어(미분,적분,항등식…)의 빈도가 높다 ==>>> 수학 관련 문서
- DTM의 한계
  - 희소표현(Sparse Representation) è One-Hot Encoding같이 많은 양의 저장공간과 계산복잡도의 증가
  - 단순 빈도수 기반의 접근법
- TF-IDF(Term Frequency – Inverse Document Frequency)
  - 단어의 빈도와 역문서빈도를 사용하여 DTM내의 각 단어들마다 중요도를 가중치로 주는 방법
  - DTM생성 후TF-IDF를 생성한다.
  - Ex) 문서유사도, 검색시스템에서 검색결과의 중요도, 문서 내의 특정 단어의 중요도 구하기 등등 활용
  - tf(d, t) : 특정문서 d에서 특정단어 t의 등장 횟수
  - df(t) : 특정단어 t가 등장한 문서의 수
  - idf : df(t)에 반비례하는 수

728x90

자연어처리(NLP)(4) - Transformer, Attention (0)	2023.08.16
자연어처리(NLP)(3) - word2vec, cbow, sg model, lsa단점, 노이즈 대조추정(NCE), NEG(Negative Sampling) (0)	2023.08.16
자연어처리(NLP)(1) - One-Hot Encoding, Word Embedding, Seq2Seq, 언어Model의 종류 (0)	2023.08.16
비지도학습(Unsupervised Learning)(6) - 군집(Clustering) 성능 측정 (0)	2023.08.16
비지도학습(Unsupervised Learning)(5) - t-SNE (t-Stochastic Neighbor Embedding), UMAP(Uniform Manifold Approximation and Projection for Dimension Reduction) (0)	2023.08.16

OliverHouse