본문 바로가기
Data Science & AI Theories

비지도학습(Unsupervised Learning)(2) - K-평균 클러스터링(K Means Clustering)

by Oliver J 2023. 8. 16.
반응형
  • 클러스터 평균(Cluster Mean) : 한 클러스터 안에 속한 레코드들의 평균 Vector변수
    • K개의 클러스터로 나누고 이때 할당된 클러스터 평균과 포함된 Data들의 거리 제곱합이 최소가 되도록 한다.(클러스터 내 제곱합 또는 클러스터 내의 Sum of Squares)
    • K 평균은 각 클러스터 크기가 동일하다는 보장을 하지 않지만 클러스터끼리 최대한 멀리 떨어지도록 한다.
    • (Python) collections.Counter(kmeans.labels_) : 클러스터별 데이터의 수 계산
    • PCA와의 차이점 : 클러스터 평균에서는 +/- 부호의 의미가 중요하다
      • PCA : 변동성의 주요 방향 찾기
      • 클러스터 평균 : 서로 가까운 위치에 있는 레코드들의 그룹 찾기
    • 장단점
      • 장점 – 다방면에 활용가능, 빠른 통합, 균일 크기의 클러스터를 생성하지만 대규모 Dataset에 대한 선형 확장성을 제공
      • 단점 – hyperparameter 튜닝이 필요, 최적화를 보장하지 않음, 극값에 민감, 클러스터는 구 형태이며, features는 서로 상관관계가 없다는 제한적인 가정이 있음
    • Elbow method : 언제 클러스터 set이 데이터분산의 대부분을 설명하는지 알려준다.
      • (Python) sklearn.kmeans.inertia_

728x90
반응형