본문 바로가기

Data Science & AI Theories

비지도학습(Unsupervised Learning)(2) - K-평균 클러스터링(K Means Clustering)

by Oliver J 2023. 8. 16.

클러스터 평균(Cluster Mean) : 한 클러스터 안에 속한 레코드들의 평균 Vector변수
- K개의 클러스터로 나누고 이때 할당된 클러스터 평균과 포함된 Data들의 거리 제곱합이 최소가 되도록 한다.(클러스터 내 제곱합 또는 클러스터 내의 Sum of Squares)
- K 평균은 각 클러스터 크기가 동일하다는 보장을 하지 않지만 클러스터끼리 최대한 멀리 떨어지도록 한다.
- (Python) collections.Counter(kmeans.labels_) : 클러스터별 데이터의 수 계산
- PCA와의 차이점 : 클러스터 평균에서는 +/- 부호의 의미가 중요하다
  - PCA : 변동성의 주요 방향 찾기
  - 클러스터 평균 : 서로 가까운 위치에 있는 레코드들의 그룹 찾기
- 장단점
  - 장점 – 다방면에 활용가능, 빠른 통합, 균일 크기의 클러스터를 생성하지만 대규모 Dataset에 대한 선형 확장성을 제공
  - 단점 – hyperparameter 튜닝이 필요, 최적화를 보장하지 않음, 극값에 민감, 클러스터는 구 형태이며, features는 서로 상관관계가 없다는 제한적인 가정이 있음
- Elbow method : 언제 클러스터 set이 데이터분산의 ‘대부분’을 설명하는지 알려준다.
  - (Python) sklearn.kmeans.inertia_

728x90

저작자표시 비영리 변경금지

'Data Science & AI Theories' 카테고리의 다른 글

비지도학습(Unsupervised Learning)(4) - Gaussian Mixture Models, Model Based Clustering(mclust) (0)	2023.08.16
비지도학습(Unsupervised Learning)(3) - 계층적 클러스터링(Hierarchical Clustering), 밀도 기반군집(Density-based Clustering) (0)	2023.08.16
비지도학습(Unsupervised Learning)(1) - 비지도학습에 대하여, 주성분분석(PCA) (0)	2023.08.16
벡터내적의 기하학적의미, 고유벡터, 고유값, 편향, 교차타당성 (0)	2023.08.16
지도학습(Supervised Learning), SVM, GBM, K-Nearest Neighbor, Tree (0)	2023.08.16

티스토리툴바