반응형
- 클러스터 평균(Cluster Mean) : 한 클러스터 안에 속한 레코드들의 평균 Vector변수
- K개의 클러스터로 나누고 이때 할당된 클러스터 평균과 포함된 Data들의 거리 제곱합이 최소가 되도록 한다.(클러스터 내 제곱합 또는 클러스터 내의 Sum of Squares)
- K 평균은 각 클러스터 크기가 동일하다는 보장을 하지 않지만 클러스터끼리 최대한 멀리 떨어지도록 한다.
- (Python) collections.Counter(kmeans.labels_) : 클러스터별 데이터의 수 계산
- PCA와의 차이점 : 클러스터 평균에서는 +/- 부호의 의미가 중요하다
- PCA : 변동성의 주요 방향 찾기
- 클러스터 평균 : 서로 가까운 위치에 있는 레코드들의 그룹 찾기
- 장단점
- 장점 – 다방면에 활용가능, 빠른 통합, 균일 크기의 클러스터를 생성하지만 대규모 Dataset에 대한 선형 확장성을 제공
- 단점 – hyperparameter 튜닝이 필요, 최적화를 보장하지 않음, 극값에 민감, 클러스터는 구 형태이며, features는 서로 상관관계가 없다는 제한적인 가정이 있음
- Elbow method : 언제 클러스터 set이 데이터분산의 ‘대부분’을 설명하는지 알려준다.
- (Python) sklearn.kmeans.inertia_
728x90
반응형