반응형
- 계층적 클러스터링(Hierarchical Clustering)
- 비유사도(Dissimilarity) : 한 클러스터와 다른 클러스터외의 거리측정 지표(수치형 Data경우 가장 중요)
- 상대적으로 적은 Data양에 적용 è 큰 Data양에는 유연성에 비용부담이 가중된다.
- 병합알고리즘(Agglomerative) : 유사 클러스터들을 반복적으로 병합하는 역할로서 모든 레코드가 하나의 클러스터에 속할때까지 가까운 클러스터와 계속해서 연결하는 알고리즘
- 비유사도 측정방법
- 완전연결 : 두 클러스터 사이의 모든 레코드쌍의 최대거리를 사용하는 방식
- 단일연결(Single Linkage) : 탐욕적 방법으로 결과로 나온 클러스터는 서로 크게 다른 요소를 포함하기도 한다.
- 평균연결 : 2가지 이상의 평균으로 연결
- 최소분산 : 워드기법(Ward’s method) – 클러스터 내의 제곱합 최소화로 K-Means와 유사하다
- Dendrogram : 레코드들과 그 레코드들이 속한 계층적 클러스터를 시각적으로 표현
- 밀도 기반 클러스터링(Density-based Clustering)
- 근접성 기반으로 멤버쉽을 할당하여 임의의 모양과 크기의 밀집된 영역을 식별
- 이웃의 크기와 밀도임계값에 의존
728x90
반응형