본문 바로가기

Data Science & AI Theories

비지도학습(Unsupervised Learning)(3) - 계층적 클러스터링(Hierarchical Clustering), 밀도 기반군집(Density-based Clustering)

by Oliver J 2023. 8. 16.

계층적 클러스터링(Hierarchical Clustering)
- 비유사도(Dissimilarity) : 한 클러스터와 다른 클러스터외의 거리측정 지표(수치형 Data경우 가장 중요)
- 상대적으로 적은 Data양에 적용 è 큰 Data양에는 유연성에 비용부담이 가중된다.
- 병합알고리즘(Agglomerative) : 유사 클러스터들을 반복적으로 병합하는 역할로서 모든 레코드가 하나의 클러스터에 속할때까지 가까운 클러스터와 계속해서 연결하는 알고리즘
- 비유사도 측정방법
  - 완전연결 : 두 클러스터 사이의 모든 레코드쌍의 최대거리를 사용하는 방식
  - 단일연결(Single Linkage) : 탐욕적 방법으로 결과로 나온 클러스터는 서로 크게 다른 요소를 포함하기도 한다.
  - 평균연결 : 2가지 이상의 평균으로 연결
  - 최소분산 : 워드기법(Ward’s method) – 클러스터 내의 제곱합 최소화로 K-Means와 유사하다
- Dendrogram : 레코드들과 그 레코드들이 속한 계층적 클러스터를 시각적으로 표현

Dendrogram Sample Image

밀도 기반 클러스터링(Density-based Clustering)
- 근접성 기반으로 멤버쉽을 할당하여 임의의 모양과 크기의 밀집된 영역을 식별
- 이웃의 크기와 밀도임계값에 의존

Density-based Clustering Sample Image

728x90

저작자표시 비영리 변경금지

'Data Science & AI Theories' 카테고리의 다른 글

비지도학습(Unsupervised Learning)(5) - t-SNE (t-Stochastic Neighbor Embedding), UMAP(Uniform Manifold Approximation and Projection for Dimension Reduction) (0)	2023.08.16
비지도학습(Unsupervised Learning)(4) - Gaussian Mixture Models, Model Based Clustering(mclust) (0)	2023.08.16
비지도학습(Unsupervised Learning)(2) - K-평균 클러스터링(K Means Clustering) (0)	2023.08.16
비지도학습(Unsupervised Learning)(1) - 비지도학습에 대하여, 주성분분석(PCA) (0)	2023.08.16
벡터내적의 기하학적의미, 고유벡터, 고유값, 편향, 교차타당성 (0)	2023.08.16

티스토리툴바