본문 바로가기
Data Science & AI Theories

비지도학습(Unsupervised Learning)(3) - 계층적 클러스터링(Hierarchical Clustering), 밀도 기반군집(Density-based Clustering)

by Oliver J 2023. 8. 16.
반응형
  • 계층적 클러스터링(Hierarchical Clustering)
    • 비유사도(Dissimilarity) : 한 클러스터와 다른 클러스터외의 거리측정 지표(수치형 Data경우 가장 중요)
    • 상대적으로 적은 Data양에 적용 è 큰 Data양에는 유연성에 비용부담이 가중된다.
    • 병합알고리즘(Agglomerative) : 유사 클러스터들을 반복적으로 병합하는 역할로서 모든 레코드가 하나의 클러스터에 속할때까지 가까운 클러스터와 계속해서 연결하는 알고리즘
    • 비유사도 측정방법
      • 완전연결 : 두 클러스터 사이의 모든 레코드쌍의 최대거리를 사용하는 방식
      • 단일연결(Single Linkage) : 탐욕적 방법으로 결과로 나온 클러스터는 서로 크게 다른 요소를 포함하기도 한다.
      • 평균연결 : 2가지 이상의 평균으로 연결
      • 최소분산 : 워드기법(Ward’s method) – 클러스터 내의 제곱합 최소화로 K-Means와 유사하다
    • Dendrogram : 레코드들과 그 레코드들이 속한 계층적 클러스터를 시각적으로 표현

Dendrogram Sample Image

 

  • 밀도 기반 클러스터링(Density-based Clustering)
    • 근접성 기반으로 멤버쉽을 할당하여 임의의 모양과 크기의 밀집된 영역을 식별
    • 이웃의 크기와 밀도임계값에 의존

Density-based Clustering Sample Image

728x90
반응형