본문 바로가기
Data Science & AI Theories

비지도학습(Unsupervised Learning)(4) - Gaussian Mixture Models, Model Based Clustering(mclust)

by Oliver J 2023. 8. 16.
반응형
  • Gaussian Mixture Models
    • 다변량 정규분포에 의해 생성되었다고 가정하는 생성모델로서 평균과 공분산 행렬을 추정하는 것을 목표로 하는 모델
    • Expectation-Maximization Algorithm 사용 : 가우스 분포 혼합의 구성요소를 식별하여 레이블이 지정되지 않은 데이터에서 확률분포 매개변수를 학습할 수 있다. 

2D 모델
3D 모델

반응형
  • Model Based Clustering(mclust)
    • 통계이론에 기초하여 클러스터의 성질과 수를 결정하는데 더 엄격한 방법을 제공
    • Ex) 전반적으로는 서로 비슷하지만 모든 Data가 서로 반드시 가까울 필요가 없는 그룹과 서로 비슷하면서 Data들이 아주 가까이에 있는 또 다른 그룹이 함께 있는 경우
    • 다변량 정규분포
    • 정규혼합 – 알고리즘 내의 무작위성 때문에 실행시마다 다를 수 있다.
    • BIC(Bayesian Information Criteria) 값이 가장 큰 클러스터의 개수를 선택하도록 동작하기 때문에 Mclust는 클러스터 수를 자동으로 정한다. BICModel의 파라미터 개수에 벌점을 주는 방식으로 가장 적합한 Model을 선택. 결국, Model based clustering의 경우 클러스터를 추가할수록 Model 파라미터 개수가 증가하는 대신 적합도는 향상된다.
    • 한계
      • Data들이 Model을 따른다는 가정이 필요하며 클러스터링 결과는 이 가정에 따라 매우 다름
      • 필요계산량이 증가하여 대용량 데이터로 확장이 어렵다.
      • 알고리즘이 다른 것보다 복잡하고 이용이 어렵다.
    • 클러스터들이 각자 서로 다른 확률분포로부터 발생한 것으로 가정
    • (일반적으로 정규분포) 분포 개수에 대한 가정에 따라 서로 다른 Model이 있다.
728x90
반응형