계층적 군집화- 정의 : 여러 개의 군집 중에서 가장 유사도가 높은 혹은 거리가 가까운 군집 두 개를 선택해서 군집 개수를 줄여가는 방법
최초에는 데이터 개수만큼 군집이 존재하지만 군집을 합치면서 최종적으로 하나의 군집만 남는다.
종류 :비계층적 방법 - 계층적 방법에 의존하지 않는 방법.
계층적 방법 - 이전 단계에서 계층적 방법으로 군집이 합쳐진 적이 있다는 가정 하에 쓰이는 방법.
거리 측정 방법 :(비계층적 거리 측정법)
d(u,v) : 군집 u와 군집 v사이의 거리중심거리 :cu와 cv는 각각 두 군집 u와 v의 중심점이다.군집의 중심점은 그 클라스에 포함된 모든 데이터의 평균을 사용한다.
단일거리 (최소 거리 nearest point) : 군집 u의 모든 데이터 ui와 군집 v의 모든 데이터 vj의 모든 조합에 대해 데이터 사이의 거리 d(ui,vj)를 측정해서 가장 작은 값을 구한다.
완전거리 (최장 거리 Farthest Point) : 군집 u의 모든 데이터 ui와 군집 v의 모든 데이터 vj의 모든 조합에 대해 데이터 사이의 거리 d(ui,vj)를 측정해서 가장 큰 값을 구한다.
평균거리 :군집 u의 모든 데이터 ui와 군집 v의 모든 데이터 vj의 모든 조합에 대해 데이터 사이의 거리 d(ui,vj)를 측정해서 평균을 구한다. |u|와 |v|는 각각 두 군집의 원소의 갯수를 뜻한다.
(계층적 거리 측정법) : 비계층적 거리 측정법에 비해 계산량이 적어서 효율적이다.
중앙값거리 :중심거리 방법의 변형만약 군집 u가 군집 s와 군집 t가 결합하여 생겼다면 군집 u의 중심점은 새로 계산하지 않고 원래 군집의 두 군집의 중심점의 평균을 사용한다.
가중거리 :만약 군집 u가 군집 s와 군집 t가 결합하여 생겼다면 이 군집 u와 다른 군집 v 사이의 거리는 군집 u를 구성하는 원래 군집 s, t와 v 사이의 두 거리의 평균을 사용한다.
<군집을 나누는 방법>