[클러스터링 알고리즘] Kmeans 클러스터링

모든 블로그의 모든 모토: 당신은 당신이 생각하는 것보다 더 많은 것을 할 수 있습니다.
https://blog.csdn.net/weixin_39190382?type=blog

0. 서문

Kmeans 요약

1. 텍스트

1.1 소개

간단히 말해서, 데이터 묶음에 대해 먼저 k개의 샘플을 클러스터 중심 으로 선택 하고 모든 샘플에서 이들까지의 거리를 거리에 따라 가장 가까운 클러스터 중심 으로 나누고 얻은 각 클러스터에 대해 각각의 평균을 계산합니다. 값을 새로운 군집 중심 으로 사용 하고 군집 중심의 변화가 안정될 때까지 위의 과정을 반복한다. 즉, 데이터의 클러스터링이 완료됩니다.

전반적인 프로세스도 비교적 이해하기 쉽습니다.

1.2단계

  1. 주로 데이터 전처리: 데이터 표준화 및 이상치 필터링.
  2. 무작위로 k개 센터 선택
  3. 샘플에서 k개의 센터까지의 거리를 계산 하고 가장 가까운 센터에 할당합니다.
  4. 위에서 나눈 여러 클래스에 대해 각 클래스의 중심을 다시 계산합니다.
  5. 중심이 최종적으로 안정될 때까지 위의 3단계와 4단계를 반복합니다.
    사진 설명을 추가해주세요

1.3k 옵션

1.3.1 변곡점법(엘보법)

서로 다른 k 값에서 거리의 제곱합을 계산합니다.k 값이 증가함에 따라 거리는 점차 감소합니다. 기울기가 큰 것에서 작은 것으로 갑자기 변한 다음 천천히 변할 때 k 값이 적절한 kz 값이라고 간주됩니다.

여기에 이미지 설명 삽입

1.3.2 실루엣 계수

각 샘플에는 두 부분으로 구성된 해당 실루엣 계수가 있습니다.

  • 동일한 클러스터 클래스 (클래스 내)의 다른 샘플 포인트 에서 샘플 의 평균 거리 (응집력을 정량화)
  • 샘플의 모든 샘플과 가장 가까운 클러스터 (클래스 간)의 평균 클러스터링(정량화된 분류 정도)

S = b − amax ( a , b ) S = {ba \over max(a,b)}에스=최대 x ( , _)-
S의 값은 [-1, 1]입니다.

데이터 세트의 실루엣 계수: 데이터 세트의 각 샘플의 실루엣 계수의 평균값과 동일

1.4 장점과 단점

(1) 장점

  1. 비지도 학습에 속하며 레이블이 필요하지 않음
  2. 원리가 간단하고 구현이 쉬움
  3. 결과는 해석 가능

(2) 단점

  1. 클러스터링 데이터 k의 선택, 부적절한 선택은 만족스럽지 못한 결과를 얻을 수 있습니다.
  2. 로컬 최적으로 수렴할 수 있으며 대규모 데이터에서 수렴 속도가 느림
  3. 노이즈 및 이상치에 민감

1.5 알고리즘 개선

주로 다음과 같은 방법이 있습니다(일시적으로 확장되지 않음).

  • kmeans++
  • 분할된 kmean
  • minbatchKmeans

참고

[1] https://blog.csdn.net/Claire_chen_jia/article/details/111060253#t2
[2] https://blog.csdn.net/weixin_45788069/article/details/108853816#t3
[3] https:/ /blog.csdn.net/qq_43741312/article/details/97128745#t11
[4] https://zhuanlan.zhihu.com/p/432230028
[5] https://www.zhihu.com/tardis/zm/art /158776162?source_id=1005
[6] https://zhuanlan.zhihu.com/p/184686598

Supongo que te gusta

Origin blog.csdn.net/weixin_39190382/article/details/131379283
Recomendado
Clasificación