Day 27 - 머신러닝 9 > K 평균 군집화 (K-Means Clustering)

2022. 11. 16. 16:26Python

이번 글에서는 K평균 군집화에 대해 다룰 것이다.

K평균 군집화는 그 동안 다뤘던 다른 알고리즘과 달리 비지도학습 알고리즘으로, 목표변수가 없는 상태에서 데이터를 비슷한 유형으로 묶는다. K가 붙은 것으로 알 수 있듯, 거리기반 알고리즘이다. K평균 군집화는 종속변수가 없는 데이터셋에서 데이터의 특성을 알아보기에 좋으며 구현이 간단하고 클러스터링 결과를 쉽게 해석할 수 있다. 다만 최적의 K값을 직접 찾아내야 하고, 스케일링이 필요하다는 단점이 있다.

 

LightGBM 실습에서 활용한 카드 거래 데이터를 약간 손보아 K평균 군집화 실습에 사용했다.

데이터를 불러오고 간단한 전처리를 했다. 거리기반 모델이기에 스케일링도 해주었다.
엘보우 기법과 실루엣 계수를 활용해 최적의 K값을 찾았다.
군집화를 실행한 결과물이다.

 

'Python' 카테고리의 다른 글

Day 29/30 - 딥러닝 > CNN  (0) 2022.11.21
Day 28 - 딥러닝  (0) 2022.11.17
Day 26 - 머신러닝 8 > LightGBM  (0) 2022.11.15
Day 26 - 머신러닝 7 > XGBoost  (0) 2022.11.15
Day 25 - 머신러닝 6 > 랜덤 포레스트 (Random Forest)  (0) 2022.11.14