KNN(3)
-
Day 33 ~ 36 - 미니 프로젝트 > 항공사 만족도 예측 머신러닝
4일 간 그동안 배운 머신러닝 및 딥러닝 기법을 실제로 사용해보는 팀 미니 프로젝트를 진행했다. 사용한 데이터셋은 Kaggle의 Airline Customer Satisfaction 데이터셋이다. Link: https://www.kaggle.com/datasets/teejmahal20/airline-passenger-satisfaction Airline Passenger Satisfaction What factors lead to customer satisfaction for an Airline? www.kaggle.com 해당 데이터셋은 이미 훈련셋과 시험셋이 나뉘어 있고, 훈련셋 10만여개, 시험셋 약 26000여개의 데이터가 포함되어 있다. 전처리가 거의 되어 있는 데이터셋이었기 때문에 Null값을..
2022.11.29 -
Day 22 - 머신러닝 3 > KNN(K - Nearest Neighbors) (2)
이번 글에서는 Titanic 데이터를 활용해 KNN 모델링 연습문제를 푼 과정을 정리할 것이다. 이 연습문제 과정은 강사님의 도움을 받지 않고 수행했다. 이후 데이터 전처리를 진행했다. 그 후 세가지 스케일링 작업을 각각 수행했다. 마지막으로 KNN 모델 학습 후, 모델 평가를 진행했다. Titanic 데이터를 4번째 다루어보는데, 데이터 전처리는 항상 중요하다는 걸 다시 한 번 생각하게 되었다. PassengerId컬럼을 없애지 않고 진행한 것과 없애고 진행한 것의 결과가 달랐기 때문이다. 한 편, 서로 다른 머신러닝 방법임에도 로지스틱 회귀와 KNN 모델의 정확도가 거의 비슷하게 나왔다는 것이(KNN이 살짝 높긴 하다) 흥미로웠다.
2022.11.09 -
Day 22 - 머신러닝 3 > KNN(K - Nearest Neighbors)
이번 글에서는 머신러닝 알고리즘 중 KNN에 대해 다룰 것이다. KNN은 선형관계를 상정하지 않은 데이터셋에서도 활용할 수 있는 거리기반 머신러닝 모델로, 다중분류 문제에 적용 가능하다. KNN의 풀네임을 보면 유추할 수 있듯, KNN은 K개의 가장 가까운 데이터에 의해 결과값을 예측하는 알고리즘이다. 이 K값은 사용자가 지정할 수 있다. K개의 데이터를 하나하나 고려하여 예측하는 알고리즘이다보니, K의 값이 크고 데이터셋의 크기가 클 수록 속도가 느려진다. 따라서 작은 데이터셋에 적합하다. 또한 이상치에 취약하다는 단점이 있다. KNN 알고리즘 실습을 wine classification 데이터를 통해 진행했다.
2022.11.09