'KNN' 태그의 글 목록

Day 33 ~ 36 - 미니 프로젝트 > 항공사 만족도 예측 머신러닝

4일 간 그동안 배운 머신러닝 및 딥러닝 기법을 실제로 사용해보는 팀 미니 프로젝트를 진행했다. 사용한 데이터셋은 Kaggle의 Airline Customer Satisfaction 데이터셋이다. Link: https://www.kaggle.com/datasets/teejmahal20/airline-passenger-satisfaction Airline Passenger Satisfaction What factors lead to customer satisfaction for an Airline? www.kaggle.com 해당 데이터셋은 이미 훈련셋과 시험셋이 나뉘어 있고, 훈련셋 10만여개, 시험셋 약 26000여개의 데이터가 포함되어 있다. 전처리가 거의 되어 있는 데이터셋이었기 때문에 Null값을..

2022.11.29

Day 22 - 머신러닝 3 > KNN(K - Nearest Neighbors) (2)

이번 글에서는 Titanic 데이터를 활용해 KNN 모델링 연습문제를 푼 과정을 정리할 것이다. 이 연습문제 과정은 강사님의 도움을 받지 않고 수행했다. 이후 데이터 전처리를 진행했다. 그 후 세가지 스케일링 작업을 각각 수행했다. 마지막으로 KNN 모델 학습 후, 모델 평가를 진행했다. Titanic 데이터를 4번째 다루어보는데, 데이터 전처리는 항상 중요하다는 걸 다시 한 번 생각하게 되었다. PassengerId컬럼을 없애지 않고 진행한 것과 없애고 진행한 것의 결과가 달랐기 때문이다. 한 편, 서로 다른 머신러닝 방법임에도 로지스틱 회귀와 KNN 모델의 정확도가 거의 비슷하게 나왔다는 것이(KNN이 살짝 높긴 하다) 흥미로웠다.

2022.11.09

Day 22 - 머신러닝 3 > KNN(K - Nearest Neighbors)

이번 글에서는 머신러닝 알고리즘 중 KNN에 대해 다룰 것이다. KNN은 선형관계를 상정하지 않은 데이터셋에서도 활용할 수 있는 거리기반 머신러닝 모델로, 다중분류 문제에 적용 가능하다. KNN의 풀네임을 보면 유추할 수 있듯, KNN은 K개의 가장 가까운 데이터에 의해 결과값을 예측하는 알고리즘이다. 이 K값은 사용자가 지정할 수 있다. K개의 데이터를 하나하나 고려하여 예측하는 알고리즘이다보니, K의 값이 크고 데이터셋의 크기가 클 수록 속도가 느려진다. 따라서 작은 데이터셋에 적합하다. 또한 이상치에 취약하다는 단점이 있다. KNN 알고리즘 실습을 wine classification 데이터를 통해 진행했다.

2022.11.09

나의 코딩 교육 일지

나의 코딩 교육 일지

태그

최근글

댓글

공지사항

아카이브

KNN(3)

티스토리툴바