xgboost(2)
-
Day 33 ~ 36 - 미니 프로젝트 > 항공사 만족도 예측 머신러닝
4일 간 그동안 배운 머신러닝 및 딥러닝 기법을 실제로 사용해보는 팀 미니 프로젝트를 진행했다. 사용한 데이터셋은 Kaggle의 Airline Customer Satisfaction 데이터셋이다. Link: https://www.kaggle.com/datasets/teejmahal20/airline-passenger-satisfaction Airline Passenger Satisfaction What factors lead to customer satisfaction for an Airline? www.kaggle.com 해당 데이터셋은 이미 훈련셋과 시험셋이 나뉘어 있고, 훈련셋 10만여개, 시험셋 약 26000여개의 데이터가 포함되어 있다. 전처리가 거의 되어 있는 데이터셋이었기 때문에 Null값을..
2022.11.29 -
Day 26 - 머신러닝 7 > XGBoost
이번 글에서는 머신러닝 알고리즘 중 XGBoost에 대해 다룰 것이다. XGBoost는 현재 가장 인기 있는 모델이자 성능이 검증된 부스팅* 모델로, 트리 기반 모델이기 때문에 종속 변수의 데이터 타입에 관계 없이 사용할 수 있으며 이미지/자연어를 제외한 표로 정리된 데이터의 경우 거의 모두에서 활용 가능하다. XGBoost는 또한 변수 종류가 많고 데이터가 클수록 더 뛰어난 성능을 보여주기도 한다. 하지만, 복잡한 모델이기 때문에 설명력이 떨어지고 하이퍼 파라미터 튜닝이 까다롭다는 단점이 있다. *부스팅: 순차적으로 트리를 만들어 이전 트리보다 더 나은 트리를 만들어내는 알고리즘이다. XGBoost 실습을 스피드 데이팅 커플 성사 데이터셋을 통해 진행했다.
2022.11.15