랜덤포레스트(2)
-
Day 33 ~ 36 - 미니 프로젝트 > 항공사 만족도 예측 머신러닝
4일 간 그동안 배운 머신러닝 및 딥러닝 기법을 실제로 사용해보는 팀 미니 프로젝트를 진행했다. 사용한 데이터셋은 Kaggle의 Airline Customer Satisfaction 데이터셋이다. Link: https://www.kaggle.com/datasets/teejmahal20/airline-passenger-satisfaction Airline Passenger Satisfaction What factors lead to customer satisfaction for an Airline? www.kaggle.com 해당 데이터셋은 이미 훈련셋과 시험셋이 나뉘어 있고, 훈련셋 10만여개, 시험셋 약 26000여개의 데이터가 포함되어 있다. 전처리가 거의 되어 있는 데이터셋이었기 때문에 Null값을..
2022.11.29 -
Day 25 - 머신러닝 6 > 랜덤 포레스트 (Random Forest)
이번 글에서는 머신러닝 알고리즘 중 랜덤 포레스트에 대해 다룰 것이다. 이제는 본격적으로 사람이 해석하거나 설명하기 어려운 알고리즘의 단계까지 도달했다. 랜덤 포레스트는 기본적으로 결정 트리를 확장한 것이라고 이해하는게 좋을 것 같다. 랜덤으로 생성된 무수하게 많은 트리를 앙상블 기법*을 통해 예측하는 알고리즘으로, 결정 트리의 오버피팅 문제를 해결할 수 있다. 트리모델이기 때문에 아웃라이어에 영향을 받지 않으며 종속변수의 데이터 타입에 관계 없이 사용할 수 있고, 데이터의 선형/비선형 관계를 구별하지 않는다는 장점이 있다. 다만, 속도가 느리고 모델 해석이 어렵다는 단점이 있다. 이 모델 해석의 경우에는 앙상블 기법을 사용하는 모델의 경우에는 공통적으로 적용되는 단점이라고 할 수 있다. *앙상블 기법:..
2022.11.14