머신러닝(10)
-
Day 22 - 머신러닝 3 > KNN(K - Nearest Neighbors) (2)
이번 글에서는 Titanic 데이터를 활용해 KNN 모델링 연습문제를 푼 과정을 정리할 것이다. 이 연습문제 과정은 강사님의 도움을 받지 않고 수행했다. 이후 데이터 전처리를 진행했다. 그 후 세가지 스케일링 작업을 각각 수행했다. 마지막으로 KNN 모델 학습 후, 모델 평가를 진행했다. Titanic 데이터를 4번째 다루어보는데, 데이터 전처리는 항상 중요하다는 걸 다시 한 번 생각하게 되었다. PassengerId컬럼을 없애지 않고 진행한 것과 없애고 진행한 것의 결과가 달랐기 때문이다. 한 편, 서로 다른 머신러닝 방법임에도 로지스틱 회귀와 KNN 모델의 정확도가 거의 비슷하게 나왔다는 것이(KNN이 살짝 높긴 하다) 흥미로웠다.
2022.11.09 -
Day 22 - 머신러닝 3 > KNN(K - Nearest Neighbors)
이번 글에서는 머신러닝 알고리즘 중 KNN에 대해 다룰 것이다. KNN은 선형관계를 상정하지 않은 데이터셋에서도 활용할 수 있는 거리기반 머신러닝 모델로, 다중분류 문제에 적용 가능하다. KNN의 풀네임을 보면 유추할 수 있듯, KNN은 K개의 가장 가까운 데이터에 의해 결과값을 예측하는 알고리즘이다. 이 K값은 사용자가 지정할 수 있다. K개의 데이터를 하나하나 고려하여 예측하는 알고리즘이다보니, K의 값이 크고 데이터셋의 크기가 클 수록 속도가 느려진다. 따라서 작은 데이터셋에 적합하다. 또한 이상치에 취약하다는 단점이 있다. KNN 알고리즘 실습을 wine classification 데이터를 통해 진행했다.
2022.11.09 -
Day 21 - 머신러닝 2 > 로지스틱 회귀
이번 글에서는 머신러닝 방법 중 로지스틱 회귀에 대해서 다룰 것이다. 로지스틱 회귀는 이진 분류를 다루며, 두가지 범주로 나뉘어진 값을 예측하는데 사용한다. 이는 기존의 선형 회귀가 이러한 값을 잘 예측하지 못하기 때문이다. 분류문제에 있어 타 모델과 비교하는데 있어 기준선으로 사용되며, 구현과 설명이 쉽다. 다만 선형관계가 아닌 데이터에 대한 예측력은 떨어진다는 단점이 있다. 자세한 이유는 모르겠지만, 아마 결국 선형회귀와 비슷한 방식의 회귀분석 방법이라서 그런게 아닐까 싶다. Titanic dataset을 활용하여 로지스틱 회귀 실습을 진행했다. 실습을 통해 알게 된것은, 어떤 머신러닝 기법을 사용하더라도 해당 기법에 맞게 데이터 전처리를 해주어야 한다는 것과 따라서 데이터 전처리가 정말 중요하다는 ..
2022.11.08 -
Day 20 - 머신러닝 1 > 선형회귀
이번 글에서는 머신러닝 중 선형회귀에 대해 공부했다. 우선 머신러닝에 대해 설명할 필요가 있는데, 주로 머신러닝과 함께 헷갈리는 개념들인 인공지능, 딥러닝의 개념을 함께 정리해보면 다음과 같다. 인공지능: 인간의 뇌를 모방한 프로그램. 세 개념 중 최상위 개념이다. 머신러닝: 데이터를 기반으로 학습하여 무언가를 예측하거나, 데이터 자체의 특성을 찾아내는 것. 딥러닝: 머신러닝 알고리즘의 한 종류로 인공 신경망에서 진화한 형태. 주로 이미지/비디오/자연어 분석에 쓰임. 세 개념 중 최하위 개념이다. 머신러닝은 기본적으로 데이터수집 > 데이터 전처리 > 모델학습 > 모델평가 > 모델배포의 프로세스를 통해 이루어진다. 위 프로세스를 반복하는 것을 MLOps라고 한다. 이 중 머신러닝 방법 중 하나인 선형회귀에..
2022.11.07