Day 18 - 데이터 전처리

2022. 11. 1. 17:19Python

이번 글에서는 파이썬으로 데이터 분석을 수행하기 이전, raw data를 전처리하는 몇가지 방법들에 대해 정리할 것이다.

우선, 날짜 데이터를 전처리 하는 방법에 대해 설명할 것이다. 날짜 데이터의 경우, 우선 해당 데이터가 문자열 형식인지 timestamp 형식인지 구분하는 작업이 필요하다. 이후 문자열 데이터의 경우에는 데이터 타입을 datetime으로 변경하면 되고, timestamp 타입의 경우 unit을 잘 지정하여 datetime으로 변경하면 된다.

날짜데이터를 처리하는 방법들이다.

 

그 다음 소개할 것은 라벨형식과 문자열 형식을 통일하는 전처리인데, 이것은 보통 데이터의 인코딩 작업에 포함된다.

라벨 및 문자형식을 통일한 모습이다.

컬럼 네임을 변경할 때, 함부로 빈 리스트를 사용해서 변경할 경우 apply 메서드가 제대로 적용되지 않는 경우가 있으니 주의하자.

 

다음은 데이터 전처리의 핵심 중 하나인 각종 데이터 값에 대한 전처리에 대해 다룰 것이다. 데이터 값의 경우 결측치, 이상치, 중복데이터, 다중공선성이 나타나는 서로 다른 컬럼 내 데이터를 갖는 등, 대부분의 raw data는 데이터 값에 대한 전처리가 필요하다. 이번 글에서는 우선 기초적인 결측치 처리 방법인 삭제와 대체값 삽입하기를 다룰 것이다. 이 때 결측치에 대한 대체값은 다양한 값이 될 수 있는데, 연속형 데이터의 경우 평균값이나 중간값을 주로 사용하고, 명목형 데이터의 경우 최빈값을 주로 사용한다.

결측치를 처리하는 코드들이다.

매우 중요한 파트이기 때문에 수업에서 사용한 모든 코드를 캡쳐했다. 특별히 이해하거나 사용하기에 힘든 부분은 없지만, 데이터 분석에 있어서 가장 중요한 부분 중 하나이기 때문에 반드시 체화할 수 있도록 해야겠다.

 

마지막으로, 데이터 단위를 통일하는 것에 대해서 배웠다. 데이터 단위 통일화 중 표준화에 대해 학습했는데, 표준화의 경우 표준정규분포로 데이터를 정규화하는 것과, 최대/최소값을 1/0으로 맞추어 데이터를 통일화하는 것에 대해 공부했다.

데이터 단위를 통일하는 방법들이다.

마찬가지로 데이터 전처리에 있어 매우 중요한 파트 중 하나이기 때문에, 표준화 방법을 어떤 데이터에 사용하면 좋을지를 생각하면서 학습하는 것이 좋겠다.