데이터전처리(2)
-
Day 19 - Titanic 데이터 실습
이번 글에서는 그동안 배운 데이터 전처리와 분석, 시각화를 Titanic 데이터를 통해 실습해 볼 것이다. Hello World!에 비할바는 못되지만 역시 데이터 분석 실습의 첫 걸음은 Titanic 데이터라고 생각한다. 우선, Titanic 데이터를 불러와 Titanic 데이터프레임에 저장하고, 분석하기 이전 더 용이한 분석을 위해 몇 가지 컬럼을 추가했다. 추가한 컬럼은 남녀 성별을 0/1로 구분하는 컬럼, 이름의 길이값을 저장하는 컬럼, 요금을 반올림한 컬럼이다. 우선은 커스텀 함수를 정의하지 않고 기존 함수나 dictionary를 이용하여 컬럼을 추가해보았다. 추가한 컬럼과 생존여부 간 상관분석을 진행했다. 그 뒤 본격적인 분석을 위해 필요한 전처리 과정의 일환인 유도변수 생성에 대해 배웠다. 사..
2022.11.02 -
Day 18 - 데이터 전처리
이번 글에서는 파이썬으로 데이터 분석을 수행하기 이전, raw data를 전처리하는 몇가지 방법들에 대해 정리할 것이다. 우선, 날짜 데이터를 전처리 하는 방법에 대해 설명할 것이다. 날짜 데이터의 경우, 우선 해당 데이터가 문자열 형식인지 timestamp 형식인지 구분하는 작업이 필요하다. 이후 문자열 데이터의 경우에는 데이터 타입을 datetime으로 변경하면 되고, timestamp 타입의 경우 unit을 잘 지정하여 datetime으로 변경하면 된다. 그 다음 소개할 것은 라벨형식과 문자열 형식을 통일하는 전처리인데, 이것은 보통 데이터의 인코딩 작업에 포함된다. 컬럼 네임을 변경할 때, 함부로 빈 리스트를 사용해서 변경할 경우 apply 메서드가 제대로 적용되지 않는 경우가 있으니 주의하자. ..
2022.11.01