데이터분석(4)
-
Day 19 - Titanic 데이터 실습
이번 글에서는 그동안 배운 데이터 전처리와 분석, 시각화를 Titanic 데이터를 통해 실습해 볼 것이다. Hello World!에 비할바는 못되지만 역시 데이터 분석 실습의 첫 걸음은 Titanic 데이터라고 생각한다. 우선, Titanic 데이터를 불러와 Titanic 데이터프레임에 저장하고, 분석하기 이전 더 용이한 분석을 위해 몇 가지 컬럼을 추가했다. 추가한 컬럼은 남녀 성별을 0/1로 구분하는 컬럼, 이름의 길이값을 저장하는 컬럼, 요금을 반올림한 컬럼이다. 우선은 커스텀 함수를 정의하지 않고 기존 함수나 dictionary를 이용하여 컬럼을 추가해보았다. 추가한 컬럼과 생존여부 간 상관분석을 진행했다. 그 뒤 본격적인 분석을 위해 필요한 전처리 과정의 일환인 유도변수 생성에 대해 배웠다. 사..
2022.11.02 -
Day 18 - 데이터 전처리
이번 글에서는 파이썬으로 데이터 분석을 수행하기 이전, raw data를 전처리하는 몇가지 방법들에 대해 정리할 것이다. 우선, 날짜 데이터를 전처리 하는 방법에 대해 설명할 것이다. 날짜 데이터의 경우, 우선 해당 데이터가 문자열 형식인지 timestamp 형식인지 구분하는 작업이 필요하다. 이후 문자열 데이터의 경우에는 데이터 타입을 datetime으로 변경하면 되고, timestamp 타입의 경우 unit을 잘 지정하여 datetime으로 변경하면 된다. 그 다음 소개할 것은 라벨형식과 문자열 형식을 통일하는 전처리인데, 이것은 보통 데이터의 인코딩 작업에 포함된다. 컬럼 네임을 변경할 때, 함부로 빈 리스트를 사용해서 변경할 경우 apply 메서드가 제대로 적용되지 않는 경우가 있으니 주의하자. ..
2022.11.01 -
Day 16/17 - 미니프로젝트(넷플릭스 인기컨텐츠의 장르와 계절간의 관계)
이번 글에서는 이틀동안 진행한 미니프로젝트에 대해 간략하게 정리할 것이다. 이번 미니프로젝트의 핵심은 크롤링을 이용하여 특정 주제에 대한 데이터를 수집하고, 이를 바탕으로 데이터 분석 작업을 수행하는 것이었다. 우리팀은 2020년 9월부터 2020년 8월까지 전세계 넷플릭스 인기 컨텐츠 장르에 대한 자료를 수집하여 과연 계절과 넷플릭스 인기 장르 간의 관련이 있는지, 관련이 있다면 그것은 우리의 통념과 일치하는지 여부를 조사하고자 했다. 원래의 계획은 browserless 크롤링을 통해 flixpatrol에서 특정 기간 동안의 전세계 넷플릭스 인기컨텐츠 목록을 월별로 수집하고, 이 목록을 이용하여 tmdb에서 api크롤링을 이용해 해당 컨텐츠들의 장르를 수집하는 것이었다. 하지만, tmdb에서 api 크..
2022.10.31 -
Day 10 - Numpy
이번 글에서는 파이썬의 라이브러리 중 데이터 분석에 많이 쓰이는 넘파이에 대해 정리할 것이다. 카카오 사태 이후 티스토리에 글 쓰는 방법을 알아서 이 글부터는 다시 바로 블로그에 작성해서 업로드하게 된다. Numpy는 파이썬에서의 데이터 분석에서 함수 및 벡터 연산에 대한 다양한 함수를 제공하며, 배열(array) 형태의 데이터 타입을 통해 보다 빠른 연산을 수행 가능하게 한다. 특히 numpy의 배열에는 다양한 속성들이 있다. 해당 속성들은 데이터의 구조(행, 열, 차원), 차원, 데이터 타입, 데이터 개수(행 * 열 * 차원) 등으로 이루어져 있다. 또한 배열의 데이터 타입을 바꾼다거나, 배열의 데이터 구조를 바꾸는 함수도 존재한다. 리스트를 배열 타입으로 변화한 후, 각 속성들을 직접 알아보았다. ..
2022.10.18