Python(58)
-
Day 16 - api 크롤링
이번 글에서는 파이썬으로 api 크롤링을 수행하는 방법에 대해서 간단하게 정리할 것이다. api란 두 애플리케이션 간의 호환성을 보장하는 일종의 연결 혹은 원칙을 뜻하며, 크롤링에서 서비스 제공자가 api를 제공한다는 것은 사용자에게 사용자가 필요한 데이터, 또는 인가된 데이터만을 제공한다는 것을 뜻한다. api 크롤링과 수행 방법에 대한 설명만으로는 쉽게 이해가 되지 않아, 영진위 사이트에서 api 크롤링을 실습해보았다.
2022.10.31 -
Day 15 - try ~ except 구문
이번 글에서는 수행 도중 예외나 에러가 발생했을 때, 조건문 이외에 그 예외를 무시할 수 있는 방법인 try ~ except 구문에 대해 짧게 정리할 것이다. 예외사항에 대해 일일히 조건을 지정해야하는 조건문보다 더 쓰기 편할 것 같으니 잘 기억해두도록 하자.
2022.10.25 -
Day 15 - 데이터 시각화
이번 글에서는 matplotlib 라이브러리를 이용하여 파이썬에서 데이터를 시각화하는 방법에 대해 정리할 것이다. 그래프 모양 자체는 seaborn 라이브러리 쪽이 더 취향이지만, 배운 것은 matplotlib이고 아무래도 그래프 내 수치를 상세하게 지정하는데 있어 matplotlib이 좀 더 편리하기도 하다. 이것도 seaborn 라이브러리에 익숙해지면 아무래도 괜찮다지만. 해당 라이브러리를 이용해 라인 그래프, 막대 그래프, 히스토그램, 산점도 등의 다양한 그래프를 그릴 수 있고, 그래프의 디자인도 사용자가 원하는대로 조절할 수 있다. 다음은 몇가지 실습이다.
2022.10.25 -
Day 15 - 데이터 전처리 및 기초 데이터 통계 실습
이번 글에서는 캡쳐를 통해 데이터 전처리 및 기초 데이터 통계 실습을 정리할 것이다. Dataset은 2013년부터 2015년까지 NC Dinos 타자들의 성적을 입력한 것이다.
2022.10.25 -
Day 14/15 - Pandas (3)
이번 글에서는 Pandas 라이브러리로 만든 DataFrame의 계층색인, 정렬, 병합, 집계, 통계에 대해 다룰 것이다. 계층색인이란, 인덱스에 계층이 있는 것을 의미한다. 이를 DataFrame에서 예시로 들면, "서울"이라는 상위계층 컬럼에 "2021년"과 "2022년"의 하위계층 컬럼들이 속하는 것이 된다. 주의해야 할 점을 실습 캡쳐를 통해 정리해보면, 위와 같은 것들이 주의해야 할 점이 되겠다. 다음 정리할 것은 DataFrame과 Series의 정렬이다. 정렬의 경우 실제 데이터 전처리에서 많이 쓰이기 때문에 제대로 공부해서 이해하는 것이 중요하다. 특히, 일반적인 sort()를 쓰는게 아니라 인덱스와 데이터를 각각 sort_index()와 sort_values()로 따로 정렬하는 메서드가 ..
2022.10.24 -
Day 13/14 - Pandas (2)
이번 글에서는 Series와 더불어 Pandas의 대표적인 자료형인 DataFrame에 대해 다룰 것이다. DataFrame은 엑셀이나 csv 자료형과 유사해서 이 둘을 생각하면 이해가 빠를 것이다. 다음은 DataFrame 생성 실습 중 헷갈리기 쉽거나 외워야 하는 부분만 캡쳐한 것이다. DataFrame의 속성을 알아보는데는 여러 메서드가 존재한다. 다만, Series와 마찬가지로 속성을 알아보는 함수에는 소괄호를 붙이지 않는다. 한 편 실습 중 위 사진의 메서드에 없는 것도 함께 실습했다. 또한 대부분의 데이터형들과 마찬가지로, DataFrame 역시 인덱싱과 슬라이싱이 가능하다. 방식은 Series 인덱싱 및 슬라이싱과 비슷하지만, DataFrame 인덱싱은 더 다양한 메서드를 갖추고 있다. 인덱..
2022.10.21