전체 글(64)
-
Day 7 - 크롤링 (2)
이번 글에서도 파이썬에서 크롤링을 하는 법을 다룰 것이다. 우선 크롤링을 통해 얻어낸 데이터를 텍스트로 저장하는 법에 이어, 그 텍스트를 csv 파일로 변환하는 방법에 대해 공부했다. csv형식으로 데이터를 읽기 위해 텍스트 파일을 만들 때는, 원 데이터에 쉼표가 존재하는지 확인하고 제거해주어야 한다. csv에서 데이터를 쉼표로 구분하기 때문이다. 또한, 순회 크롤링에 대해 배웠다. 순회 크롤링은 같은 양식의 페이지를 순회하며 데이터를 크롤링하는 것으로, 기본적으로 반복문을 통해 제작한다. 다음은 교보문고 베스트셀러 페이지를 이용해 순회 크롤링을 실습한 것이다. 실습할 때 어려웠거나 새로 알게된 점은 다음과 같다. 소스코드나 파싱된 소스코드를 위한 빈 리스트는 굳이 만들 필요 없다는 점 교보문고 사이트의..
2022.10.13 -
Day 6 - codecs 라이브러리
이번 글에서는 파이썬의 codecs 라이브러리에 대해 정리할 것이다. 크롤링에 묶어서 정리하는건 뭔가 아닌거 같아서 따로 정리해 보았다. codecs 라이브러리 내부의 각종 함수들을 실습했다. 함수들을 외워야 하고, read(), readline(), readlines()는 셋 중에 하나만 실행할 수 있다는 사실을 유념하자.
2022.10.12 -
Day 6 - 크롤링
오늘은 파이썬을 이용해 데이터 크롤링을 하는 방법을 배웠다. 이번 글에서는 크롤링을 위한 준비 사항과 기초적인 크롤링에 대해 정리할 것이다. 우선 크롤링을 하기 위해 파이썬에 몇 가지 모듈을 import 해야 한다. 또한 크롤링에 이용할 브라우저의 드라이브를 다운 받아야 하는데, 이번 크롤링은 엣지로 진행했기 때문에 Edge Drive를 다운 받았다. 모듈과 드라이버를 모두 설치 및 import한 뒤, driver 변수를 통해 엣지 브라우저를 제어해보았다. driver변수에 쓰이는 .get(), .find_element() 등에 대해 익숙해지도록 하자. 위에서 배운 내용을 이용하여 네이버 검색창을 이용하여 교보문고 사이트에 접근하는 실습을 했다. 한 편, 웹사이트에 접근할 때는 접근방식을 신중하게 선택해..
2022.10.12 -
Day 5 - 파이썬의 함수 (2)
지난글에 이어 이번 글에서는 파이썬의 함수에 대해서 계속 다룰 것이다. 우선 매개변수가 있는 함수에 대해 다룰텐데, 사실 매개변수가 있는 함수라는건 지금까지 정리했던 함수들을, 특히 불완전한 실행문과 같지만, 추가할 내용이 있기 때문에 따로 정리하였다. 매개변수가 있는 함수의 경우 기본적으로 많은 양의 매개변수를 할당할 수 있다. 또한 매개변수의 기본값을 사용자가 미리 지정하여 함수를 정의할 수 있다. 이 경우 함수를 호출할 때 아무 값도 입력하지 않으면 디폴트값이 적용된 결과값이 반환된다. 여기서 주의해야 할 점은, 함수에 특정 값을 입력할 때 왼쪽의 매개변수부터 입력되기 때문에 디폴트값을 설정할 때는 반드시 오른쪽 매개변수부터 설정해야 한다는 것이다. 한 편 가변인자에 관해서도 배웠는데, 가변인자란 ..
2022.10.11 -
Day 5 - 파이썬의 함수
이번 글에서는 파이썬의 함수에 대해 정리해 볼 것이다. 함수는 다른 문법에 비해 어렵고 또 조건 설정이 까다롭기 때문에 집중해서 공부하는 것이 좋다. 파이썬에서 함수란, 반복적으로 사용하는 코드들을 묶어서 특정 변수에 할당하는 것을 의미한다. 기본적인 함수의 종류로는 완전한 실행문과 불완전한 실행문이 있다. 완전한 실행문과 불완전한 실행문이 정확히 어떤 것인지 이해하고, 특히 불완전한 실행문의 경우 변수를 입력해야 함수가 실행된다는 점을 잘 기억하자. 함수의 경우 메모리에서 실행되는 방법도 기억해 둘 필요가 있다. 이에 대해 공부할 때는 다음과 같은 사항을 특히 주의할 필요가 있다. 함수의 정의는 힙에 저장되고, 변수를 입력해서 실행할 때는 스택에서 구동된다는 점 코드 실행이 완료되면 스택에 할당된 함수..
2022.10.11 -
Day 5 - 파이썬 제어문 연습문제 풀이
변수를 지정하는데 있어 어려움을 겪었다. score는 리스트이기 때문에 정수와 크기 비교나 연산이 불가능한데 깊게 생각하지 않고 if score >= 50이나 total = score + i라고 적어서 에러가 생겼다. 마지막에는 오류를 수정해서 잘 풀긴 했다.
2022.10.11