크롤링(3)
-
Day 8 - 크롤링(3)
이번 글에서는 우선 알라딘의 원페이지 및 순회 크롤링 실습을 정리하고, browserless 크롤링에 대해 다룰 것이다. 우선 알라딘 사이트에서 베스트셀러 목록의 원페이지 크롤링을 실습한 것이다. div태그로 설정되어 있는 책 한 권마다의 block에서, li태그로 설정되어 있는 것 중 작가 목록만 가져오는 과정이 어려웠다. 다행히 몇 번 오류와 수정을 통해 수행할 수 있었다. 원페이지 크롤링을 토대로 알라딘의 주간 베스트셀러 전체 목록에 대한 순회 크롤링 역시 수행했다. 각 block마다 li태그로 설정되어 있는 순서가 달라서, 작가 목록만 가져오는 과정이 복잡했고, if문으로 일단 해결했지만 다른 효율적인 방법을 찾아봐야겠다는 생각을 했다. 그 이후 requests 라이브러리를 이용한 browserl..
2022.10.14 -
Day 7 - 크롤링 (2)
이번 글에서도 파이썬에서 크롤링을 하는 법을 다룰 것이다. 우선 크롤링을 통해 얻어낸 데이터를 텍스트로 저장하는 법에 이어, 그 텍스트를 csv 파일로 변환하는 방법에 대해 공부했다. csv형식으로 데이터를 읽기 위해 텍스트 파일을 만들 때는, 원 데이터에 쉼표가 존재하는지 확인하고 제거해주어야 한다. csv에서 데이터를 쉼표로 구분하기 때문이다. 또한, 순회 크롤링에 대해 배웠다. 순회 크롤링은 같은 양식의 페이지를 순회하며 데이터를 크롤링하는 것으로, 기본적으로 반복문을 통해 제작한다. 다음은 교보문고 베스트셀러 페이지를 이용해 순회 크롤링을 실습한 것이다. 실습할 때 어려웠거나 새로 알게된 점은 다음과 같다. 소스코드나 파싱된 소스코드를 위한 빈 리스트는 굳이 만들 필요 없다는 점 교보문고 사이트의..
2022.10.13 -
Day 6 - 크롤링
오늘은 파이썬을 이용해 데이터 크롤링을 하는 방법을 배웠다. 이번 글에서는 크롤링을 위한 준비 사항과 기초적인 크롤링에 대해 정리할 것이다. 우선 크롤링을 하기 위해 파이썬에 몇 가지 모듈을 import 해야 한다. 또한 크롤링에 이용할 브라우저의 드라이브를 다운 받아야 하는데, 이번 크롤링은 엣지로 진행했기 때문에 Edge Drive를 다운 받았다. 모듈과 드라이버를 모두 설치 및 import한 뒤, driver 변수를 통해 엣지 브라우저를 제어해보았다. driver변수에 쓰이는 .get(), .find_element() 등에 대해 익숙해지도록 하자. 위에서 배운 내용을 이용하여 네이버 검색창을 이용하여 교보문고 사이트에 접근하는 실습을 했다. 한 편, 웹사이트에 접근할 때는 접근방식을 신중하게 선택해..
2022.10.12