Day 8 - 크롤링(3)

2022. 10. 14. 17:13Python

이번 글에서는 우선 알라딘의 원페이지 및 순회 크롤링 실습을 정리하고, browserless 크롤링에 대해 다룰 것이다.

우선 알라딘 사이트에서 베스트셀러 목록의 원페이지 크롤링을 실습한 것이다.

알라딘 원페이지 크롤링을 해보았다.

div태그로 설정되어 있는 책 한 권마다의 block에서, li태그로 설정되어 있는 것 중 작가 목록만 가져오는 과정이 어려웠다. 다행히 몇 번 오류와 수정을 통해 수행할 수 있었다.

 

원페이지 크롤링을 토대로 알라딘의 주간 베스트셀러 전체 목록에 대한 순회 크롤링 역시 수행했다.

알라딘 순회 크롤링을 실습해보았다.

각 block마다 li태그로 설정되어 있는 순서가 달라서, 작가 목록만 가져오는 과정이 복잡했고, if문으로 일단 해결했지만 다른 효율적인 방법을 찾아봐야겠다는 생각을 했다.

 

그 이후 requests 라이브러리를 이용한 browserless 크롤링에 대해 공부했다.

requests에 대한 설명과 실습이다.

하는 일 자체는 selenium과 큰 차이는 없다. 다만 requests의 경우 비동기화 사이트에서 순회 크롤링을 수행할 수 없다.

 

requests를 이용한 알라딘 크롤링을 실습했다.

실습이다.

사실 데이터 크롤링에 있어 더 중요한 부분은 BeautifulSoup를 이용한 파싱 및 데이터 추출과 정제 작업이라고 생각한다.

'Python' 카테고리의 다른 글

Day 9 - 파이썬의 클래스 (2)  (0) 2022.10.18
Day 8 - 파이썬의 클래스  (0) 2022.10.14
Day 7 - 크롤링 (2)  (0) 2022.10.13
Day 6 - codecs 라이브러리  (0) 2022.10.12
Day 6 - 크롤링  (0) 2022.10.12