Day 7 - 크롤링 (2)

2022. 10. 13. 16:55Python

이번 글에서도 파이썬에서 크롤링을 하는 법을 다룰 것이다.

우선 크롤링을 통해 얻어낸 데이터를 텍스트로 저장하는 법에 이어, 그 텍스트를 csv 파일로 변환하는 방법에 대해 공부했다.

위 내용의 실습이다.

csv형식으로 데이터를 읽기 위해 텍스트 파일을 만들 때는, 원 데이터에 쉼표가 존재하는지 확인하고 제거해주어야 한다. csv에서 데이터를 쉼표로 구분하기 때문이다.

 

또한, 순회 크롤링에 대해 배웠다. 순회 크롤링은 같은 양식의 페이지를 순회하며 데이터를 크롤링하는 것으로, 기본적으로 반복문을 통해 제작한다.

순회 크롤러에 대한 설명이다.

 

다음은 교보문고 베스트셀러 페이지를 이용해 순회 크롤링을 실습한 것이다.

실습해보았다.

실습할 때 어려웠거나 새로 알게된 점은 다음과 같다.

  • 소스코드나 파싱된 소스코드를 위한 빈 리스트는 굳이 만들 필요 없다는 점
  • 교보문고 사이트의 경우 span class_="val"을 통해 가격을 찾을 시 마지막에 0이 하나 더 있어서 21개씩 나온다는 점. for문을 통해 price리스트에 remove를 돌려서 해결했다. (혹은 span class_="price"로 찾으면 된다. 이걸 사이트에서 못 찾아서 remove를 사용했다.)
  • 제목, 가격, 저자가 각각 모두 들어갈 리스트 하나씩은 for문 이전에 만들어야 한다는 점

 

그 이후 위에서 크롤링 후 정제한 데이터들을 텍스트 파일에 이후 csv 파일로 변환 가능하도록 입력해 보았다.

텍스트파일로 내보내는 코드이다.

csv로 변환해도 잘 적용됐다.

'Python' 카테고리의 다른 글

Day 8 - 파이썬의 클래스  (0) 2022.10.14
Day 8 - 크롤링(3)  (0) 2022.10.14
Day 6 - codecs 라이브러리  (0) 2022.10.12
Day 6 - 크롤링  (0) 2022.10.12
Day 5 - 파이썬의 함수 (2)  (0) 2022.10.11