전자책으로 나온 마블 만화책을 수집하고 있습니다.
수집 도중에 왠만한 건 산거 같은데
서점(그래24) 카테고리 관리가 개판이라 카테고리에 없는 책이 있다는 것을 알아챔..
서점에만 의존하기에는 답이 없어 보여서 일단 시공사 홈페이지에서 정보 확인..
https://www.sigongsa.com/comics/bookList.php?catecode=01060300
다행이도 사이트에 정보는 있고
표지랑 ISBN정보를 얻을 수 있기 때문에 크롤링 할 수 있는 소스 작성
환경: 파이썬3, Selenium, SQLite3
그리고 구입한 책의 정보를 알아야 하기 때문에 구입 이력 페이지를 크롤링
https://www.yes24.com/Member/FTMyWebLibrary.aspx
※이번에 안 건데 5년 넘은건 정보가 안나오네요..
책 구입 리스트에서 ISBN등을 캐낸 다음 비교 했는데 책 대부분을 안 샀다고 나옴...
이번에 추가로 안거 전자책이랑 종이책은 ISBN이 다르다...
시공사에 있던 ISBN은 전부 종이책 기준 모으는 건 전자책이니 비교가 안됨...
서점 크롤링을 강화...
기존) 리스트-> 상품페이지(크롤링)
업데이트) 리스트 -> (전자책)상품페이지(크롤링) -(종이책 상품페이지 링크 검색)-> (종이책)상품페이지(크롤링)
※Selenium이 생각보다 무거운 녀석이라(피이썬도 가벼운 놈은 아니라서) 한번에 여러데이터 떙기면 PC가 다운됨...
(리프레쉬 빈도가 좀 필요함)
대충 이런느낌으로 크롤링
아무튼 이번에 확인 한 거
● 그래24 카테고리 관리 개판이다(오늘도 마블 카테고리에 BL물 올라옴)
http://www.yes24.com/24/Category/More/017001038033?ElemNo=92&ElemSeq=1
● 본문에도 적었지만 종이책 전자책 ISBN 번호가 다름
● 마블 책은 종이책이랑 전자책 동시에 안나오고 있음. 꽤 지난건 안나온게 더 많고. 최근건 동시에 내는 듯 함.
만화 이외 설정집은 전자책으로 안낼 모양임.
● 수기로 입력해야 하는 건지 ISBN 정보 틀린 곳이 몇 개 있었음. 시공사 문젠지 YES24문젠지 모르겠지만.
● 역시 데이터는 10줄 넘어가면 DB를 써야함
● SQLite의 Blob 타입에 이미지 잘 들어감