이상한 MYPI

이상한
접속 : 7172   Lv. 115

Category

Profile

Counter

  • 오늘 : 447 명
  • 전체 : 8449020 명
  • Mypi Ver. 0.3.1 β
[공부 - PG] 최근 데이터 정리 하면서 짠거.. (0) 2022/01/03 PM 08:38

전자책으로 나온 마블 만화책을 수집하고 있습니다.


수집 도중에 왠만한 건 산거 같은데


서점(그래24) 카테고리 관리가 개판이라 카테고리에 없는 책이 있다는 것을 알아챔..


서점에만 의존하기에는 답이 없어 보여서 일단 시공사 홈페이지에서 정보 확인..



https://www.sigongsa.com/comics/bookList.php?catecode=01060300


img/22/01/03/17e1f9d8c33224d0.jpg



다행이도 사이트에 정보는 있고


표지랑 ISBN정보를 얻을 수 있기 때문에 크롤링 할 수 있는 소스 작성


img/22/01/03/17e1f9de8bd224d0.jpg

환경: 파이썬3, Selenium, SQLite3




그리고 구입한 책의 정보를 알아야 하기 때문에 구입 이력 페이지를 크롤링


https://www.yes24.com/Member/FTMyWebLibrary.aspx


img/22/01/03/17e1fa2528e224d0.jpg

※이번에 안 건데 5년 넘은건 정보가 안나오네요..


책 구입 리스트에서 ISBN등을 캐낸 다음 비교 했는데 책 대부분을 안 샀다고 나옴...


이번에 추가로 안거 전자책이랑 종이책은 ISBN이 다르다...


시공사에 있던 ISBN은 전부 종이책 기준 모으는 건 전자책이니 비교가 안됨...


서점 크롤링을 강화...


기존) 리스트-> 상품페이지(크롤링)


업데이트) 리스트 -> (전자책)상품페이지(크롤링) -(종이책 상품페이지 링크 검색)-> (종이책)상품페이지(크롤링)


※Selenium이 생각보다 무거운 녀석이라(피이썬도 가벼운 놈은 아니라서) 한번에 여러데이터 떙기면 PC가 다운됨...

(리프레쉬 빈도가 좀 필요함)


대충 이런느낌으로 크롤링


img/22/01/03/17e1fae6a6c224d0.jpg




아무튼 이번에 확인 한 거


● 그래24 카테고리 관리 개판이다(오늘도 마블 카테고리에 BL물 올라옴)

http://www.yes24.com/24/Category/More/017001038033?ElemNo=92&ElemSeq=1


img/22/01/03/17e1fb9703a224d0.jpg



● 본문에도 적었지만 종이책 전자책 ISBN 번호가 다름


● 마블 책은 종이책이랑 전자책 동시에 안나오고 있음. 꽤 지난건 안나온게 더 많고. 최근건 동시에 내는 듯 함.

 만화 이외 설정집은 전자책으로 안낼 모양임.


● 수기로 입력해야 하는 건지 ISBN 정보 틀린 곳이 몇 개 있었음. 시공사 문젠지 YES24문젠지 모르겠지만.


● 역시 데이터는 10줄 넘어가면 DB를 써야함


● SQLite의 Blob 타입에 이미지 잘 들어감

신고

 
X