글로 쭉 적으면 이해하기 힘드니 단락으로 나눠서..
문제
· 듣고 있는 팟캐스트 방송이 있는데 전부 다운 받아두고 싶은 생각이 들었음
(보통 사운드 클라우드에 올렸기 때문에 파일명이 일정하지 않음)
해결
· FEED용 xml파일을 Python으로 읽어 들여서 다운 받는 스크립트 만들 생각임
· GIt Hub에서 그럴싸한 소스 검색해서 대충 수정 할 예정
(https://gist.github.com/Schnouki/119928)
· xml의 URL을 알아냈고 그 주소 받았음
대충 받은 소스에 URL 박고 돌리는데 피딩을 못 받음...
뭐가 문젠지 확인해보니 XML파일이 404에러가 나오면서 못 받음
다른 팟캐스트 xml 파일 중 한국어 팟캐스트는 안되는데 외국 xml은 잘 읽혀짐
안되는 xml URL 찾아보니 ssenhosting.com 이라는 서버를 이용한다는 걸 알고 검색해봄
조사 결과
ssenhosting 은 팟빵이라는 국내 팟캐스트앱을 만든 곳에서 제공하는 호스팅 서비스였음
덕분에 전에 팟캐스트 제작자들이 팟빵과 한번 부딛힌 이유를 디테일 하게 알게 됨
(지금은 호스팅 비용 안받는 걸로 처리 되었다고 함)
아무튼 간단하게 이야기 하자면
팟빵에서 국내 팟캐스트 서비스 독점을 위해서
팟빵 이외의 소프트에서 XML을 걷드리면
데이터를 받을 수 없도록(404) 서버 관리가 되어 있음
(외국 유명 팟캐스트 프로그램으로는 가능하게 되었음)
확인해보니 useragent 값으로 구분하도록 되어 있으니
Python 내에서 xml을 받으려면 다른 가짜 useragent로 받도록 해야 함
이런석으로 Podcasts라는 프로그램으로 받고 있다는 식으로 속여야 xml 파일을 받을 수가 있었습니다..
팟빵에서 이렇게 까지 한 거 이해 안되는 건 완전히 이해가 안가는 것도 아니고
내가 같은 상황이면 똑같이 안했을 까는 장담은 못하겠지만
디테일 하게 보니 좀 그렇다는 생각이 듬.. 국내 소프트만 막겠다는 거니...