看kindle网站电子书用Python爬取下载

一个下载看kindle(kankindle.com)的所有电子书的python脚本，程序会自动下载首页部分13页的所有电子书，下载到ebook目录下，程序会检测是否下载过。

#!/usr/bin/env python
# coding=utf-8
from bs4 import BeautifulSoup
import urllib2
import socket
import re
import unicodedata
import os
from urwid.text_layout import trim_line
def download(url):
    print 'starting download %s' % url
    response=urllib2.urlopen(url,timeout=30)
    html_data=response.read()
    
    soup=BeautifulSoup(html_data)
    print 'start to analayse---------------'
    
    
    title_soup=soup.find_all(class_='yanshi_xiazai')
    name_soup = soup.find_all('h1')
    tag_a = title_soup[0].a.attrs['href']
    tag_name= title_soup[0].a.contents
    link_name = name_soup[0]
    link_name = str(link_name).replace("<h1>","").replace("</h1>","")
    #print tag_name[0]
    #print link_name
    
    
    filename = link_name+".mobi"
    filename = "ebook/"+filename
    print 'filename is :%s' % filename
    
    print "downloading with urllib2 %s" % tag_a
    if os.path.exists(filename):
        print 'already donwload ,ignore'
    else:
        try:
            f = urllib2.urlopen(tag_a,timeout=60)
            data = f.read()
            #print 'the data is %s'% data
            with open(filename, "wb") as code:
                code.write(data)
        except Exception,e:
            print e
def get_all_link(url):
    print 'Starting get all the list'
    response=urllib2.urlopen(url,timeout=30)
    html_data=response.read()
    #print html_data
    
    soup=BeautifulSoup(html_data)
    link_soup = soup.find_all('a')
    #print link_soup
   
    for each_link in link_soup:
        if re.search('view',str(each_link)):
            #print each_link
            print each_link
            print each_link.attrs['href']
            download(each_link.attrs['href'])
if __name__ == '__main__':
    for page in range(1,13):
        url = "http://kankindle.com/simple/page/3"+str(page)
        url = url.strip()
        print url
        get_all_link(url)

常见问题FAQ

免费下载或者VIP会员专享资源能否直接商用？: 本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考 VIP介绍。

提示下载完但解压或打开不了？: 最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用百度网盘软件或迅雷下载。若排除这种情况，可在对应资源底部留言，或联络我们.。

找不到素材资源介绍文章里的示例图片？: 对于PPT，KEY，Mockups，APP，网页模版等类型的素材，文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买，且本站不负责(也没有办法)找到出处。同样地一些字体文件也是这种情况，但部分素材会在素材包内有一份字体下载链接清单。