最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • 看kindle网站电子书用Python爬取下载

    正文概述    2020-07-25   250

    一个下载看kindle(kankindle.com)的所有电子书的python脚本,程序会自动下载首页部分13页的所有电子书,下载到ebook目录下,程序会检测是否下载过。

     看kindle网站电子书用Python爬取下载

    #!/usr/bin/env python
    # coding=utf-8
    from bs4 import BeautifulSoup
    import urllib2
    import socket
    import re
    import unicodedata
    import os
    from urwid.text_layout import trim_line
    def download(url):
        print 'starting download %s' % url
        response=urllib2.urlopen(url,timeout=30)
        html_data=response.read()
        
        soup=BeautifulSoup(html_data)
        print 'start to analayse---------------'
        
        
        title_soup=soup.find_all(class_='yanshi_xiazai')
        name_soup = soup.find_all('h1')
        tag_a = title_soup[0].a.attrs['href']
        tag_name= title_soup[0].a.contents
        link_name = name_soup[0]
        link_name = str(link_name).replace("<h1>","").replace("</h1>","")
        #print tag_name[0]
        #print link_name
        
        
        filename = link_name+".mobi"
        filename = "ebook/"+filename
        print 'filename is :%s' % filename
        
        print "downloading with urllib2 %s" % tag_a
        if os.path.exists(filename):
            print 'already donwload ,ignore'
        else:
            try:
                f = urllib2.urlopen(tag_a,timeout=60)
                data = f.read()
                #print 'the data is %s'% data
                with open(filename, "wb") as code:
                    code.write(data)
            except Exception,e:
                print e
    def get_all_link(url):
        print 'Starting get all the list'
        response=urllib2.urlopen(url,timeout=30)
        html_data=response.read()
        #print html_data
        
        soup=BeautifulSoup(html_data)
        link_soup = soup.find_all('a')
        #print link_soup
       
        for each_link in link_soup:
            if re.search('view',str(each_link)):
                #print each_link
                print each_link
                print each_link.attrs['href']
                download(each_link.attrs['href'])
    if __name__ == '__main__':
        for page in range(1,13):
            url = "http://kankindle.com/simple/page/3"+str(page)
            url = url.strip()
            print url
            get_all_link(url)

    起源地下载网 » 看kindle网站电子书用Python爬取下载

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元