最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • selenium如何解决python爬虫乱码问题?

    正文概述    2020-09-03   469


    selenium如何解决python爬虫乱码问题?

    平时没事的时候,很多人喜欢把自己的生活或者工作心得分享到博客上,也是互相交流的一种方法。不过想大量的看一些博客,在获取的时候就容易出现乱码的问题,相信这点很多小伙伴们都遇到了。今天小编就带来selenium的方法帮助大家解决python爬虫乱码问题。


    在用requests库对博客进行爬取时,发现乱码报错,如下图所示:

    selenium如何解决python爬虫乱码问题? 

    网上查找了一些方法,以为是遇到了网站加密处理。后来发现 通过F12还 是能获取网页的元素,那么有什么办法能规避乱码问题呢?答案是:用selenium.

     

    效果如下

    selenium如何解决python爬虫乱码问题? 

    代码

    # coding=utf-8
    # @Auther : "鹏哥贼优秀"
    # @Date : 2019/10/16
    # @Software : PyCharm
     
    from selenium import webdriver
     
    url = 'https://blog.csdn.net/yuzipeng'
    driver = webdriver.Chrome("F:\\Python成长之路\\chromedriver.exe")
    driver.get(url)
    urls = driver.find_elements_by_xpath('//div[@class="article-item-box csdn-tracking-statistics"]')
    blogurl = ['https://blog.csdn.net/yuzipeng/article/details/' + url.get_attribute('data-articleid') for url in urls]
    titles = driver.find_elements_by_xpath('//div[@class="article-item-box csdn-tracking-statistics"]/h4/a')
    blogtitle = [title.text for title in titles]
    myblog = {k:v for k,v in zip(blogtitle,blogurl)}
    for k,v in myblog.items():
        print(k,v)
    driver.close()


    在python爬虫中有不少的方法可以解决乱码问题,小伙伴们跟selenium比比,到底哪个好用呢?更多Python学习推荐:
    起源地模板网教学中心


    起源地下载网 » selenium如何解决python爬虫乱码问题?

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元