最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • python爬虫获取知乎内容失败是什么原因?

    正文概述    2020-10-09   102

    python爬虫获取知乎内容失败是什么原因?

    上篇文章发布后收到了一个小伙伴的提问,表达的大致意思是模拟登陆方面已经成功了,不过在采集数据的第一步就遇到了难题,但是不知道是哪里出了错误,所以想和小编探讨一下。经过一番对比和试验分析总算解决了问题,当然小编还是把这个问题整理成文章,让有需要的小伙伴也可以学习,没有遇到的也可以看下出错的原因。


    问题:已经进行模拟登入后,在获取首页信息时还是获取到了注册登入页面的,是根本没有登入上还是什么情况?

     

    解决:

    关于取不到内容的原因,应该就是登录需要验证码的问题。

    代码:

    _Zhihu_URL = 'http://www.zhihu.com'
    _Login_URL = _Zhihu_URL + '/login'
    _Captcha_URL_Prefix = _Zhihu_URL + '/captcha.gif?r='
    _Cookies_File_Name = 'cookies.json'
     
    _session = None
    _header = {'X-Requested-With': 'XMLHttpRequest',
               'Referer': 'http://www.zhihu.com',
               'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; '
                             'Trident/7.0; Touch; LCJB; rv:11.0)'
                             ' like Gecko',
               'Host': 'www.zhihu.com'}
     
    def get_captcha_url():
        """获取验证码网址
     
        :return: 验证码网址
        :rtype: str
        """
        return _Captcha_URL_Prefix + str(int(time.time() * 1000))
     
    def _save_captcha(url):
        global _session
        r = _session.get(url)
        with open('code.gif', 'wb') as f:
            f.write(r.content)
     
    def login(email='', password='', captcha='', savecookies=True):
        """不使用cookies.json,手动登陆知乎
     
        :param str email: 邮箱
        :param str password: 密码
        :param str captcha: 验证码
        :param bool savecookies: 是否要储存cookies文件
        :return: 一个二元素元祖 , 第一个元素代表是否成功(0表示成功),
            如果未成功则第二个元素表示失败原因
        :rtype: (int, dict)
        """
        global _session
        global _header
        data = {'email': email, 'password': password,
                'rememberme': 'y', 'captcha': captcha}
        r = _session.post(_Login_URL, data=data)
        j = r.json()
        c = int(j['r'])
        m = j['msg']
        if c == 0 and savecookies is True:
            with open(_Cookies_File_Name, 'w') as f:
                json.dump(_session.cookies.get_dict(), f)
        return c, m
     
    def create_cookies():
        """创建cookies文件, 请跟随提示操作
     
        :return: None
        :rtype: None
        """
        if os.path.isfile(_Cookies_File_Name) is False:
            email = input('email: ')
            password = input('password: ')
            url = get_captcha_url()
            _save_captcha(url)
            print('please check code.gif for captcha')
            captcha = input('captcha: ')
            code, msg = login(email, password, captcha)
     
            if code == 0:
                print('cookies file created!')
            else:
                print(msg)
            os.remove('code.gif')
        else:
            print('Please delete [' + _Cookies_File_Name + '] first.')
     
    def _init():
        global _session
        if _session is None:
            _session = requests.session()
            _session.headers.update(_header)
            if os.path.isfile(_Cookies_File_Name):
                with open(_Cookies_File_Name, 'r') as f:
                    cookies_dict = json.load(f)
                    _session.cookies.update(cookies_dict)
            else:
                print('no cookies file, this may make something wrong.')
                print('if you will run create_cookies or login next, '
                      'please ignore me.')
                _session.post(_Login_URL, data={})
        else:
            raise Exception('call init func two times')
     
    _init()

    看完文章小伙伴们会发现,出错的点很小,但是想要解决就需要大段的代码去支持。可见在python知识的拓展方面,我们还有更多的实践操作需要去测试。更多Python学习推荐:起源地模板网教学中心


    起源地 » python爬虫获取知乎内容失败是什么原因?

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元