上篇文章发布后收到了一个小伙伴的提问,表达的大致意思是模拟登陆方面已经成功了,不过在采集数据的第一步就遇到了难题,但是不知道是哪里出了错误,所以想和小编探讨一下。经过一番对比和试验分析总算解决了问题,当然小编还是把这个问题整理成文章,让有需要的小伙伴也可以学习,没有遇到的也可以看下出错的原因。
问题:已经进行模拟登入后,在获取首页信息时还是获取到了注册登入页面的,是根本没有登入上还是什么情况?
解决:
关于取不到内容的原因,应该就是登录需要验证码的问题。
代码:
_Zhihu_URL = 'http://www.zhihu.com' _Login_URL = _Zhihu_URL + '/login' _Captcha_URL_Prefix = _Zhihu_URL + '/captcha.gif?r=' _Cookies_File_Name = 'cookies.json' _session = None _header = {'X-Requested-With': 'XMLHttpRequest', 'Referer': 'http://www.zhihu.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; ' 'Trident/7.0; Touch; LCJB; rv:11.0)' ' like Gecko', 'Host': 'www.zhihu.com'} def get_captcha_url(): """获取验证码网址 :return: 验证码网址 :rtype: str """ return _Captcha_URL_Prefix + str(int(time.time() * 1000)) def _save_captcha(url): global _session r = _session.get(url) with open('code.gif', 'wb') as f: f.write(r.content) def login(email='', password='', captcha='', savecookies=True): """不使用cookies.json,手动登陆知乎 :param str email: 邮箱 :param str password: 密码 :param str captcha: 验证码 :param bool savecookies: 是否要储存cookies文件 :return: 一个二元素元祖 , 第一个元素代表是否成功(0表示成功), 如果未成功则第二个元素表示失败原因 :rtype: (int, dict) """ global _session global _header data = {'email': email, 'password': password, 'rememberme': 'y', 'captcha': captcha} r = _session.post(_Login_URL, data=data) j = r.json() c = int(j['r']) m = j['msg'] if c == 0 and savecookies is True: with open(_Cookies_File_Name, 'w') as f: json.dump(_session.cookies.get_dict(), f) return c, m def create_cookies(): """创建cookies文件, 请跟随提示操作 :return: None :rtype: None """ if os.path.isfile(_Cookies_File_Name) is False: email = input('email: ') password = input('password: ') url = get_captcha_url() _save_captcha(url) print('please check code.gif for captcha') captcha = input('captcha: ') code, msg = login(email, password, captcha) if code == 0: print('cookies file created!') else: print(msg) os.remove('code.gif') else: print('Please delete [' + _Cookies_File_Name + '] first.') def _init(): global _session if _session is None: _session = requests.session() _session.headers.update(_header) if os.path.isfile(_Cookies_File_Name): with open(_Cookies_File_Name, 'r') as f: cookies_dict = json.load(f) _session.cookies.update(cookies_dict) else: print('no cookies file, this may make something wrong.') print('if you will run create_cookies or login next, ' 'please ignore me.') _session.post(_Login_URL, data={}) else: raise Exception('call init func two times') _init()
看完文章小伙伴们会发现,出错的点很小,但是想要解决就需要大段的代码去支持。可见在python知识的拓展方面,我们还有更多的实践操作需要去测试。更多Python学习推荐:起源地模板网教学中心。
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 提示下载完但解压或打开不了?
- 找不到素材资源介绍文章里的示例图片?
- 模板不会安装或需要功能定制以及二次开发?
发表评论
还没有评论,快来抢沙发吧!