在爬虫抓取网页数据的时候,会直接利用http模块来模拟浏览器访问URL。在Python3中对Http模块被封装到http.client中了。
在http.client中有2个主要的类:HttpConnection和HttpsConnection。
HttpConnection主要处理Http协议的URL,HttpsConnection用来处理Https协议的URL。由于Https采用SSL对数据进行加密,我们在与服务器建立连接时,需要制定我么的SSL协议,来获取服务器的公开密钥。简单代码如下:
from http.client import HTTPSConnection import ssl myhost ="yourserver" ctx = ssl.SSLContext(ssl.PROTOCOL_SSLv23) #建立连接,获取服务器的公开密钥 conn = HTTPSConnection(host=myhost, context=ctx) #通过Http协议访问,我们需要访问的Https,并得到返回的代码 #根据需要可以模拟https请求的header,cookie等 conn.request(method='GET', url='https://yourserver') res = conn.getresponse() print(res.read().decode('utf-8'))
python学习网,免费的在线学习python平台,欢迎关注!
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 提示下载完但解压或打开不了?
- 找不到素材资源介绍文章里的示例图片?
- 模板不会安装或需要功能定制以及二次开发?
发表评论
还没有评论,快来抢沙发吧!