最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • 学会这些,轻松搞定爬虫!

    正文概述    2020-01-26   277

    学会这些,轻松搞定爬虫!

    什么是 “爬虫”?

    简单来说,写一个从 web 上获取需要数据并按规定格式存储的程序就叫爬虫;

    爬虫理论上步骤很简单,第一步获取 html 源码,第二步分析 html 并拿到数据。但实际操作,老麻烦了~

    用 Python 写 “爬虫” 有哪些方便的库

    常用网络请求库:requests、urllib、urllib2、

    urllib 和 urllib2 是 Python 自带模块,requests 是第三方库

    常用解析库和爬虫框架:

    BeautifulSoup、lxml、HTMLParser、selenium、Scrapy

    HTMLParser 是 Python 自带模块;

    BeautifulSoup 可以将 html 解析成 Python 语法对象,直接操作对象会非常方便;

    lxml 可以解析 xml 和 html 标签语言,优点是速度快;

    selenium 调用浏览器的 driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码;

    Scrapy 很强大且有名的爬虫框架,可以轻松满足简单网站的爬取;

    爬虫 需要掌握哪些知识

    1)超文本传输协议 HTTP:HTTP 协议定义了浏览器怎样向万维网服务器请求万维网文档,以及服务器怎样把文档传送给浏览器。常用的 HTTP 方法有 GET、POST、PUT、DELETE。

    2)统一资源定位符 URL: URL 是用来表示从因特网上得到的资源位置和访问这些资源的方法。URL 给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。URL 相当于一个文件名在网络范围的扩展。

    3)超文本标记语言 HTTP:HTML 指的是超文本标记语言,是使用标记标签来描述网页的。HTML 文档包含 HTML 标签和纯文本,也称为网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用标签来解释页面的内容。简而言之就是你要懂点前端语言,这样描述更直观贴切。

    4)浏览器调试功能:学爬虫就是抓包,对请求和响应进行分析,用代码来模拟

    进阶爬虫

    熟练了基本爬虫之后,你会想着获取更多的数据,抓取更难的网站,然后你就会发现获取数据并不简单,而且现在反爬机制也非常的多。

    a. 爬取知乎、简书,需要登录并将下次的请求时将 sessions 带上,保持登录姿态;

    b. 爬取亚马逊、京东、天猫等商品信息,由于信息量大、反爬机制完善,需要分布式【这里就难了】爬取,以及不断切换 USER_AGENT 和代理 IP;

    c. 滑动或下拉加载和同一 url 加载不同数据时,涉及 ajax 的异步加载。这里可以有简单的返回 html 代码、或者 json 数据,也可能有更变态的返回 js 代码然后用浏览器执行,逻辑上挺简单、但是写代码那叫一个苦哇;

    d. 还有点是需要面对的,验证码识别。这个有专门解析验证码的平台..... 不属于爬虫范畴了,自己处理需要更多的数据分析知识。

    e. 数据储存,关系数据库和非关系数据库的选择和使用,设计防冗余数据库表格,去重。大量数据存储数据库,会变得很头疼,

    f. 编码解码问题,数据的存储涉及一个格式的问题,python2 或者 3 也都会涉及编码问题。另外网页结构的不规范性,编码格式的不同很容易触发编码异常问题。下图一个简单的转码规则

    一些常见的限制方式

    a.Basic Auth:一般会有用户授权的限制,会在 headers 的 Autheration 字段里要求加入;

    b.Referer:通常是在访问链接时,必须要带上 Referer 字段,服务器会进行验证,例如抓取京东的评论;

    c.User-Agent:会要求真是的设备,如果不加会用编程语言包里自有 User-Agent,可以被辨别出来;

    d.Cookie:一般在用户登录或者某些操作后,服务端会在返回包中包含 Cookie 信息要求浏览器设置 Cookie,没有 Cookie 会很容易被辨别出来是伪造请求;也有本地通过 JS,根据服务端返回的某个信息进行处理生成的加密信息,设置在 Cookie 里面;

    e.Gzip:请求 headers 里面带了 gzip,返回有时候会是 gzip 压缩,需要解压;

    f.JavaScript 加密操作:一般都是在请求的数据包内容里面会包含一些被 javascript 进行加密限制的信息,例如新浪微博会进行 SHA1 和 RSA 加密,之前是两次 SHA1 加密,然后发送的密码和用户名都会被加密;

    g. 网站自定义其他字段:因为 http 的 headers 可以自定义地段,所以第三方可能会加入了一些自定义的字段名称或者字段值,这也是需要注意的。

    真实的请求过程中,其实不止上面某一种限制,可能是几种限制组合在一次,比如如果是类似 RSA 加密的话,可能先请求服务器得到 Cookie,然后再带着 Cookie 去请求服务器拿到公钥,然后再用 js 进行加密,再发送数据到服务器。所以弄清楚这其中的原理,并且耐心分析很重要。

    总结 

    爬虫入门不难,但是需要知识面更广和更多的耐心 

    一句话概括爬虫 —— 爬虫本质就是 cosplay,将爬虫模拟成各种【USER_AGENT】浏览器,甚至还模拟成别人【ip 代理】的浏览器。


    起源地下载网 » 学会这些,轻松搞定爬虫!

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元