最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • 网络爬虫是什么,Scrapy又是什么?

    正文概述    2020-08-24   426

    网络爬虫是什么,Scrapy又是什么?

    网络爬虫

    是指程序可以自动获取多个页面中的所有信息。如果使用某种技术(如正则表达式、XPath 等)来提取页面中所有的链接(<a.../> 元素),然后顺着这些链接递归打开对应的页面,最后提取页面中的信息,这就是网络爬虫。

    我们来分析网络爬虫具体要做哪些核心工作:

    通过网络向指定的 URL 发送请求,获取服务器响应内容。

    使用某种技术(如正则表达式、XPath 等)提取页面中我们感兴趣的信息。

    高效地识别响应页面中的链接信息,顺着这些链接递归执行此处介绍的第 1、2、3 步;使用多线程有效地管理网络通信交互。

    如果直接使用 Python 内置的 urllib 和 re 模块是否能写出自己的网络爬虫呢?答案是肯定的,只是比较复杂。就像我们要从广州去韶关,走路可以去吗?答案是肯定的,只是比较麻烦。

    下面继续分析网络爬虫的核心工作:

    向 URL 发送请求,获取服务器响应内容。这个核心工作其实是所有网络爬虫都需要做的通用工作。一般来说,通用工作应该由爬虫框架来实现,这样可以提供更稳定的性能,开发效率更高。

    提取页面中我们感兴趣的信息。这个核心工作不是通用的!每个项目感兴趣的信息都可能有所不同,但使用正则表达式提取信息是非常低效的,原因是正则表达式的设计初衷主要是处理文本信息,而 HTML 文档不仅是文本文档,而且是结构化文档,因此使用正则表达式来处理 HTML 文档并不合适。使用 XPath 提取信息的效率要高得多。

    识别响应页面中的链接信息。使用正则表达式可以实现这个核心工作,但是效率太低,使用 XPath 会更高效。

    多线程管理:这个核心工作是通用的,应该由框架来完成。

    现在来回答上面提出的问题,本章有存在的意义吗?当然有,本章并不介绍使用 urllib、re 模块这种简陋的工具来实现正则表达式,而是通过专业的爬虫框架 Scrapy 来实现爬虫。

    Scrapy 是一个专业的、高效的爬虫框架,它使用专业的 Twisted 包(基于事件驱动的网络引擎包)高效地处理网络通信,使用 lxml(专业的 XML 处理包)、cssselect 高效地提取 HTML 页面的有效信息,同时它也提供了有效的线程管理。

    一言以蔽之,上面列出的网络爬虫的核心工作,Scrapy 全部提供了实现,开发者只要使用 XPath 或 css 选择器定义自己感兴趣的信息即可。


    起源地下载网 » 网络爬虫是什么,Scrapy又是什么?

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元