最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • Python2爬虫入门之如何学习爬虫

    正文概述    2020-09-04   390

    Python2爬虫入门之如何学习爬虫

    首先爬虫是什么?

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

    根据我的经验,要学习Python爬虫,我们要学习的共有以下几点:

        ·Python基础知识

        ·Python中urllib和urllib2库的用法

        ·Python正则表达式

        ·Python爬虫框架Scrapy

        ·Python爬虫更高级的功能

    1.Python基础学习

    首先,我们要用Python写爬虫,肯定要了解Python的基础吧,万丈高楼平地起,不能忘啦那地基,哈哈,那么我就分享一下自己曾经看过的一些Python教程,小伙伴们可以作为参考。

    1) Python学习网

    Python学习网上有大量免费的Python入门教程,以便大家学习。不仅有视频教程,还有相应的问答版块,帮你解决学习过程中的问题,效果还是蛮不错的,内容基本上都是最基础的,入门开始的话,就这个吧

    学习网址:Python学习网(https://www.py.cn/)

    2) 廖雪峰Python教程

    后来,我发现了廖老师的Python教程,讲的那是非常通俗易懂哪,感觉也是非常不错,大家如果想进一步了解Python就看一下这个吧。

    学习网址:廖雪峰Python教程(https://www.liaoxuefeng.com/wiki/897692888725344)

    3) 简明Python教程

    还有一个我看过的,简明Python教程,感觉讲的也不错

    学习网址:简明Python教程(https://woodpecker.org.cn/abyteofpython_cn/chinese/pr01.html#s01)

    4) 汪海的实验室

    这是我的本科实验室学长,入门的时候参考的他的文章,自己重新做了总结,后来这些系列文章又在他的基础上增加了一些内容。

    学习网址:汪海的实验室(https://blog.csdn.net/wxg694175346/category_1418998_1.html)

    2.Python urllib和urllib2 库的用法

    urllib和urllib2库是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。这个在学习过程中我会和大家分享的。

    3.Python 正则表达式

    Python正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。这个在后面的博文会分享的。

    4.爬虫框架Scrapy

    如果你是一个Python高手,基本的爬虫知识都已经掌握了,那么就寻觅一下Python框架吧,我选择的框架是Scrapy框架。这个框架有什么强大的功能呢?下面是它的官方介绍:

    HTML, XML源数据 选择及提取 的内置支持
    提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders),对智能处理爬取数据提供了内置支持。
    通过 feed导出 提供了多格式(JSON、CSV、XML),多存储后端(FTP、S3、本地文件系统)的内置支持
    提供了media pipeline,可以 自动下载 爬取到的数据中的图片(或者其他资源)。
    高扩展性。您可以通过使用 signals ,设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
    内置的中间件及扩展为下列功能提供了支持:
    cookies and session 处理
    HTTP 压缩
    HTTP 认证
    HTTP 缓存
    user-agent模拟
    robots.txt
    爬取深度限制
    针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
    支持根据模板生成爬虫。在加速爬虫创建的同时,保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
    针对多爬虫下性能评估、失败检测,提供了可扩展的 状态收集工具 。
    提供 交互式shell终端 , 为您测试XPath表达式,编写和调试爬虫提供了极大的方便
    提供 System service, 简化在生产环境的部署及运行
    内置 Web service, 使您可以监视及控制您的机器
    内置 Telnet终端 ,通过在Scrapy进程中钩入Python终端,使您可以查看并且调试爬虫
    Logging 为您在爬取过程中捕捉错误提供了方便
    支持 Sitemaps 爬取
    具有缓存的DNS解析器

    官方文档:http://doc.scrapy.org/en/latest/

    等我们掌握了基础的知识,再用这个 Scrapy 框架吧!

    扯了这么多,好像没多少有用的东西额,那就不扯啦!

    下面开始我们正式进入爬虫之旅吧!

    python学习网,免费的在线学习python平台,欢迎关注!

    本文转自:https://cuiqingcai.com/927.html


    起源地下载网 » Python2爬虫入门之如何学习爬虫

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元