最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • 两招爬取美团评论

    正文概述    2020-09-12   383

    两招爬取美团评论

    店铺评论数据

    在重庆火锅的文章中,我们一共爬取了每个店铺基本信息与对应评价两种数据,那么较为简单的就是评论数据,我们进入一个店铺的详情页,F12查找数据包就能轻松找到对应的评论数据

     两招爬取美团评论

    所以想拿下这一页的评论只要将headers中一些参数加进去使用Requests.get请求即可,注意Cookie是必须要添加的

    两招爬取美团评论

    那么返回的json数据无论直接提取数据还是使用正则查找数据都不是困难的,提取之后使用Pandas保存即可,此处就不在赘述,如果需要爬取多页评论怎么办,先手动加载多页评论发现URL中仅有offset参数变了,每页增加10

    两招爬取美团评论

    所以只要写个简单的循环生成多页URL就能拿下指定页数的评论,OK这仅是一家店铺的评论爬取办法,那怎么获得多家店铺的评论呢?如果我们多找几家店铺的评论数据查看会发现,不同店铺对应的Request URL其实变化的只有店铺的ID

    两招爬取美团评论

    所以下面的问题就转换为如何拿到多家店铺的ID,而这些ID都在搜索页面下的店铺基本数据中。

    店铺基本数据

    为了找到店铺ID,让我们回到搜索页面中(美团首页—美食—火锅)

    两招爬取美团评论

    上面的页面中就是重庆火锅的第一页,还是F12刷新很容易就能找到包含店铺ID、均价等相关信息的数据包

    所以也能轻松的获取Request URL

    两招爬取美团评论

    和上一节取评论的方法一样,修改对应的headers信息再使用requests请求即可,然后将店铺基本信息存下来用于分析,再将ID单独存储用于组合评论页URL

    两招爬取美团评论

    当然这只是第一页的url的返回数据,只要修改其中的page参数就能生成多页URL从而获取多页数据

    两招爬取美团评论

    以为这就结束了?并不是,评论页的URL是不变的但是这里的URL过几分钟就会变一下,也就是说如果你一次性生成10页或更多的URL去循环请求很有可能在中间这个URL就挂掉了,所以你直接在浏览器中打开这个URL提示请求被拒绝,而不是显示对应的json值,就说明URL换了,解决办法只有在URL更换的时候重新手动获取最新的URL并重新组合剩下需要爬取的页面,有点蠢但是因为更换的部分并没啥规律所以好像也没什么更好的办法......

    结束语

    以上就是我如何爬取美团店铺和评论数据的一些说明,看上去也并不难无非就是Requests爬取+Pandas清洗即可,由于变化的URL甚至没法开一个线程取ID另一个线程取评论而显得不太聪明。回顾一下不就是在一级搜索页面通过代码+手动调整取一些店铺的ID和其他基本信息,再去店铺详情页用同样的方法利用刚刚取得的ID来爬取不同店铺的评论数据即可。并没有什么高级操作,所以我不再提供具体爬取与清洗数据的相关代码(事实上也很容易失效)!

    更多python爬虫相关文章请关注python自学网。


    起源地下载网 » 两招爬取美团评论

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元