最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • 怎么用python爬取网页文字?

    正文概述  Ly   2020-12-15   486

    怎么用python爬取网页文字?

    用Python进行爬取网页文字的代码:

    #!/usr/bin/python
    # -*- coding: UTF-8 -*-
    import requests
    import re
    # 下载一个网页
    url = 'https://www.biquge.tw/75_75273/3900155.html'
    # 模拟浏览器发送http请求
    response = requests.get(url)
    # 编码方式
    response.encoding='utf-8'
    # 目标小说主页的网页源码
    html = response.text
    print(html)

    1、编写爬虫思路:

    确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

    2、知识点说明:

    1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

    在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

    对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

    对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

    2)注意编码格式

    输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。


    起源地下载网 » 怎么用python爬取网页文字?

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元