最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • 爬虫的urllib库怎么使用

    正文概述    2020-06-04   308

    爬虫的urllib库怎么使用

    URL(Uniform Resource Locator)对象代表统一资源定位器,它是指向互联网“资源”的指针。资源可以是简单的文件或目录,也可以是对复杂对象的引用,例如对数据库或搜索引擎的查询。在通常情况下,URL 可以由协议名、主机、端口和资源路径组成,即满足如下格式:

    protocol://host:port/path

    例如如下的 URL 地址:

    http://www.crazyit.org/index.php

    python学习网,大量的免费python学习视频,欢迎在线学习!

    urllib 模块则包含了多个用于处理 URL 的子模块:

    urllib.request:这是最核心的子模块,它包含了打开和读取 URL 的各种函数。
    urllib.error:主要包含由 urllib.request 子模块所引发的各种异常。
    urllib.parse:用于解析 URL。
    urllib.robotparser:主要用于解析 robots.txt 文件。

    通过使用 urllib 模块可以打开任意 URL 所指向的资源,就像打开本地文件一样,这样程序就能完整地下载远程页面。如果再与 re 模块结合使用,那么程序完全可以提取页面中各种信息,这就是所谓的“网络爬虫”的初步原理。

    下面先介绍 urllib.parse 子模块中用于解析 URL 地址和查询字符串的函数:

    urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True):该函数用于解析 URL 字符串。程序返回一个 ParseResult 对象,可以获取解析出来的数据。

    urllib.parse.urlunparse(parts):该函数是上一个函数的反向操作,用于将解析结果反向拼接成 URL 地址。

    urllib.parse.parse_qs(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'):该该函数用于解析查询字符串(application/x-www-form-urlencoded 类型的数据),并以 dict 形式返回解析结果。

    urllib.parse.parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'):该函数用于解析查询字符串(application/x-www-form-urlencoded 类型的数据),并以列表形式返回解析结果。

    urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus):将字典形式或列表形式的请求参数恢复成请求字符串。该函数相当于 parse_qs()、parse_qsl() 的逆函数。

    urllib.parse.urljoin(base, url, allow_fragments=True):该函数用于将一个 base_URL 和另一个资源 URL 连接成代表绝对地址的 URL。

    例如,如下程序使用 urlparse() 函数来解析 URL 字符串:

    from urllib.parse import *
    
    # 解析URL字符串
    result = urlparse('http://www.crazyit.org:80/index.php;yeeku?name=fkit#frag')
    print(result)
    # 通过属性名和索引来获取URL的各部分
    print('scheme:', result.scheme, result[0])
    print('主机和端口:', result.netloc, result[1])
    print('主机:', result.hostname)
    print('端口:', result.port)
    print('资源路径:', result.path, result[2])
    print('参数:', result.params, result[3])
    print('查询字符串:', result.query, result[4])
    print('fragment:', result.fragment, result[5])
    print(result.geturl())

    上面程序中使用 urlparse() 函数解析 URL 字符串,解析结果是一个 ParseResult 对象,该对象实际上是 tuple 的子类。因此,程序既可通过属性名来获取 URL 的各部分,也可通过索引来获取 URL 的各部分。


    起源地下载网 » 爬虫的urllib库怎么使用

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元