最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • Python3爬虫进阶:Redis存储(非关系型数据库)

    正文概述    2020-07-29   445

    Python3爬虫进阶:Redis存储(非关系型数据库)

    Redis是一个基于内存的高效的键值型非关系型数据库,存取效率极高,而且支持多种存储数据结构,使用也非常简单。本节中,我们就来介绍一下Python的Redis操作,主要介绍RedisPy这个库的用法。

    1. 准备工作

    在开始之前,请确保已经安装好了Redis及RedisPy库。如果要做数据导入/导出操作的话,还需要安装RedisDump。如果没有安装,可以参考第1章。

    2. Redis和StrictRedis

    RedisPy库提供两个类Redis和StrictRedis来实现Redis的命令操作。

    StrictRedis实现了绝大部分官方的命令,参数也一一对应,比如set()方法就对应Redis命令的set方法。而Redis是StrictRedis的子类,它的主要功能是用于向后兼容旧版本库里的几个方法。为了做兼容,它将方法做了改写,比如lrem()方法就将value和num参数的位置互换,这和Redis命令行的命令参数不一致。

    官方推荐使用StrictRedis,所以本节中我们也用StrictRedis类的相关方法作演示。

    3. 连接Redis

    现在我们已经在本地安装了Redis并运行在6379端口,密码设置为foobared。那么,可以用如下示例连接Redis并测试:

    from redis import StrictRedis
    redis = StrictRedis(host='localhost', port=6379, db=0, password='foobared')
    redis.set('name', 'Bob')
    print(redis.get('name'))

    这里我们传入了Redis的地址、运行端口、使用的数据库和密码信息。在默认不传的情况下,这4个参数分别为localhost、6379、0和None。首先声明了一个StrictRedis对象,接下来调用set()方法,设置一个键值对,然后将其获取并打印。

    运行结果如下:

    b'Bob'

    这说明我们连接成功,并可以执行set()和get()操作了。

    当然,我们还可以使用ConnectionPool来连接,示例如下:

    from redis import StrictRedis, ConnectionPool
    pool = ConnectionPool(host='localhost', port=6379, db=0, password='foobared')
    redis = StrictRedis(connection_pool=pool)

    这样的连接效果是一样的。观察源码可以发现,StrictRedis内其实就是用host和port等参数又构造了一个ConnectionPool,所以直接将ConnectionPool当作参数传给StrictRedis也一样。

    另外,ConnectionPool还支持通过URL来构建。URL的格式支持有如下3种:

    redis://[:password]@host:port/db
    rediss://[:password]@host:port/db
    unix://[:password]@/path/to/socket.sock?db=db

    这3种URL分别表示创建Redis TCP连接、Redis TCP+SSL连接、Redis UNIX socket连接。我们只需要构造上面任意一种URL即可,其中password部分如果有则可以写,没有则可以省略。下面再用URL连接演示一下:

    url = 'redis://:foobared@localhost:6379/0'
    pool = ConnectionPool.from_url(url)
    redis = StrictRedis(connection_pool=pool)

    这里我们使用第一种连接字符串进行连接。首先,声明一个Redis连接字符串,然后调用from_url()方法创建ConnectionPool,接着将其传给StrictRedis即可完成连接,所以使用URL的连接方式还是比较方便的。

    4. 键操作

    表5-5总结了键的一些判断和操作方法。

                                                                       表5-5 键的一些判断和操作方法

    Python3爬虫进阶:Redis存储(非关系型数据库)

    5. 字符串操作

    Redis支持最基本的键值对形式存储,用法总结如表5-6所示。

                                                                              表5-6 键值对形式存储

    Python3爬虫进阶:Redis存储(非关系型数据库)

    Python3爬虫进阶:Redis存储(非关系型数据库)

    6. 列表操作

    Redis还提供了列表存储,列表内的元素可以重复,而且可以从两端存储,用法如表5-7所示。

                                                                                 表5-7 列表操作

    Python3爬虫进阶:Redis存储(非关系型数据库)

    7. 集合操作

    Redis还提供了集合存储,集合中的元素都是不重复的,用法如表5-8所示。

                                                                               表5-8 集合操作

    Python3爬虫进阶:Redis存储(非关系型数据库)

    8. 有序集合操作

    有序集合比集合多了一个分数字段,利用它可以对集合中的数据进行排序,其用法总结如表5-9所示。

                                                                             表5-9 有序集合操作

    Python3爬虫进阶:Redis存储(非关系型数据库)

    9. 散列操作

    Redis还提供了散列表的数据结构,我们可以用name指定一个散列表的名称,表内存储了各个键值对,用法总结如表5-10所示。

                                                                         表5-10 散列操作

    Python3爬虫进阶:Redis存储(非关系型数据库)

    10. RedisDump

    RedisDump提供了强大的Redis数据的导入和导出功能,现在就来看下它的具体用法。

    首先,确保已经安装好了RedisDump。

    RedisDump提供了两个可执行命令:redis-dump用于导出数据,redis-load用于导入数据。

    redis-dump

    首先,可以输入如下命令查看所有可选项:

    redis-dump -h

    运行结果如下:

    Usage: redis-dump [global options] COMMAND [command options] 
        -u, --uri=S                      Redis URI (e.g. redis://hostname[:port])
        -d, --database=S                 Redis database (e.g. -d 15)
        -s, --sleep=S                    Sleep for S seconds after dumping (for debugging)
        -c, --count=S                    Chunk size (default: 10000)
        -f, --filter=S                   Filter selected keys (passed directly to redis' KEYS command)
        -O, --without_optimizations      Disable run time optimizations
        -V, --version                    Display version
        -D, --debug
            --nosafe

    其中-u代表Redis连接字符串,-d代表数据库代号,-s代表导出之后的休眠时间,-c代表分块大小,默认是10000,-f代表导出时的过滤器,-O代表禁用运行时优化,-V用于显示版本,-D表示开启调试。

    我们拿本地的Redis做测试,运行在6379端口上,密码为foobared,导出命令如下:

    redis-dump -u :foobared@localhost:6379

    如果没有密码的话,可以不加密码前缀,命令如下:

    redis-dump -u localhost:6379

    运行之后,可以将本地0至15号数据库的所有数据输出出来,例如:

    {"db":0,"key":"name","ttl":-1,"type":"string","value":"James","size":5}
    {"db":0,"key":"name2","ttl":-1,"type":"string","value":"Durant","size":6}
    {"db":0,"key":"name3","ttl":-1,"type":"string","value":"Durant","size":6}
    {"db":0,"key":"name4","ttl":-1,"type":"string","value":"HelloWorld","size":10}
    {"db":0,"key":"name5","ttl":-1,"type":"string","value":"James","size":5}
    {"db":0,"key":"name6","ttl":-1,"type":"string","value":"James","size":5}
    {"db":0,"key":"age","ttl":-1,"type":"string","value":"1","size":1}
    {"db":0,"key":"age2","ttl":-1,"type":"string","value":"-5","size":2}

    每条数据都包含6个字段,其中db即数据库代号,key即键名,ttl即该键值对的有效时间,type即键值类型,value即内容,size即占用空间。

    如果想要将其输出为JSON行文件,可以使用如下命令:

    redis-dump -u :foobared@localhost:6379 > ./redis_data.jl

    这样就可以成功将Redis的所有数据库的所有数据导出成JSON行文件了。

    另外,可以使用-d参数指定某个数据库的导出,例如只导出1号数据库的内容:

    redis-dump -u :foobared@localhost:6379 -d 1 > ./redis.data.jl

    如果只想导出特定的内容,比如想导出以adsl开头的数据,可以加入-f参数用来过滤,命令如下:

    redis-dump -u :foobared@localhost:6379 -f adsl:* > ./redis.data.jl

    其中-f参数即Redis的keys命令的参数,可以写一些过滤规则。

    redis-load

    同样,我们可以首先输入如下命令查看所有可选项:

    redis-load -h

    运行结果如下:

    redis-load --help
      Try: redis-load [global options] COMMAND [command options] 
        -u, --uri=S                     Redis URI (e.g. redis://hostname[:port])
        -d, --database=S                  Redis database (e.g. -d 15)
        -s, --sleep=S                    Sleep for S seconds after dumping (for debugging)
        -n, --no_check_utf8
        -V, --version                    Display version
        -D, --debug
            --nosafe

    其中-u代表Redis连接字符串,-d代表数据库代号,默认是全部,-s代表导出之后的休眠时间,-n代表不检测UTF-8编码,-V表示显示版本,-D表示开启调试。

    我们可以将JSON行文件导入到Redis数据库中:

    < redis_data.json redis-load -u :foobared@localhost:6379

    这样就可以成功将JSON行文件导入到数据库中了。

    另外,下面的命令同样可以达到同样的效果:

    cat redis_data.json | redis-load -u :foobared@localhost:6379

    本节中,我们不仅了解了RedisPy对Redis数据库的一些基本操作,还演示了RedisDump对数据的导入导出操作。由于其便捷性和高效性,后面我们会利用Redis实现很多架构,如维护代理池、Cookies池、ADSL拨号代理池、Scrapy-Redis分布式架构等,所以Redis的操作需要好好掌握。

    python学习网,大量的免费python视频教程,欢迎在线学习!

    本文转自:https://cuiqingcai.com/5587.html


    起源地下载网 » Python3爬虫进阶:Redis存储(非关系型数据库)

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元