最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • python爬虫可以开多少线程?

    正文概述    2020-06-04   363

    其实关于爬虫并没有明确多少数量开线程,因为这个是无穷的,随着时代的不断发展,每一个革新都给我们焕然一新的感觉,可能大家现在在学习的时候,已知内容是有限的,真正在不断探索以后,会发现这个内容是无穷了,小编就看到一组代码可以爬取几百万的线程数据,一起来看下吧~

    1、爬虫环境

    Pycharm+python3.7.0

    2、进程和线程的关系:

    一个线程只能属于一个进程,而一个进程可以有多个线程,但至少有一个线程。

    资源分配给进程,同一进程的所有线程共享该进程的所有资源。

    CPU 分给线程,即真正在 CPU 上运行的是线程。

    3、多线程通信实例

    因为全局变量并不是线程安全的,比如说全局变量里(列表类型)只有一个 url 了,线程 B 判断了一下全局变量非空,在还没有取出该 url 之前,cpu 把时间片给了线程 C,线程 C 将最后一个url 取走了,这时 cpu 时间片又轮到了 B,B 就会因为在一个空的列表里取数据而报错,而 queue 模块实现了多生产者、多消费者队列,在放值取值时是线程安全的。

    4、实例代码

    import threading # 导入 threading 模块
     
    from queue import Queue #导入 queue 模块
     
    import time #导入 time 模块
     
    # 爬取文章详情页
     
    def get_detail_html(detail_url_list, id):
     
    while True:
     
    url = detail_url_list.get() #Queue 队列的 get 方法用于从队列中提取元素
     
    time.sleep(2) # 延时 2s,模拟网络请求和爬取文章详情的过程
     
    print("thread {id}: get {url} detail finished".format(id=id,url=url)) #打印线程 id 和被爬取了文章内容的 url
     
    # 爬取文章列表页
     
    def get_detail_url(queue):
     
    for i in range(10000):
     
    time.sleep(1) # 延时 1s,模拟比爬取文章详情要快
     
    queue.put("https://img.qiyuandi.com/images/10/pytho{id}".format(id=i))
     
    print("get detail url {id} end".format(id=i))#打印出得到了哪些文章的 url
     
    #主函数
     
    if __name__ == "__main__":
     
    detail_url_queue = Queue(maxsize=1000) #用 Queue 构造一个大小为 1000 的线程安全的先进先出队列
     
    # 先创造四个线程
     
    thread = threading.Thread(target=get_detail_url, args=(detail_url_queue,)) #A 线程负责抓取列表
     
    url
     
    html_thread= []
     
    for i in range(3):
     
    thread2 = threading.Thread(target=get_detail_html, args=(detail_url_queue,i))
     
    html_thread.append(thread2)#B C D 线程抓取文章详情
     
    start_time = time.time()
     
    # 启动四个线程
     
    thread.start()
     
    for i in range(3):
     
    html_thread[i].start()
     
    # 等待所有线程结束,thread.join()函数代表子线程完成之前,其父进程一直处于阻塞状态。
     
    thread.join()
     
    for i in range(3):
     
    html_thread[i].join()
     
    print("last time: {} s".format(time.time()-start_time))
     
    #等 ABCD 四个线程都结束后,在主进程中计算总爬取时间。

    好了,以上就是关于python爬虫里的进程内容了,大家可以去了解下哦~python的内容都是无穷尽的,大家也可以开拓创新,去找到知识的彼岸。


    起源地下载网 » python爬虫可以开多少线程?

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元