最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • Python爬虫提取百度搜索内容

    正文概述    2020-01-22   247

    搜索引擎用的很频繁,现在利用Python爬虫提取百度搜索内容,同时再进一步提取内容分析就可以简便搜索过程。详细案例如下:

    Python爬虫提取百度搜索内容

    完整代码:

    # coding=utf8
    import urllib2
    import string
    import urllib
    import re
    import random
    #设置多个user_agents,防止百度限制IP
    user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0', \
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0', \
        'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+ \
        (KHTML, like Gecko) Element Browser 5.0', \
        'IBM WebExplorer /v0.94', 'Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)', \
        'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)', \
        'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14', \
        'Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) \
        Version/6.0 Mobile/10A5355d Safari/8536.25', \
        'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) \
        Chrome/28.0.1468.0 Safari/537.36', \
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)']
    def baidu_search(keyword,pn):
      p= {'wd': keyword} 
      res=urllib2.urlopen(("http://www.baidu.com/s?"+urllib.urlencode(p)+"&pn={0}&cl=3&rn=100").format(pn))
      html=res.read()
      return html
    def getList(regex,text):
      arr = []
      res = re.findall(regex, text)
      if res:
        for r in res:
          arr.append(r)
      return arr
    def getMatch(regex,text):
      res = re.findall(regex, text)
      if res:
        return res[0]
      return ""
    def clearTag(text):
      p = re.compile(u'<[^>]+>')
      retval = p.sub("",text)
      return retval
    def geturl(keyword):
      for page in range(10):
        pn=page*100+1
        html = baidu_search(keyword,pn)
        content = unicode(html, 'utf-8','ignore')
        arrList = getList(u"<table.*?class=\"result\".*?>.*?<\/a>", content)
        for item in arrList:
          regex = u"<h3.*?class=\"t\".*?><a.*?href=\"(.*?)\".*?>(.*?)<\/a>"
          link = getMatch(regex,item)
          url = link[0]
          #获取标题
          #title = clearTag(link[1]).encode('utf8')
          try:
            domain=urllib2.Request(url)
            r=random.randint(0,11)
            domain.add_header('User-agent', user_agents[r])
            domain.add_header('connection','keep-alive')
            response=urllib2.urlopen(domain)
            uri=response.geturl()
            print uri
          except:
            continue
    if __name__=='__main__':
      geturl('python')</a.*&#63;href=\"(.*?)\".*?></h3.*?class=\"t\".*?></table.*?class=\"result\".*?>

    起源地下载网 » Python爬虫提取百度搜索内容

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元