最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • 爬虫实战之爬取房天下新房数据

    正文概述    2020-05-10   209

    爬虫实战之爬取房天下新房数据

    本示例主要用到requests库和bs4库,requests库用来获取网页内容,bs4库则是解析网页内容,获取有用数据。

    代码中url可切换当地房天下网址。

    代码如下

    # -*- coding:utf-8 -*-
    # author:zhoulong
    '''
    房天下天水新房信息
    '''
    import requests
    from bs4 import BeautifulSoup
    import numpy as np
    import re
    URL = 'http://newhouse.tianshui.fang.com/house/s/b91/'
    HTML = requests.get(URL)
    SOUP = BeautifulSoup(HTML.content, 'html.parser', from_encoding='gb18030')
    last_page = SOUP.select('.last')
    page_number = int(last_page[0]['href'].split('/')[3].split('9')[1])#根据尾页划分页码
    url_demo = 'http://newhouse.tianshui.fang.com/house/s/b9{}/'#i+1,name.text.strip(),
    #房价价格
    house_price_list=[]
    for i in range(1,(page_number+1)):
        url = url_demo.format(i)
        html = requests.get(url)
        soup = BeautifulSoup(html.content,'html.parser',from_encoding='gb18030')
        names = soup.select('.nlcd_name a')#class定位组合查找
        adresses = soup.select('.address a')#查找地址
        all_type = soup.findAll(name="span", attrs={"class": re.compile(r"forSale|inSale|outSale|zusale|zushou")})#出售
        all_money = soup.findAll(name="div", attrs={"class": re.compile(r"nhouse_price|kanesf")})#价格
        for i,name in enumerate(names):
            print(i+1,' name:'+name.text.strip(),'  address:'+''.join(re.split(r'\s+',
                   adresses[i].text.replace('\n','').replace('',''))),
                  all_type[i].text,' house_price: '+all_money[i].text.replace('\n',''))
            house_price_list.append(re.findall('\d+',all_money[i].text.replace('\n','')))
    house_price_list=[int(i[0]) for i in house_price_list if i]
    print('*'*80)
    print('* '+' 房价均价:'+str(np.mean(house_price_list))+' '*60+'*')
    print('* '+' 房价最高价:'+str(np.max(house_price_list))+' '*60+'*')
    print('* '+' 房价最低价:'+str(np.min(house_price_list))+' '*61+'*')
    print('*'*80)

    执行结果

    爬虫实战之爬取房天下新房数据

    爬虫实战之爬取房天下新房数据


    起源地下载网 » 爬虫实战之爬取房天下新房数据

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元