最新公告

欢迎您光临起源地模板网，本站秉承服务宗旨履行“站长”责任，销售只是起点服务永无止境！立即加入钻石VIP

当前位置：站长学院 > python教程 > python怎么爬取表格？

python怎么爬取表格？

正文概述 2020-06-24 388

python怎么爬取表格？

Python爬取表格的步骤：

1、检查url地址，用raise_for_status()检查url地址；

2、爬取资源，用BeautifulSoup()爬取数据，并且用find_all('tr')抓取其中的表格；

3、保存资源，用write()将表格保存到指定目录。

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
#检查url地址 
def check_link(url): 
 try: 
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器！！！') 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html"
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
main()

运行结果：

python怎么爬取表格？

常见问题 Python常见问题

起源地下载网 » python怎么爬取表格？

常见问题FAQ

免费下载或者VIP会员专享资源能否直接商用？: 本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考 VIP介绍。

提示下载完但解压或打开不了？: 最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用百度网盘软件或迅雷下载。若排除这种情况，可在对应资源底部留言，或联络我们.。

找不到素材资源介绍文章里的示例图片？: 对于PPT，KEY，Mockups，APP，网页模版等类型的素材，文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买，且本站不负责(也没有办法)找到出处。同样地一些字体文件也是这种情况，但部分素材会在素材包内有一份字体下载链接清单。

模板不会安装或需要功能定制以及二次开发？: 请QQ联系我们

SVIP

分享到：

发表评论

还没有评论，快来抢沙发吧！

如需帝国cms功能定制以及二次开发请联系我们

SVIP

升级SVIP会员

限时钜惠
终身SVIP仅需299元

立即开通