最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • Python数据分析:基于Pandas数据清洗

    正文概述    2020-03-15   330

    针对数据统计分析来讲,数据信息是无可置疑的核心内容。但并非是全部的数据信息都是有价值的,绝大部分数据信息是良莠不齐的,基本概念层次不清的,量级有所不同的,这就给后期的数据统计分析和数据挖掘造成 了很大的不便,甚至是造成不正确的理论依据。因此很有必要对数据信息开展预处理。

    说到python与数据分析,那肯定少不了pandas的身影。

    一、数据清洗是什么

    数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

    数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

    Python数据分析:基于Pandas数据清洗

    二、Python pandas数据清洗流程

    1.导入方法read_excel

    # 导入数据
    import pandas as pda
    import matplotlib.pylab as pyl
    
    a = pda.read_excel("D:\\迅雷下载\\工具\\表格\\练习.xls")	# 路径使用双反斜杠,否则会报错
    print(len(a))   # 数据框的长度,是按行统计的
    123456

    2.发现缺失值

    先打开excel表,查看下有多少缺失值,缺失值是指值为0或空统计发现有10个缺失值,同理其他列也有部分缺失值然后着手把0值置空,保证所有的缺失值都是统一形式,方便处理

    Python数据分析:基于Pandas数据清洗

    b = ["price", "trade"]
    for i in b:
        a[i][(a[i] == 0)] = None
    # a["price"] == 0  判断语句,返回True或False  ,对列表的每一个值进行判断,如果有0,该处值置为none,然后进行判断直至完成
    1234

    3.缺失值处理

    遍历所有的空值,统一赋值

    x = 0
    for j in b:
        for k in range(len(a)):
            if (a[j].isnull())[k]:  
                a[j][k] = 36
                x += 1
    print(x)

    三、异常数据处理

    异常数据指数据库或数据仓库中未满足一般规律的数据信息对象,又叫作孤立点。异常的数据信息可由执行程序出现失误形成,也可能会因设施设备内部故障造成的。异常数据信息可能是删去的噪声,也可能是带有重要信息的数据单元。异常的数据信息的监测具体有根据统计学、根据距离和根据偏离3类方法。采取数据信息审时的办法能够实现异常的数据信息的智能化监测,该办法也叫作数据质量挖掘(DOQM)。DQM具体由2步组成:第1步,采取数理统计办法对数据分布展开概化描述,自动获得数据信息的总体分布特征;第2步针对特定的数据质量问题展开挖掘以发现数据信息异常的。


    起源地下载网 » Python数据分析:基于Pandas数据清洗

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元