2回答

0收藏

[已解决] 脏数据的数据的处理方式有哪些?

问题求助 问题求助 1365 人阅读 | 2 人回复 | 2021-03-22

脏数据的数据的处理方式有哪些?
從未改變已获得悬赏 2 K豆+5 K豆

最佳答案

脏数据的处理即数据不合理、不完善、不正确、不一等......等等,那么处理脏数据就是ETL的清洗、加载和转换的过程。 一、那么数据清洗的过程中需要保证数据质量的原则是什么呢? 1.保证数据的完整性 一类方法比较简单粗暴,直接忽略空值,适用于脏数据的缺失值不多,或者相关性不太高的情况。 二类方法会对工程师技能要求较高,基本原则就是合理填充空值。常见的会使用属性的平均值,中位数或者众数去填充。 2.保证数据的准确性 通过高级数据分析方法进行:聚类、分箱和回归。 3.保证数据的一致性 通过数据仓库的 ...

回答|共 2 个

Sunrise-星河

发表于 2021-3-22 23:20:57 | 显示全部楼层

分两种情况:
一、通过数据清洗可以转为可用数据
1.缺失数据的,如果可以通过其他方式或者表,想办法补全
2.数据不一致,对于同一个事物,不同的表用不同的数值,则需要从底层去统一掉,包括格式。
3.数据重复,则需要通过业务人员判断去选择正确数据

二、完全没法清洗,只能舍弃
贴吧楼中楼回复我要说一句 收起回复
B Color Smilies
还可输入 200 个字符

從未改變

发表于 2021-3-23 15:53:53 | 显示全部楼层

截图202103231553365357..png

脏数据的处理即数据不合理、不完善、不正确、不一等......等等,那么处理脏数据就是ETL的清洗、加载和转换的过程。
截图202103231537041900..png


一、那么数据清洗的过程中需要保证数据质量的原则是什么呢?
1.保证数据的完整性
     一类方法比较简单粗暴,直接忽略空值,适用于脏数据的缺失值不多,或者相关性不太高的情况
     二类方法会对工程师技能要求较高,基本原则就是合理填充空值。常见的会使用属性的平均值,中位数或者众数去填充。
2.保证数据的准确性
     通过高级数据分析方法进行:聚类、分箱和回归。
3.保证数据的一致性
    通过数据仓库的搭建,完成维度数据的一致性,包括字段命名、字段格式和口径等,然后在通过规则检验数据的一致性。
二、ETL过程(数据清洗的过程)
截图202103231548379730..png

    数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。





----
更多资料请查看
https://zhuanlan.zhihu.com/p/20571505
https://www.jianshu.com/p/c2b15fcf7100
https://blog.csdn.net/weixin_39934869/article/details/110869947
----

贴吧楼中楼回复我要说一句 收起回复
B Color Smilies
还可输入 200 个字符
机器精于计算,而我们善于思考,BI助力决策!!!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则