脏数据的数据的处理方式有哪些?
脏数据的数据的处理方式有哪些?分两种情况:
一、通过数据清洗可以转为可用数据
1.缺失数据的,如果可以通过其他方式或者表,想办法补全
2.数据不一致,对于同一个事物,不同的表用不同的数值,则需要从底层去统一掉,包括格式。
3.数据重复,则需要通过业务人员判断去选择正确数据
二、完全没法清洗,只能舍弃
脏数据的处理即数据不合理、不完善、不正确、不一等......等等,那么处理脏数据就是ETL的清洗、加载和转换的过程。
一、那么数据清洗的过程中需要保证数据质量的原则是什么呢?
1.保证数据的完整性
一类方法比较简单粗暴,直接忽略空值,适用于脏数据的缺失值不多,或者相关性不太高的情况。
二类方法会对工程师技能要求较高,基本原则就是合理填充空值。常见的会使用属性的平均值,中位数或者众数去填充。
2.保证数据的准确性
通过高级数据分析方法进行:聚类、分箱和回归。
3.保证数据的一致性
通过数据仓库的搭建,完成维度数据的一致性,包括字段命名、字段格式和口径等,然后在通过规则检验数据的一致性。
二、ETL过程(数据清洗的过程)
数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。
----
更多资料请查看
https://zhuanlan.zhihu.com/p/20571505
https://www.jianshu.com/p/c2b15fcf7100
https://blog.csdn.net/weixin_39934869/article/details/110869947
----
页:
[1]