尼古拉斯 发表于 2021-3-22 21:39:55

脏数据的数据的处理方式有哪些?

脏数据的数据的处理方式有哪些?

Sunrise-星河 发表于 2021-3-22 23:20:57

分两种情况:
一、通过数据清洗可以转为可用数据
1.缺失数据的,如果可以通过其他方式或者表,想办法补全
2.数据不一致,对于同一个事物,不同的表用不同的数值,则需要从底层去统一掉,包括格式。
3.数据重复,则需要通过业务人员判断去选择正确数据

二、完全没法清洗,只能舍弃

從未改變 发表于 2021-3-23 15:53:53


脏数据的处理即数据不合理、不完善、不正确、不一等......等等,那么处理脏数据就是ETL的清洗、加载和转换的过程。

一、那么数据清洗的过程中需要保证数据质量的原则是什么呢?
1.保证数据的完整性
   一类方法比较简单粗暴,直接忽略空值,适用于脏数据的缺失值不多,或者相关性不太高的情况。
   二类方法会对工程师技能要求较高,基本原则就是合理填充空值。常见的会使用属性的平均值,中位数或者众数去填充。
2.保证数据的准确性
   通过高级数据分析方法进行:聚类、分箱和回归。
3.保证数据的一致性
    通过数据仓库的搭建,完成维度数据的一致性,包括字段命名、字段格式和口径等,然后在通过规则检验数据的一致性。
二、ETL过程(数据清洗的过程)

    数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。





----
更多资料请查看
https://zhuanlan.zhihu.com/p/20571505
https://www.jianshu.com/p/c2b15fcf7100
https://blog.csdn.net/weixin_39934869/article/details/110869947
----

页: [1]
查看完整版本: 脏数据的数据的处理方式有哪些?