脏数据的数据的处理方式有哪些？

尼古拉斯 发表于 2021-3-22 21:39:55

Sunrise-星河 发表于 2021-3-22 23:20:57

分两种情况：
一、通过数据清洗可以转为可用数据
1.缺失数据的，如果可以通过其他方式或者表，想办法补全
2.数据不一致，对于同一个事物，不同的表用不同的数值，则需要从底层去统一掉，包括格式。
3.数据重复，则需要通过业务人员判断去选择正确数据

二、完全没法清洗，只能舍弃

從未改變 发表于 2021-3-23 15:53:53

脏数据的处理即数据不合理、不完善、不正确、不一等......等等，那么处理脏数据就是ETL的清洗、加载和转换的过程。

一、那么数据清洗的过程中需要保证数据质量的原则是什么呢？
1.保证数据的完整性
一类方法比较简单粗暴，直接忽略空值，适用于脏数据的缺失值不多，或者相关性不太高的情况。
二类方法会对工程师技能要求较高，基本原则就是合理填充空值。常见的会使用属性的平均值，中位数或者众数去填充。
2.保证数据的准确性
通过高级数据分析方法进行：聚类、分箱和回归。
3.保证数据的一致性
通过数据仓库的搭建，完成维度数据的一致性，包括字段命名、字段格式和口径等，然后在通过规则检验数据的一致性。
二、ETL过程（数据清洗的过程）

数据清洗，是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际操作中，数据清洗通常会占据分析过程的50%—80%的时间。

----
更多资料请查看
https://zhuanlan.zhihu.com/p/20571505
https://www.jianshu.com/p/c2b15fcf7100
https://blog.csdn.net/weixin_39934869/article/details/110869947
----

页: [1]

派天地 - 派可数据官方社区's Archiver

脏数据的数据的处理方式有哪些？