脏数据的数据的处理方式有哪些？

尼古拉斯

脏数据的数据的处理方式有哪些？

從未改變已获得悬赏 2 K豆+5 K豆

最佳答案

脏数据的处理即数据不合理、不完善、不正确、不一等......等等，那么处理脏数据就是ETL的清洗、加载和转换的过程。一、那么数据清洗的过程中需要保证数据质量的原则是什么呢？ 1.保证数据的完整性一类方法比较简单粗暴，直接忽略空值，适用于脏数据的缺失值不多，或者相关性不太高的情况。二类方法会对工程师技能要求较高，基本原则就是合理填充空值。常见的会使用属性的平均值，中位数或者众数去填充。 2.保证数据的准确性通过高级数据分析方法进行：聚类、分箱和回归。 3.保证数据的一致性通过数据仓库的 ...

從未改變
发表于2021-03-23
详细答案 >

Sunrise-星河 · 发表于 2021-3-22 23:20:57

分两种情况：
一、通过数据清洗可以转为可用数据
1.缺失数据的，如果可以通过其他方式或者表，想办法补全
2.数据不一致，对于同一个事物，不同的表用不同的数值，则需要从底层去统一掉，包括格式。
3.数据重复，则需要通过业务人员判断去选择正确数据

二、完全没法清洗，只能舍弃

從未改變 · 发表于 2021-3-23 15:53:53

脏数据的处理即数据不合理、不完善、不正确、不一等......等等，那么处理脏数据就是ETL的清洗、加载和转换的过程。

一、那么数据清洗的过程中需要保证数据质量的原则是什么呢？
1.保证数据的完整性
   一类方法比较简单粗暴，直接忽略空值，适用于脏数据的缺失值不多，或者相关性不太高的情况。
   二类方法会对工程师技能要求较高，基本原则就是合理填充空值。常见的会使用属性的平均值，中位数或者众数去填充。
2.保证数据的准确性
   通过高级数据分析方法进行：聚类、分箱和回归。
3.保证数据的一致性
通过数据仓库的搭建，完成维度数据的一致性，包括字段命名、字段格式和口径等，然后在通过规则检验数据的一致性。
二、ETL过程（数据清洗的过程）

数据清洗，是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际操作中，数据清洗通常会占据分析过程的50%—80%的时间。

----
更多资料请查看
https://zhuanlan.zhihu.com/p/20571505
https://www.jianshu.com/p/c2b15fcf7100
https://blog.csdn.net/weixin_39934869/article/details/110869947
----

	派天地(社区/产品/支持)
	派小友(商务/售前/其他)
	产品咨询/支持(服务1)
	产品咨询/支持(服务2)

客户服务中心

工作时间：

社交群组

[已解决] 脏数据的数据的处理方式有哪些？

最佳答案

尼古拉斯 LV1