不良数据的识别和清洗 | @Sting (atSting.com)

不良数据是一切数字化转型的痛点，每一位数据专业人员都需要对其一查到底。不良数据会影响对数据的正确解读，并最终导致决策失误。因此，识别企业中的不良数据至关重要，但不难预见，此举并非易事。

识别不良数据

不良数据可能来自企业的各个领域，包括销售、市场营销或工程等业务部门，并呈现出不同形式。让我们来看一下几个常见的不良数据类别：

不准确数据：包含拼写错误、错误数字、丢失信息、空白字段的数据
非合规数据：不符合监管标准的数据
非受控数据：未受持续监控，并随时间推移而受到污染的数据
不安全数据：不受控制并因此易遭受黑客入侵和漏洞攻击的数据
静态数据：未更新并失去时效性和可用性的数据
休眠数据：数据库中不活动及未使用，且因缺乏更新和共享而失去价值的数据

如果数据是驱动商业战略引擎的燃料，那么不良数据就是劣质燃油。平心而论，若油箱加满劣质燃油，您就无法快速前行。同样的逻辑也适用于企业。不良数据的存在会导致灾难性后果和巨额损失。

数据清洗

数据清洗：把脏数据清洗掉，提高数据质量。
Data cleansing, Data cleaning, Data scrubbing三种表达方式都可以，意思都是检测和去除数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据域和知识背景下的白噪声。
数据清洗分为有监督清洗和无监督清洗两类。

有监督清洗：在领域专家的指导下，收集分析数据，手工去除明显的噪声数据和重复记录，填补缺值数据等清洗动作；
无监督清洗：根据一定的业务规则，预先定义好数据清洗算法，由计算机自动执行算法，对数据集进行清洗，然后产生清洗报告。
一般都是先无监督清洗，产生清洗报告，再让专家根据清晰报告对清洗的结果进行人工整理。

数据清洗一般包括数据分析，定义和执行清洗规则，清洗结果验证等步骤：

1. 数据分析

根据相关的业务知识，应用相应的技术，如统计学，数据挖掘的方法，分析出数据源中数据的特点，为定义数据清洗规则奠定基础。除手工测查数据或数据样本之外，还可以用专门的分析程序来分析数据源。数据分析的结果是数据源一些数据质量问题的描述，被保存到元数据库中。

2. 定义清洗规则

主要的清洗规则包括：
* 空值的检查和处理
* 非法值的检测和处理
* 不一致数据的检测和处理
* 相似重复记录的检测和处理

3. 执行数据清洗规则

检查拼写错误
去掉重复的（duplicate）记录
补上不完全的（incomplete）记录
解决不一致的（inconsistent）记录
用测试查询来验证数据
生成数据清晰报告

4.清洗结果验证

对定义的清洗转换规则的正确性和效率进行验证和评估，当不满足清洗要求时要对清洗规则或系统参数进行调整和改进。
数据清洗过程中往往需要多次迭代的进行分析，设计和验证。

属性清洗

1. 属性清洗的内容

错误或非法数据
拼写错误
空值
异常数据
不一致数据
嵌入值。一个属性值包含多个组成成分，如，地址=”上海市东川路800号上海交通大学“。就可以分解成：地址=”上海市东川路800号“，学校=”上海交通大学“。

2. 属性清洗的基本方法

空值数据的清洗
- 空值数据的语义
  - 不存在型空值。即无法填入的值，如一个未婚者的配偶姓名。
  - 存在型空值。该类空值的实际值在当前是未知的，但它有确定性的一面，如它的实际值的确存在，总是落在一个可以确定的区间内。
  - 占位型空值。即无法确定是不存在型空值还是存在型空值。一般情况下，空值是指存在型空值。
- 空值数据的处理方法
  - 删除包含空值的记录（空值占比重很小而不重要时可以采用）
  - 自动补全方法。通过统计学原理，根据数据集中记录的取值分布情况来对一个空值进行自动填充，可以用平均值，最大值，最小值等基于统计学的客观知识来填充字段。
  - 手工的补全缺失值。仅适用于非常重要的任务数据。
  - 对空值不正确的填充往往将新的噪声引入数据中，使知识获取产生错误的结果。当数据集的数量很大且有较多缺失值的情况下，效率很差。
不一致数据属性清洗
- 不一致数据的语义
- 冗余性不一致。相同的信息没有进行一致性的同步更新。
- 故障性不一致。由于某种原因（硬件或软件故障）而造成数据丢失或数据损坏，系统进行恢复时，不能恢复到完全正确，完整，一致的状态。
- 不一致数据处理的基本方法
- 清洗方法主要在分析不一致产生原因的基础上，利用各种变换函数，格式化函数，汇总分解函数去实现清洗。
噪声数据的清洗
- 噪声数据的语义
  噪声数据就是除空值数据，不一致数据以外的其他不准确。不客观数据，该类噪声数据，可能会导致错误的数据分析结果。
- 噪声数据的基本处理方法
  - 分箱：将存储的值分布到一些箱中，用箱中的数据值来局部平滑存储数据的值。包括按箱平均值平滑，按箱中值平滑和按箱边界值平滑。
  - 回归：找到恰当的回归函数来平滑数据。线性回归要找出适合两个变量的”最佳“直线，使得一个变量能预测另一个。多线性回归涉及多个变量，数据要适合一个多维面。
  - 计算机检查和人工检查相结合：可以通过计算机将被判定数据与已知的正常值比较，将差异程度大于某个阈值的模式输出到一个表中，人工审核后识别出噪声数据。
  - 聚类：将类似的值组成群或”聚类“，落在聚类集合之外的值被视为孤立点。孤立点可能是垃圾数据，也可能是提供信息的重要数据。垃圾数据将清除。

3. 属性清洗的过程

分析数据集中的属性值
定义属性值清洗规则
执行属性清洗规则

借助正确的工具和平台，构建可靠的数据质量策略不再是一项复杂工作。不过，仍然需要企业中的所有数据专业人员积极应对，并建立一个清晰、透明和可管理的数据策略。