首页 » Big Data and AI » Database » 正文

不良数据的识别和清洗

不良数据是一切数字化转型的痛点,每一位数据专业人员都需要对其一查到底。不良数据会影响对数据的正确解读,并最终导致决策失误。因此,识别企业中的不良数据至关重要,但不难预见,此举并非易事。

识别不良数据

不良数据可能来自企业的各个领域,包括销售、市场营销或工程等业务部门,并呈现出不同形式。让我们来看一下几个常见的不良数据类别:

  • 不准确数据:包含拼写错误、错误数字、丢失信息、空白字段的数据
  • 非合规数据:不符合监管标准的数据
  • 非受控数据:未受持续监控,并随时间推移而受到污染的数据
  • 不安全数据:不受控制并因此易遭受黑客入侵和漏洞攻击的数据
  • 静态数据:未更新并失去时效性和可用性的数据
  • 休眠数据:数据库中不活动及未使用,且因缺乏更新和共享而失去价值的数据

如果数据是驱动商业战略引擎的燃料,那么不良数据就是劣质燃油。平心而论,若油箱加满劣质燃油,您就无法快速前行。同样的逻辑也适用于企业。不良数据的存在会导致灾难性后果和巨额损失。

数据清洗

数据清洗:把脏数据清洗掉,提高数据质量。
Data cleansing, Data cleaning, Data scrubbing三种表达方式都可以,意思都是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声。
数据清洗分为有监督清洗和无监督清洗两类。

  • 有监督清洗:在领域专家的指导下,收集分析数据,手工去除明显的噪声数据和重复记录,填补缺值数据等清洗动作;
  • 无监督清洗:根据一定的业务规则,预先定义好数据清洗算法,由计算机自动执行算法,对数据集进行清洗,然后产生清洗报告。
  • 一般都是先无监督清洗,产生清洗报告,再让专家根据清晰报告对清洗的结果进行人工整理。

数据清洗一般包括数据分析,定义和执行清洗规则,清洗结果验证等步骤:

1. 数据分析

根据相关的业务知识,应用相应的技术,如统计学,数据挖掘的方法,分析出数据源中数据的特点,为定义数据清洗规则奠定基础。 除手工测查数据或数据样本之外,还可以用专门的分析程序来分析数据源。 数据分析的结果是数据源一些数据质量问题的描述,被保存到元数据库中。

2. 定义清洗规则

主要的清洗规则包括:
* 空值的检查和处理
* 非法值的检测和处理
* 不一致数据的检测和处理
* 相似重复记录的检测和处理

3. 执行数据清洗规则
  • 检查拼写错误
  • 去掉重复的(duplicate)记录
  • 补上不完全的(incomplete)记录
  • 解决不一致的(inconsistent)记录
  • 用测试查询来验证数据
  • 生成数据清晰报告
4.清洗结果验证

对定义的清洗转换规则的正确性和效率进行验证和评估,当不满足清洗要求时要对清洗规则或系统参数进行调整和改进。
数据清洗过程中往往需要多次迭代的进行分析,设计和验证。

属性清洗

1. 属性清洗的内容
  • 错误或非法数据
  • 拼写错误
  • 空值
  • 异常数据
  • 不一致数据
  • 嵌入值。一个属性值包含多个组成成分,如,地址=”上海市东川路800号上海交通大学“。就可以分解成:地址=”上海市东川路800号“,学校=”上海交通大学“。
2. 属性清洗的基本方法
  1. 空值数据的清洗
    • 空值数据的语义
      • 不存在型空值。即无法填入的值,如一个未婚者的配偶姓名。
      • 存在型空值。该类空值的实际值在当前是未知的,但它有确定性的一面,如它的实际值的确存在,总是落在一个可以确定的区间内。
      • 占位型空值。即无法确定是不存在型空值还是存在型空值。一般情况下,空值是指存在型空值。
    • 空值数据的处理方法
      • 删除包含空值的记录(空值占比重很小而不重要时可以采用)
      • 自动补全方法。通过统计学原理,根据数据集中记录的取值分布情况来对一个空值进行自动填充,可以用平均值,最大值,最小值等基于统计学的客观知识来填充字段。
      • 手工的补全缺失值。仅适用于非常重要的任务数据。
      • 对空值不正确的填充往往将新的噪声引入数据中,使知识获取产生错误的结果。当数据集的数量很大且有较多缺失值的情况下,效率很差。
  2. 不一致数据属性清洗
    • 不一致数据的语义
    • 冗余性不一致。相同的信息没有进行一致性的同步更新。
    • 故障性不一致。由于某种原因(硬件或软件故障)而造成数据丢失或数据损坏,系统进行恢复时,不能恢复到完全正确,完整,一致的状态。
    • 不一致数据处理的基本方法
    • 清洗方法主要在分析不一致产生原因的基础上,利用各种变换函数,格式化函数,汇总分解函数去实现清洗。
  3. 噪声数据的清洗
    • 噪声数据的语义
      噪声数据就是除空值数据,不一致数据以外的其他不准确。不客观数据,该类噪声数据,可能会导致错误的数据分析结果。
    • 噪声数据的基本处理方法
      • 分箱:将存储的值分布到一些箱中,用箱中的数据值来局部平滑存储数据的值。包括按箱平均值平滑,按箱中值平滑和按箱边界值平滑。
      • 回归:找到恰当的回归函数来平滑数据。线性回归要找出适合两个变量的”最佳“直线,使得一个变量能预测另一个。多线性回归涉及多个变量,数据要适合一个多维面。
      • 计算机检查和人工检查相结合:可以通过计算机将被判定数据与已知的正常值比较,将差异程度大于某个阈值的模式输出到一个表中,人工审核后识别出噪声数据。
      • 聚类:将类似的值组成群或”聚类“,落在聚类集合之外的值被视为孤立点。孤立点可能是垃圾数据,也可能是提供信息的重要数据。垃圾数据将清除。
3. 属性清洗的过程
  • 分析数据集中的属性值
  • 定义属性值清洗规则
  • 执行属性清洗规则

借助正确的工具和平台,构建可靠的数据质量策略不再是一项复杂工作。不过,仍然需要企业中的所有数据专业人员积极应对,并建立一个清晰、透明和可管理的数据策略。