脏数据指数据仓库中不符合质量要求的数据集合,主要表现为数据不一致、无效值、缺失值等情形。根据山东省大数据局发布的定义,其具体可分为不完整数据、错误数据和重复数据三大类。在数据处理过程中,脏数据需通过数据清洗流程进行过滤或修正,典型处理方法包括追踪丢失值、删除格式错误等操作。在数据库操作场景中,这类数据可能因并发事务未被提交而产生临时值残留现象。
脏数据在电子与信息技术领域特指存在质量缺陷的数据集合,其核心判定标准包括:不符合预设数据格式、超出有效取值范围、编码规范缺失等情况。典型特征表现为字段异常(如无效日期格式)、逻辑矛盾(如年龄超过生理极限值)和不完整的数据三类形态。
传感器采集误差、
数据传输丢包、人工录入失误等场景。2018年
机器学习调查显示,AI领域的研究员要梳理数以万计条目的数据集,追踪丢失的值,删除任何的格式错误。
未处理的脏数据会导致
数据分析结果偏差,例如医疗数据库中错误的血压计量单位(
mmHg与kPa混淆)可能引发诊疗隐患。主要技术挑战包括复杂
数据源的异构性治理、实时流
数据质量问题动态检测等。根据2019年行业研究,
数据清洗环节通常占据大数据项目30%-50%的时间成本。