异类数据
以多种格式存储的数据
异类数据是以多种格式存储的数据,涵盖数据库、文本文件和电子表格等多种形式,其本质是不同类型、版本或结构数据的集合,包含结构异构、语法异构、系统异构和语义异构四种类型。这类数据具有多源性(如来自网站日志、移动应用和社交媒体)、自治性(各系统独立管理)和复杂性(需处理字段映射、数据清洗等挑战)等特征。核心处理过程包括数据清洗与预处理、字段映射与关联、数据集成为统一平台以及机器学习分析,应用场景涵盖智慧城市交通调度、电商用户行为分析及科研数据整合。
最新修订时间:2025-09-27 15:56
目录
概述
参考资料