数据表示是指在计算机系统中对数据进行语法形式定义和组织的方式。根据
国家数据局2024年定义,数据可分为结构化、半结构化与非结构化三种表示形式,其中结构化数据通过
关系模型实现标准化描述,半结构化数据采用分层标记组织语义元素,而非结构化数据缺乏预定义模型。这些表示形式决定了数据在不同场景下的转换规则与传输方式。
结构化数据的核心特征体现在字段类型、长度和约束条件的预定义,支持通过SQL等标准化查询语言进行操作。半结构化数据通过标签(Tag)嵌套实现树状结构,在数据传输过程中可保留语义层级关系。贵阳市大数据局文件指出,非结构化数据约占企业数据总量的80%,其解析需结合
自然语言处理、
计算机视觉等技术。
2019年
山东省大数据局文件强调,数据清洗过程需将原始数据转换为目标系统的标准化表示形式,包括字符编码统一、时间格式转换等预处理操作。