数据表示
数据的计算机表现形式与语法结构
数据表示是指在计算机系统中对数据进行语法形式定义和组织的方式。根据国家数据局2024年定义,数据可分为结构化、半结构化与非结构化三种表示形式,其中结构化数据通过关系模型实现标准化描述,半结构化数据采用分层标记组织语义元素,而非结构化数据缺乏预定义模型。这些表示形式决定了数据在不同场景下的转换规则与传输方式。
基本分类
根据2024年国家数据局发布的界定标准,数据表示按照组织形式可分为三类:
技术特征
结构化数据的核心特征体现在字段类型、长度和约束条件的预定义,支持通过SQL等标准化查询语言进行操作。半结构化数据通过标签(Tag)嵌套实现树状结构,在数据传输过程中可保留语义层级关系。贵阳市大数据局文件指出,非结构化数据约占企业数据总量的80%,其解析需结合自然语言处理计算机视觉等技术。
转换过程
数据在传输过程中需转换为特定形式:
2019年山东省大数据局文件强调,数据清洗过程需将原始数据转换为目标系统的标准化表示形式,包括字符编码统一、时间格式转换等预处理操作。
可视化应用
数据可视化技术通过图形化元素映射数据特征:
该技术通过可视化手段实现数据表示的二次转化,使得复杂数据关系可被直观认知与分析。
存储标准
不同表示形式对应差异化存储方案:
参考资料
数据领域常用名词解释(第一批).贵阳市大数据发展管理局.2025-01-03
干货丨大数据基础术语精粹来袭.山东省大数据局.2019-05-06
最新修订时间:2025-10-09 20:11
目录
概述
基本分类
技术特征
参考资料