Page 28 - 嘉和资讯129期
P. 28
嘉和专栏
专题策划——数据资源的管理与利用
Special Planning
互联网医院诊疗数据、体检数据、
生物样本数据、影像数据;第二部
分为随访数据、可穿戴物联网数
据、基因测序数据;第三部分为在
执行的课题研究数据、多中心研究
数据及既往课题研究数据;第四部
分为气象数据、公共卫生数据、文
献数据、基因等公开数据集数据。
2.3 资源中心存储方案 由于临床数
据资源中心接入数据形态的丰富和
图1 临床数据资源中心系统架构
多样化,采用分布式列式数据库来
适应数据列和存储的弹性扩展。同 检验模型、检查模型、医嘱模型 术语本体库是数据标化、数据质量
时,为满足数据快速检索、获取及 等。它是以本体形式构建,并描述 核查和数据推理的基础,提取医学
时间序列计算等应用需求,按规范 相关本体的关系。 术语标准化体系中的同义词、层级
化数据模型治理标化的数据采用搜 3.2 章节数据组模型 由标准数据元 关系及医学术语相关的医学知识
索引擎数据库、文档数据库、时序 和基础数据组构成,是表达一个完 等 [10] ,并进行结构化存储,抽取可
数据库进行存储,通过数据虚拟化 整基础医疗信息的单元,如常见的 被计算机识别的医学关键信息,建
技术实现对数据服务的透明应用。 主诉、现病史、既往史、检查所见 立不同本体间医学知识关联关系。
等,同时记录了上下文语义关系, 结合国际疾病分类名称(ICD-10)、
3 构建规范化数据模型 为后续数据的准确提取提供了可靠 医学主题词表(MeSH)等医学术
数据模型是数据治理的重要基 路径。 语集及实际数据情况,完善医学术
础,利用人工智能技术则可以帮助 3.3 文档数据模型 由章节数据模型 语标准化体系。
概念模型与计算机模型实现完美融 构成,表达一个完整医疗信息,如 4.2 文档规范化处理 在病历文书和
[5]
合 ,如通过知识图谱的语义网络 常见的病案首页、入院记录、首次 检查报告治理过程中,存在两种常
架构,可以很好地展现实体、实体 病程等,有利于数据完整性校验以 见不规范形式:一种是多医疗记录
属性以及实体间的关系,也为构建 及数据精准搜索与提取。 混合在一个文档里,需要通过自然
[11]
规范化数据模型打下重要基础。规 语言处理和文档特征识别 ,实现
范化数据模型是临床数据资源数据 4 智能化数据治理关键点 文档拆分和分类识别;另一种是只
标准化和数据互操作的核心,由于 为提高数据治理的质量和效 有文档没有分类属性,需要通过自
临床、科研等深度应用会导致数据 率,将数据治理与机器学习、深度 然语言处理和文档特征识别赋予正
元新增细化、接入数据种类扩展等 学习等人工智能技术进行了深度结 确的文档分类属性。再依据《电子
不确定需求,因此,临床数据资源 合,这种应用人工智能技术的新一 病历临床文档基础模板数据集分类
中心是一个数据模型持续迭代的建 代数据治理即称为“智能化数据治 编码》整理成规范化的医疗文档,
[9]
设过程 [6-8] 。总体来讲,主要包含 理” ,如医学自然语言处理技术、 实现文档规范化整理,为后续非
以下 3 类。 医学数据自动标准化治理模型、数 结构化文档分词对应数据模型打
3.1 基础数据组 是整个规范化数据 据质控规则引擎、数据安全规则引 下基础。
模型的基础,如常见的疾病模型、 擎等,具体如下所述。 4.3 基于上下文语义识别的自然语
症状模型、药品模型、手术模型、 4.1 标准化术语本体库建设 标准化 言处理 通过自然语言分词以及上
30 China Digital Medicine. 2023,Vol.18,No. 1