Page 29 - 嘉和资讯129期
P. 29

嘉和专栏





 专题策划——数据资源的管理与利用                                                      专题策划——数据资源的管理与利用
 Special Planning                                                                       Special Planning




 互联网医院诊疗数据、体检数据、  下文语义识别 [12] ,利用机器学习自
 生物样本数据、影像数据;第二部  动分析医疗文本中的依存句法结构
 分为随访数据、可穿戴物联网数  信息,对自由文本进行分词、词性
 据、基因测序数据;第三部分为在  标注、专名识别等,利用词向量标

 执行的课题研究数据、多中心研究  识实现文本的可计算。通过基础模
 数据及既往课题研究数据;第四部  型定义的层次型实体关系抽取模
 分为气象数据、公共卫生数据、文  式,将其表达为实体及嵌套式实体
 献数据、基因等公开数据集数据。  关系,并进行递归式抽取,有效解
                                                             图2  基于上下文语义识别的自然语言处理
 2.3 资源中心存储方案 由于临床数  决传统实体关系抽取方法的准确率
 据资源中心接入数据形态的丰富和  随实体种类和关系类型增多而迅速            量,就需要非常复杂的逻辑加工才                  构和异常,解决识别数据分词和
 图1  临床数据资源中心系统架构
 多样化,采用分布式列式数据库来  恶化的问题,见图2。                 能获取到,见图3。                        结构化问题,实现对初始数据的探
 适应数据列和存储的弹性扩展。同  检验模型、检查模型、医嘱模型  术语本体库是数据标化、数据质量  4.4 数据标准化处理 数据标准化处  4.7 数据深度脱敏 2021年实施的  查、监测和持续的数据优化,达到数
 时,为满足数据快速检索、获取及  等。它是以本体形式构建,并描述  核查和数据推理的基础,提取医学  理包括基于规则或词典的字段值转  《个人信息保护法》将医疗健康信  据质控目的,包括完整性、可靠性、
                                                                                                     [17]
 时间序列计算等应用需求,按规范  相关本体的关系。  术语标准化体系中的同义词、层级  换、术语的自动归一等。自动归一  息列为敏感个人信息,按照国家标  准确性、一致性、时间性等 。
 化数据模型治理标化的数据采用搜  3.2 章节数据组模型 由标准数据元  关系及医学术语相关的医学知识   过程首先使用处理规则对术语进行  准《信息安全技术 健康医疗数据  5.2 病历内涵质控 病历内涵质控系
 索引擎数据库、文档数据库、时序  和基础数据组构成,是表达一个完  等 [10] ,并进行结构化存储,抽取可  多次转换,包括通用基本规则、数  安全指南》 [16] 中给出了对患者个人  统主要通过制定覆盖环节、终末等
 数据库进行存储,通过数据虚拟化  整基础医疗信息的单元,如常见的  被计算机识别的医学关键信息,建  据拆分规则、数据删除规则、数据归  信息的划分、去除规则、医疗数据  全流程的病历内涵质控规则和模
 技术实现对数据服务的透明应用。  主诉、现病史、既往史、检查所见  立不同本体间医学知识关联关系。  一规则等。然后对剩余文本进行自然  分级以及分级应用范围等的具体处  型,从数据生产源头来提高数据整
 等,同时记录了上下文语义关系,  结合国际疾病分类名称(ICD-10)、  语言分词,提取其中的关键字,对医  理方法构建数据安全体系。结合       体质量。
 3 构建规范化数据模型  为后续数据的准确提取提供了可靠  医学主题词表(MeSH)等医学术  学术语库匹配找到标准术语。  2020年实施的GB/T 37964-2019  5.3 数据清洗规则策略 临床研究对

 数据模型是数据治理的重要基  路径。  语集及实际数据情况,完善医学术  4.5 数据预处理和清洗 利用格式转  《信息安全技术-个人信息去标识     数据治理有明确的规则,通过收集
 础,利用人工智能技术则可以帮助  3.3 文档数据模型 由章节数据模型  语标准化体系。  换、去除冗余、数据填补、数据映  化指南》,对就诊号、姓名、性  和整理大量研究队列数据清洗校验
 概念模型与计算机模型实现完美融  构成,表达一个完整医疗信息,如  4.2 文档规范化处理 在病历文书和  射等手段,对数据进行清理、集  别、身份证号、地址、工作单位等  规则,形成数据资源中心的数据治
 [5]
 合 ,如通过知识图谱的语义网络  常见的病案首页、入院记录、首次  检查报告治理过程中,存在两种常  成、变换、规约等处理,实现对数  隐私数据脱敏。此外,对于非结构  理策略,进一步提高后续队列建设
 架构,可以很好地展现实体、实体  病程等,有利于数据完整性校验以  见不规范形式:一种是多医疗记录  据的预处理和清洗,最终形成统一  化医疗文本,也需结合NLP技术进  的数据质量。
 属性以及实体间的关系,也为构建  及数据精准搜索与提取。  混合在一个文档里,需要通过自然  标准的可利用数据 [13-15] 。  行文档数据深度脱敏治理。  5.4 数据治理规则优化 为进一步提
 [11]
 规范化数据模型打下重要基础。规  语言处理和文档特征识别 ,实现  4.6 结果型数据加工处理 明确加工                         升数据治理的准确性,可对其中的
 范化数据模型是临床数据资源数据  4 智能化数据治理关键点  文档拆分和分类识别;另一种是只  逻辑的数据预处理是提升数据快捷  5 数据质量保障手段   数据进行一定比例(如30%)的人
 标准化和数据互操作的核心,由于  为提高数据治理的质量和效  有文档没有分类属性,需要通过自  使用的重要途径,也是以往数据利  5.1 数据探查分析 建立数据质量评  工抽查,发现数据缺失或错误等情
 临床、科研等深度应用会导致数据  率,将数据治理与机器学习、深度  然语言处理和文档特征识别赋予正  用中最困难和最费时的环节,如  估模型,通过数据值域核查及统计  况时,快速反馈,进而调整数据治
                                                                                    [18]
 元新增细化、接入数据种类扩展等  学习等人工智能技术进行了深度结  确的文档分类属性。再依据《电子  “是否术中抗菌药物追加”这类变  分析模型设计,探查数据内容、结  理规则 。
 不确定需求,因此,临床数据资源  合,这种应用人工智能技术的新一  病历临床文档基础模板数据集分类  麻醉记录_手术用时大       是否使用:青霉素、头
                        于等于 180min                                   孢呋辛、头孢唑林、头
 中心是一个数据模型持续迭代的建  代数据治理即称为“智能化数据治  编码》整理成规范化的医疗文档,                   孢他啶、万古霉素、舒
                                                                     普深
 [9]
 设过程  [6-8] 。总体来讲,主要包含  理” ,如医学自然语言处理技术、 实现文档规范化整理,为后续非  术中抗菌药物追加  判断是否都为  是  医嘱项名称和  截取术前饮食  判断是否都为  是  术中追加抗菌药物
                                                             到术后准备之
                                      真             给药途径     间数据                    真
 以下 3 类。  医学数据自动标准化治理模型、数  结构化文档分词对应数据模型打                            是否皮试且只有一次
                        麻醉记录_术中出血量
 3.1 基础数据组 是整个规范化数据  据质控规则引擎、数据安全规则引  下基础。  大于等于1500ml  否
                                                                                             否
 模型的基础,如常见的疾病模型、  擎等,具体如下所述。  4.3 基于上下文语义识别的自然语  无术中追加抗菌药物要素                                        术中未追加抗菌药物
 症状模型、药品模型、手术模型、  4.1 标准化术语本体库建设 标准化  言处理 通过自然语言分词以及上  图3  复杂数据逻辑加工

 30    China Digital Medicine. 2023,Vol.18,No. 1                        《中国数字医学》2023 第 18 卷 第 1 期   31
   24   25   26   27   28   29   30   31   32   33   34