Page 28 - 嘉和资讯129期
P. 28

嘉和专栏





                 专题策划——数据资源的管理与利用
                 Special Planning




            互联网医院诊疗数据、体检数据、
            生物样本数据、影像数据;第二部
            分为随访数据、可穿戴物联网数
            据、基因测序数据;第三部分为在

            执行的课题研究数据、多中心研究
            数据及既往课题研究数据;第四部
            分为气象数据、公共卫生数据、文
            献数据、基因等公开数据集数据。
            2.3 资源中心存储方案 由于临床数
            据资源中心接入数据形态的丰富和
                                                                图1  临床数据资源中心系统架构
            多样化,采用分布式列式数据库来
            适应数据列和存储的弹性扩展。同                  检验模型、检查模型、医嘱模型                   术语本体库是数据标化、数据质量
            时,为满足数据快速检索、获取及                  等。它是以本体形式构建,并描述                  核查和数据推理的基础,提取医学
            时间序列计算等应用需求,按规范                  相关本体的关系。                         术语标准化体系中的同义词、层级
            化数据模型治理标化的数据采用搜                  3.2 章节数据组模型 由标准数据元               关系及医学术语相关的医学知识
            索引擎数据库、文档数据库、时序                  和基础数据组构成,是表达一个完                  等 [10] ,并进行结构化存储,抽取可
            数据库进行存储,通过数据虚拟化                  整基础医疗信息的单元,如常见的                  被计算机识别的医学关键信息,建
            技术实现对数据服务的透明应用。                  主诉、现病史、既往史、检查所见                  立不同本体间医学知识关联关系。
                                             等,同时记录了上下文语义关系,                  结合国际疾病分类名称(ICD-10)、
            3 构建规范化数据模型                      为后续数据的准确提取提供了可靠                  医学主题词表(MeSH)等医学术

                数据模型是数据治理的重要基                路径。                              语集及实际数据情况,完善医学术
            础,利用人工智能技术则可以帮助                  3.3 文档数据模型 由章节数据模型               语标准化体系。
            概念模型与计算机模型实现完美融                  构成,表达一个完整医疗信息,如                  4.2 文档规范化处理 在病历文书和
               [5]
            合 ,如通过知识图谱的语义网络                  常见的病案首页、入院记录、首次                  检查报告治理过程中,存在两种常
            架构,可以很好地展现实体、实体                  病程等,有利于数据完整性校验以                  见不规范形式:一种是多医疗记录
            属性以及实体间的关系,也为构建                  及数据精准搜索与提取。                      混合在一个文档里,需要通过自然
                                                                                                     [11]
            规范化数据模型打下重要基础。规                                                   语言处理和文档特征识别 ,实现
            范化数据模型是临床数据资源数据                  4 智能化数据治理关键点                     文档拆分和分类识别;另一种是只
            标准化和数据互操作的核心,由于                      为提高数据治理的质量和效                 有文档没有分类属性,需要通过自
            临床、科研等深度应用会导致数据                  率,将数据治理与机器学习、深度                  然语言处理和文档特征识别赋予正
            元新增细化、接入数据种类扩展等                  学习等人工智能技术进行了深度结                  确的文档分类属性。再依据《电子
            不确定需求,因此,临床数据资源                  合,这种应用人工智能技术的新一                  病历临床文档基础模板数据集分类
            中心是一个数据模型持续迭代的建                  代数据治理即称为“智能化数据治                  编码》整理成规范化的医疗文档,
                                                 [9]
            设过程    [6-8] 。总体来讲,主要包含          理” ,如医学自然语言处理技术、 实现文档规范化整理,为后续非
            以下 3 类。                          医学数据自动标准化治理模型、数                  结构化文档分词对应数据模型打
            3.1 基础数据组 是整个规范化数据               据质控规则引擎、数据安全规则引                  下基础。

            模型的基础,如常见的疾病模型、                  擎等,具体如下所述。                       4.3 基于上下文语义识别的自然语
            症状模型、药品模型、手术模型、                  4.1 标准化术语本体库建设 标准化               言处理 通过自然语言分词以及上


            30    China Digital Medicine. 2023,Vol.18,No. 1
   23   24   25   26   27   28   29   30   31   32   33