Page 55 - 嘉和资讯128期
P. 55
行业资讯
平台,建议各个医疗机构数据前置后, 结构变化,但需要人工处理。在进行
再上传数据。 数据采集时,主要分为两大部分:第
一部分是历史数据抽取,难点在于数
第二,数据治理后置模式。原业
据分割;第二部分是实时数据捕捉,
务系统不变,同步历史数据和实时数
据到数据中心,在数据中心里面保持 需把握好频次。这两种抽取方式根据
业务系统的数据库不同,进行数据抽
一份数据原貌,如果标准修改只需要
重新对标。然后根据数据治理的规则 取的组件方式也不同,因此在抽取数
进行数据治理,对标完后由数据中心 据时一定要小心。在进行数据治理时,
提供给其他部门使用。这种方式对数 先治理历史数据,再治理增量数据(理
据治理而言会比较规范。这种模式也 想状态),现实一般是按系统混合治
存在一个挑战,即实时数据治理的压 理。
力全部压在数据中心,对资源要求很 智能数据治理系统主要涉及以下
高,而且会有一定的数据延时性。这 四部分:首先是设定治理规则,包括
种挑战对医院而言是可以应对的,因 表治理规则、行过滤规则、数据项治
此数据治理一般会选择后置模式。 理规则和数据项治理明细设定;其次
在进行数据治理时,广医二院 是行数据治理,包括源行数据过滤、
发现之前采集数据是基于集成平台进 行数据载入、行数据关联载入;第三,
行,这种方式面临的一个最大挑战在 单项数据治理,包括单项源数据载入、
于可能并不是所有数据都是经过集成 数据标准化、数据映射、数据格式化
平台采集的。因此,医院后来改变了 处理、清洗函数处理、数据关联性处
数据采集模式,全部数据来源于源业 理;第四,结构化处理,包括数据归
务系统,在此基础上,采取的是智能 一、数据分类、数据联动、数据追溯。
数据采集的方式。这主要有两大部分: 在实践中过程中,规则如果修改了,
历史数据抽取和实时数据捕捉,尽量 只能启用新规则,停用上一次的规则。
使数据湖里的数据和源业务系统数据 是否全部重新治理也是人为判断。
保持一致。数据湖里的数据分为数据 总体而言,影响数据治理建设的
内容和数据结构进行保存,每个数据
因素主要有以下三大方面:对新技术
内容标注数据结构版本号。
的把控能力;对数据库的深度应用;
智能数据采集可以自动感知数据 对业务数据的熟悉程度。