Page 25 - 嘉和资讯八十一期
P. 25
嘉和论坛
政策的激励为 RWS 的兴起起到 大数据科研新模式的破冰
了一定支撑作用,然而现实中的困境
却依然存在。 随着大数据及人工智能技术的发
展,利用大数据科研新模式进行真实
一是样本量问题:RWS 的入排标 世界研究,有了破冰的可能。对此,
准往往比较宽泛,以保证覆盖尽可能 北京大学第三医院金昌晓、计虹等在
广的患者群体,因此其所需样本量通 《中国数字医学》杂志 2019 年第 2
常较大。如何快速有效地获取到相关 期发表的《大数据科研分析平台在临
人群,并建立基于真实世界研究的数 床医学研究中的应用探讨》一文中,
据库,成为首要解决的壁垒。 给出了极具前瞻性及启发性的答案。
二是数据质量问题:临床试验的 文章以北京大学第三医院已搭建
数据质量是评价其研究成果的前提和 完成的大数据科研分析平台为切入
基础,因此,确保所收集数据的完整 点,从平台的架构设计、功能特点及
性、真实性、准确性和可溯源性,是 应用效果等不同角度,详细分析和阐
至关重要的。对 RWS 而言,由于其 述了基于大数据及人工智能技术的临
数据来源广泛、结构复杂多样,既有 床研究解决方案,为 RWS 的发展完
院内诊疗数据,又包含院外体检、医 善带来新的契机。
保等健康信息,使数据的异质性更为
明显,利用也更加困难,需要筛选、 以下为《大数据科研分析平台在
融合、清洗及标准化等一系列处理。 临床医学研究中的应用探讨》部分节
在这过程中,如何保证数据质量的持 选内容:
续稳定和高度可用,是研究者要面对 大数据科研分析平台以自然语言
的另一道难题。 处理、机器学习等人工智能技术为支
三是数据分析问题:如前所述, 撑,在数据的收集、整合、处理和统计、
RWS 具有接近临床实际、研究对象 分析等方面,有着巨大的先天优势,
纳入限制少、人群异质性大、自主选 对开展 RWS 起到强大的辅助作用。
择治疗措施等特性,因此在试验过程 其构建是以医院数据中心(HDR)为
中很容易造成潜在的偏倚和混杂。也 基础,辅以基因组学、eCRF 表单及
对后续的数据挖掘和统计分析提出了 随访数据等,形成全量的专病数据库;
更高要求,必须要有强大的分析系统 在经过数据整合、清洗、自然语言处
支撑,才能尽可能减小和控制偏倚和 理、机器学习及去隐私化等技术处理
混杂,使结果更加客观准确。 后,形成数据集市,包含结构化及后