Page 25 - 嘉和资讯八十一期
P. 25

嘉和论坛
            政策的激励为 RWS 的兴起起到 大数据科研新模式的破冰

       了一定支撑作用,然而现实中的困境


       却依然存在。                                                       随着大数据及人工智能技术的发
                                                              展,利用大数据科研新模式进行真实
            一是样本量问题:RWS 的入排标                                  世界研究,有了破冰的可能。对此,

       准往往比较宽泛,以保证覆盖尽可能                                       北京大学第三医院金昌晓、计虹等在

       广的患者群体,因此其所需样本量通                                       《中国数字医学》杂志 2019 年第 2

       常较大。如何快速有效地获取到相关                                       期发表的《大数据科研分析平台在临

       人群,并建立基于真实世界研究的数                                       床医学研究中的应用探讨》一文中,

       据库,成为首要解决的壁垒。                                          给出了极具前瞻性及启发性的答案。



            二是数据质量问题:临床试验的                                          文章以北京大学第三医院已搭建
       数据质量是评价其研究成果的前提和                                       完成的大数据科研分析平台为切入


       基础,因此,确保所收集数据的完整                                       点,从平台的架构设计、功能特点及

       性、真实性、准确性和可溯源性,是                                       应用效果等不同角度,详细分析和阐

       至关重要的。对 RWS 而言,由于其                                     述了基于大数据及人工智能技术的临

       数据来源广泛、结构复杂多样,既有                                       床研究解决方案,为 RWS 的发展完

       院内诊疗数据,又包含院外体检、医                                       善带来新的契机。

       保等健康信息,使数据的异质性更为

       明显,利用也更加困难,需要筛选、                                             以下为《大数据科研分析平台在

       融合、清洗及标准化等一系列处理。                                       临床医学研究中的应用探讨》部分节

       在这过程中,如何保证数据质量的持                                       选内容:

       续稳定和高度可用,是研究者要面对                                             大数据科研分析平台以自然语言

       的另一道难题。                                                处理、机器学习等人工智能技术为支



            三是数据分析问题:如前所述,                                    撑,在数据的收集、整合、处理和统计、

       RWS 具有接近临床实际、研究对象                                      分析等方面,有着巨大的先天优势,

       纳入限制少、人群异质性大、自主选                                       对开展 RWS 起到强大的辅助作用。

       择治疗措施等特性,因此在试验过程                                       其构建是以医院数据中心(HDR)为

       中很容易造成潜在的偏倚和混杂。也                                       基础,辅以基因组学、eCRF 表单及

       对后续的数据挖掘和统计分析提出了                                       随访数据等,形成全量的专病数据库;

       更高要求,必须要有强大的分析系统                                       在经过数据整合、清洗、自然语言处

       支撑,才能尽可能减小和控制偏倚和                                       理、机器学习及去隐私化等技术处理

       混杂,使结果更加客观准确。                                          后,形成数据集市,包含结构化及后
   20   21   22   23   24   25   26   27   28   29   30