“闪光的不只是黄金。”我们借用莎士比亚的这句话来介绍医疗大数据再适合不过。
随着信息化时代的发展,大数据已经成为当下新的关键词。据悉,一些大型医院每年多至产生 300TB 到 1PB 的数据,这给了我们挖掘更多医疗需求的机会。但尴尬的事实是, 医疗行业 有着海量数据,实用的结构化医疗数据却少之又少。医疗数据的复杂与非结构化问题对于计算机理解学习来说,是个头疼的问题,似乎有的医疗数据是硬石头?
幸运的是,一些行业从业者已经在用技术挖掘医疗大数据的价值。派兰数据就是医疗信息化道路上的一位“掘金人”。成立于 2015 年的 派兰数据 ,是一家医疗大数据产品、临床大数据分析平台和医疗数据服务提供商。其旨在将繁杂的、非结构化的医疗数据变成有价值的结构化数据,为医疗机构、制药企业和支付机构提供数据采集、数据建模、数据分析和人工智能服务。
“有人在解释数据的价值时,将数据比作石油。但石油是不可重复利用的,开采了用了就没有了。大数据却是可以重复利用的,而且增长速度是以秒记的。你从不同的角度去挖掘,它会有新的价值。医疗大数据更是从不同的角度,研究越多,应用越多,它的价值越高。”
谈到医疗大数据的作用,派兰数据的创始人林勇这样告诉动点科技。
想要让医疗数据大范围应用,首要问题就是解决其质量的问题。林勇表示, 医疗数据的第一个难点就是数据要集成、共享,以及“量”的积累。 医疗数据比较敏感,如何与医院合作成为很多科技公司的一个难题。林勇认为,要告诉医院什么数据可用,如何用好数据。“我们帮助医院建设临床科研一体化的科研协作平台和人工智能平台,确保在医院监督的情况下,将数据进行清洗和脱敏,建设临床大数据,保证真正的科研用途和数据应用,比如人工智能支持下的临床辅助决策。”
目前,派兰数据帮助大型三甲医院清洗和脱敏的病例数据量已经达到一千多万,并协助完成了数十项临床科研项目。
第二个难点则是解决“质”的问题,以保证可做多样的数据应用。 什么是“质”的问题,林勇指出了临床数据的一些细节:“临床数据是各种各样的,如结构化的诊断和用药数据,但不同医院可能使用不同的术语和编码。也有非结构化的病历文本数据,比如医生写的病人的主诉(患者在就诊过程中描述的有关其症状的信息),还有一些信息是患者院外的随访信息,像是否遵医嘱减少吸烟喝酒等。”
派兰数据用 AI 去整理清洗这些数据,一方面处理院内的各种临床数据,整合关键的临床信息,统一结构统一医学术语;另一方面,对大量的医学文本,使用医学自然语言处理来解决,不再需要大量繁重的人工标注来处理医学信息,而是使用 AI 进行自动化的标注和关键数据提取。
此外,随着国家“健康 2030 ”的提出,医疗大数据市场的前景更被看好。据相关数据分析,2020 年,中国医疗大数据应用市场规模将达到 79.05 亿元。目前,因为中国各大国企与如浪潮集团等民企巨头参与,医疗健康行业已经形成了医疗大数据三家国家队公司三足鼎立的格局。而 IBM 作为医疗大数据的“老玩家”,也在不断的进军。创业公司会不会在这样高压的环境下“呼吸困难”?
面对这一问题,林勇表现地客观冷静:“创业公司不可能像大公司一样做到全领域触及,但是会在某一些点上或者细分领域深入做强,有专长有专利。所以我们根据自己的定位,目前是专注在一些慢病病种上,帮助医院在人工智能时代,精炼大数据石油,助推临床科研,辅助决策,人工智能的深度应用。”
据了解,派兰数据的核心团队成员来自 IBM、PPD 等公司,在医疗信息化和生物信息领域有超过 15 年的经验。他们早已理解了医疗数据的宝贵,并且寂静地布局。林勇透露,目前派兰数据正在进行新一轮融资,并且已经交出一份答卷:和北上广十几家大型三甲医院及数十家顶尖药企建立了医研企合作,成为浪潮集团及山东健康医疗大数据有限公司的战略合作伙伴,帮助国家队共同建设医疗大数据北方中心。
图片来源:123RF
本文 派兰数据:它给医疗数据洗个澡,再杂乱的数据也是宝 | 创业 来自 动点科技.
原文链接:https://cn.technode.com/post/2018-02-28/6keeper/