当前位置:首页 > 新闻中心 > 新闻 > > 闭关4年,投入8亿资金,500位顶级数据科学家完成了一个“脏活儿”

闭关4年,投入8亿资金,500位顶级数据科学家完成了一个“脏活儿”

发布:2018-04-17 14:35 | 来源:第一健康网 | 查看:
分享到:

摘要: 许多人有所不知,国内现有的信息化系统已经超过4000个,平均每家医院使用的超过100个,这些系统对数据的结构和表达存在很大差异,这其中有超过半数数据是自然语言的文本,而每家医院的科室甚至医生对信息的书写方式都可能不同,这种极度复杂性让计算机无法理

许多人有所不知,国内现有的信息化系统已经超过4000个,平均每家医院使用的超过100个,这些系统对数据的结构和表达存在很大差异,这其中有超过半数数据是自然语言的文本,而每家医院的科室甚至医生对信息的书写方式都可能不同,这种极度复杂性让计算机无法理解数据且进行计算。

如果换成人工执行,500人终其一生也无法处理数十亿的病历。

但是有这么一家公司,确实做到了。经过4年的不懈努力、8亿元的巨额投入,500位科学家的执着,纵深大量疾病研究,“在泥泞中砥砺前行,打造未来数字医疗的基础设施”,最终获得了近百家中国顶级医疗研究机构(排名前150)和政府机构的信任。这家公司就是医渡云。

“20人、8亿元、12亿份、2000万个”

2013年,医渡云成立了一支20人的团队。他们凭着一股“以可用数据作为基础的新型医疗才是未来”的信念,花了近4年时间、8亿资金只做一件事:埋首于医疗大数据、人工智能基础平台研发。

至今,他们协助医疗机构完成超过12亿余份病历资料的数字化与数据化处理,从中建立超过2000多万个诊断名的标准化,这意味着每天的病历处理数量高达70万份、每天至少需建立超过1.5万个标准化诊断名。国内排名前150家医院中三分之二是它的合作客户。今年,他们还将与10个省市政府机构,合作建立起区域化医疗数据平台。

“20人、8亿元、12亿笔、2000万个”,这些数字,代表着一家中国原创公司的崛起。或许这些数字在大多数人眼中并不特别,但正是这些数字背后的力量在推动中国医疗改革,用数据人工智能改善民生。

医渡云正在改变中国医疗行业的样貌。

这一波人工智能的复兴,在中国出现了许多赢得巨额融资的初创公司,没有镁光灯照射的医渡云在公众界显得有点“默默无名”。尽管获得大型投资机构投资,从技术开发、落地、到串起产学研三大环节,早已超过独角兽的身价,但他们从未对外公布。

而且,他们所做事情的起点,实际上也是整个医疗过程中相当辛苦的部分--把原始数据变成可用数据,即“大数据的基础处理”。

“医疗这件事,大家都想做,比如说挂号、帮你找专家等,我不否认他们的价值,但最最基础的工作,把原始数据变成可用数据这种‘脏活’,没人愿意做”医渡云创始人宫如璟开玩笑的说。但事实的确如此,建立基础的活最难做,就像盖房子打地基一样,因此很少有初创公司会像医渡云一样选择切入技术门槛很高的基础系统。

他们为中国医疗体系打“地基”的进展如何呢?医渡云处理病历数累计12亿余份,整理出2000多万个诊断名。能把分散的、非结构、非标准化的数据自动转化成标准可用的,而且聚集起来,这就是医渡云的技术本事。

有了这个一致化的数据集后,基础架构平台可以发挥效用的空间就被彻底打开了。

敢啃“硬骨头”,才能构建起庞大规模平台

在诸多公司里,大多数是选定一、两个领域切入,鲜少看到一家公司像医渡云一样,战线拉得这么远:开发的“医学数据智能平台”(DPAP)涵盖从基础科研、临床系统、医院管理系统,再到跨院跨区的合作共享,但却又能全盘统筹、协作有秩,而非“PPT造车”式的纸上谈兵。

在数据领域产生质的突破,才能解密整个产业链。这也是产业链中最“硬”的骨头。原因除了重视隐私保护的行业特性,使得对科技的评估、导入相对较慢之外,很多数据是属于非结构化甚至医生个性化的自然语言文本,例如医生主观撰写的病历、巡诊纪录,而且信息散落院内各部门,也导致了数据运用之难。

要突破这个瓶颈,第一件事就是得有一个基础设施平台,接着再让平台上长出各种智能模块,并且能与医院现有的系统对接。

因此,医渡云用三年半的时间专注开发出一个整合性极强的医疗数据处理系统,能把原始零散的不可计算数据变成高质量可计算可应用数据,平台上聚集了大量知识图谱、300种以上的智能处理模块以及二十余种专病库。

这件事有多难?医渡云首席技术官(CTO)徐济铭举了一个具体的例子,同一个疾病,每位医生的写法可能都不同,例如“二型糖尿病”的“二”,有人写汉字、阿拉伯数字等,还有人会写糖尿病二型、或是Type2Diabetes,这还只是最简单的一种,很多拗口的疾病有更多复杂的写法,尽管在医疗诊断里有所谓的国际疾病分类编码标准(ICD),不过也才2万多种,不足以应付实际情形的发展。

想要解决这个问题,就必须让机器看懂不同说法其实都是指同一种疾病。而这个问题还只是DPAP平台上数不清的问题中的一个“小”问题,解决它都需要计算机对自然语言中词语的结构和语义有深刻的理解才能做得到。

而医渡云开发的基础平台可以把过去分散的、来自不同厂商的数据等,快速转变为标准化,而且符合CFDA和美国食品药物监督管理局(FDA)认可的数据。

300个模块功能背后的超长战线

医渡云的四位创始人不断提及的一个理念就是:“改善人类与疾病的关系”,但具体要如何“改善”?这个重任实际上就落到了他们的医疗大数据平台上。

真正制约医疗大数据发挥价值的主要瓶颈,在于数据平台从集成到处理,再到应用这三个维度的能力。这就意味着,仅仅将数据从不可用变为可用,只是医渡云使命的起点,如何在可用数据的基础上构建出相应的应用,同样是至关重要的一个环节。

如今,在数据智能驱动下,其核心基础“医学数据智能平台”已经搭载了300多个应用模块,贯穿整个医疗过程。

例如在临床辅助诊疗上,结构化数据按照不同的功能模块呈现,准确反映每个患者在其整个治疗周期中的病情进展,DPAP通过对散落的数据整合,构建患者的时间轴模块,以诊疗事件时间为主线,完成疾病数据建模;从疾病的角度来看,DPAP还能够提供疾病数据模型。而无论是疾病数据模型,还是患者诊疗模型,这都是临床科研、路径挖掘、疗效评价、辅助诊断应用的基础。

根据国际国内医学标准,目前医渡云已经完成了对不少疾病的不同核心信息的整合和识别,构建出25个大病种、3000多个疾病的模型,而这个成果数字还在不断扩大。

目前,支撑医渡云所拥有的300多个功能模块的技术,涵盖了近年来颇为关键的基础算法和人工智能技术,涉及到医学自然语言处理、医学影像处理、医学知识图谱构建、医疗大数据挖掘、大规模(深度)机器学习模型及应用等,这其中有多个项目,更是目前全球学术研究发展的热点所在。

爬过15座山之后迎来质变

系统开发完成后,新的挑战就是落地。医渡云在2017年开始将产品推向商业化,现在国内排名前150的医院有超过三分之二成了它的客户。

“究竟是怎么办到的?”得到的答案很诚实且很诚恳,“就是慢慢做,第一家是最难的,花了1年2个月才上线,前15家几乎没有网络效应,产能上不去,很痛苦,”宫如璟回忆说。

医渡云在2013年成立时,尽管行业能接受这种大数据、AI创新的理念,但部分医院的策略仍偏保守,更大程度上是出于与商业公司进行数据合作在数据安全性与合规性上的担心和不安。医渡云的数据安全技术、数据合规保障机制一步步被医院感知,这一瓶颈才被打破。

就这样,医渡云的应用产品一步一步吸引了许多专家、医院,磁吸效应逐渐产生,而且“机器”看多了、学多了,系统就变得更聪明。例如中山大学附属肿瘤医院携手医渡云进行大数据战略合作,并在业内知名的《柳叶刀》(TheLancet)期刊上发表了与鼻咽癌相关的论文。目前双方在鼻咽癌、结直肠癌和肺癌等方面都有科研合作。

“在跨越了15家客户后,平台网络的价值快速扩大,量变产生质变”。现在医渡云已处理医院10几年的数据,完全不用人工,最快两周就可以完工上线。

医疗行业是一个门槛很高的行业,再加上科技巨头、初创公司全都聚集于此,竞争更加激烈,但宫如璟毫不畏惧,她的信心来源很简单也很困难,就是团队的技术实力。

宫如璟在英国求学期间蝉联了五年全英数学冠军,在华尔街投行14年的历练;CEO孙喆曾联合创立北京惠旭金信,主要关注医疗行业投资,在医疗行业有丰富的投资和经营实践经验。

CTO徐济铭则是中国科学院研究生院计算机应用专业硕士,曾负责百度搜索服务团队、框计算团队等核心技术团队,也曾获选百度最有价值员工。首席战略官(CSO)何直,早先曾是阿里巴巴集团产品总监,领导了天猫大数据平台建设,在连续创业的历程中,先后创立了专攻大数据挖掘的精准营销软件及服务的杭州数云信息等四家公司。

宫如璟笑着说,现任首席数据科学家彭涛,“还是当时跟今日头条抢的,他加入的原因是他觉得我们的东西更难,有挑战”。很多员工都是基于想要一起改变中国医疗现状的这股热情而加入。

去年底,医渡云找来了前微软亚洲研究院资深研究经理,专攻自然语言处理与知识工程研究的闫峻,出任首席人工智能科学家,并且延揽了美国斯坦福大学统计系教授王永雄,担任首席数据科学顾问,强化了这家学霸公司的阵容。

随着业务快速增长,团队人数过去几年都是翻倍的增长,到了今年底预计会达到800余人,其中研发团队占比高达60%以上,大部分都是来自全球/国内的知名互联网公司和顶尖实验室;还有20%的团队是完全专注在医学领域,因此整家公司有高达80%以上的人力资源都是在做医疗领域研发。

跨区整合,数据智能辐射至药物研发和医保

在与医疗机构的顺利合作之后,医渡云将目光放得更远。孙喆透露,建立跨区的数据中心将是今年的工作重点,预计建立10个左右省级层面的区域医疗数据中心。

医疗数据中心会把当地的三甲医院、二级、三级医院的数据通通集中到这个区域的云平台上,因为跨院数据的集中共享,帮助患者能够建立起一个完整的患者健康档案,患者不必带着病历到处跑,医院之间也能有效的为患者做全面的健康类服务。

对于药物研发的效益,医渡云希望推动医院和医院之间的联合。例如每一家医院现在都有自己的新药研发基地,当制药企业某个新药研发项目联合区域的时候,承接能力会变得更强,将会加快新药上市。“同时也可对政府提供整个公共决策的支撑”孙喆强调。

去年,医渡云与重庆医科大学联合共建了重庆医科大学医渡云医学数据研究院,成为国家首个医学数据二级学院。一同与国家食品药品监督管理总局(CFDA)展开了药品不良反应的合作,基于整个重庆区域人群分析基础之上,有效分析出该区域的药品使用情况、具有重庆特殊性的不良反应等,这就是区域平台的庞大效能。

通过这样的合作,除了了解中国药品不良反应的发生情况,还有一个很大的意义在于拉动制药产业,以及建立一个聚集产管学研力量的优质监测机制。

由此可见,医渡云的服务已经从最初只面向医疗机构,走到了区域平台、辅助公共决策的层次上。

不久前,医渡云也与南京医科大学签约,作为合作伙伴承建江苏省转化研究院国家级新药创制项目的信息平台,致力于“让药品的研发必须朝品质更好、更安全、更便宜”。

除了临床试验外,新药上市后的不良反应监管一直也是业界的难题。

传统模式下,这种监管依赖于医生的主动上报,或者企业需要调动非常多的人力资源,在新药上市后去医院采集相关的信息。整个过程高度容易产生错误、疏漏。为了解决这个问题,医渡云承接了重庆医科大学和CFDA不良反应管理中心的专项课题,研发基于大数据和算法的智能监察系统。

而制约医疗行业变革的另一个核心因素则是医保的管理。只有医保作为支付方能更加科学的去评估一个疾病的支付方式和定价,才能从根本上帮助整个医疗市场形成良性循环。

近期,医渡云即将宣布与清华大学自动化系合作建立智慧医疗自主系统联合研究中心,针对医保领域的应用从理论和方法上进一步深入创新。未来面向医保的应用不论是核心技术或系统架构设计将会不停向上升级。

医渡云现在正在做的,就是帮助医疗产业和外部产业融合。近日,医渡云与人民健康在医疗大数据领域在推动医疗创新产业发展、共同搭建人民健康云平台、医疗数据质量评价体系研究与评价标准制定等方面开展广泛合作,在医疗健康服务创新领域开展积极探索,助力“健康中国”战略实施和“国家大数据战略”落地。这不仅牵涉到14亿人的健康,如果发展得顺利,还可以为全人类做出贡献。毕竟,互联网+医疗健康已经成为中国医疗行业变革的重要举措,医渡云将披荆斩棘、砥砺前行。