编者按:截止3月3日,新冠疫情已导致80303人感染。疫情肆虐,如何能更好地研究病毒的传播途径?数据科学在这里面又起到了哪些作用?
实际上,流行病学本身是数据科学最重要的分支之一。在流行病疫情防控上,数据科学不止是统计每天的疫情数据,另外它还是理解流行病的传染特性、传染规律和控制策略的有效性的重要手段。
想要了解数据科学的作用,就需要从流行病的定义谈起。传染病是指由特定的传染物(比如病毒、细菌),通过从受感体(人、动物、植物)直接或间接地传播给易感体,使易感体被传染的疾病。
英国霍乱大暴发,多亏了数据科学
19世纪中期,英国本土暴发了霍乱。当时科学家、医生和政府官员对霍乱不了解,一筹莫展,眼睁睁看着疫情蔓延。这时,一些医生观察到,病人的分布常常是穷人区域里的比较多,且散发恶臭的地方比较容易得病,于是便提议用除臭剂来阻止霍乱流行,更有官员提出要把恶臭的地方彻底清掉。
但清洗伦敦后,霍乱开始了第二次暴发,死亡人数比第一次多了3倍之多。问题出在哪里呢?当时人们做了很多观察,但都没有做统计意义上的分析。此时一位医生约翰·斯诺,他走访了死亡患者的家庭,了解有患者家庭和无患者家庭间的区别,对比他们的生活条件、周边环境、生活方式有什么根本不同,收集了很多数据。
利用这些数据,约翰·斯诺最终确定霍乱暴发和水源有关。随后,通过拒绝饮用伦敦苏荷区宽街与苏克莱星街交汇处的一处水井,伦敦霍乱患病率开始降低。
纪念斯诺而保留的水泵和他当年调查绘制的地图,图自网络
30年后,德国的微生物学家罗伯特·科赫发现霍乱的病原体“霍乱弧菌”,它能够存活于水中,从而用科学证明了约翰·斯诺的假设。
斯诺通过比较两个人群组在统计意义上的不同,找出区分它们的关键因素,从而找到致病的原因,这个方法在统计学里叫做“假设检验”。斯诺以此为基础创建了一门非常伟大的学科叫流行病学(Epidemiology),他也被称为“流行病学之父”。为了纪念他,宽街的那口水井的水泵一直保留到现在,水井对面的酒吧被命名为“约翰·斯诺”。
研究流行病,就要找到病原、病的生成期、潜伏期、传染性、严重性、确诊性、病毒传播的模式、风险分析、干预政策的设计和评估、疫情分析和预测。流行病学中的数据科学不一定很复杂。就目前暴发的新冠肺炎疫情,伦敦帝国理工学院的科学家做了一系列研究。
2020年1月18日,伦敦帝国理工学院发表了第一份对武汉的疫情分析,预测患者接近4000人,而当时武汉确诊的病例是41例。 科学家通过离开武汉到了国外确诊的病例有7个,同时从国际航空报告里知道武汉每天有3300人出国。
科学家把每天出国的3300人作为一个在武汉抽样的样本,患病周期是10天,所以总体样本空间有33000人,其中7人是确诊病例,这样就可以算出感染的概率(7/3300*10)。
根据这个概率,可以计算出武汉的感染人数,虽然这是非常粗略的估计,但它却有统计学上的意义。
用动态数据模型来指导疫情防控
疫情每天都在变,健康的人变成感染的人,患者治愈了或不幸去世了,每天都有在动态变化。
要掌握疫情的发展,特别是要了解干预政策怎样影响疫情的动态变化,就要建立流行病的动态模型(SIR模型),这又是数据科学非常重要的问题。
上个世纪二十年代,两位既是传染病学家也是物理学家的英国科学家科马克(W.O.Kermack)和马肯德莱克(A.G.Makenclrick),他们是把人群分为还未被感染的(易感人群,Susceptibles)、感染了的(传染人群,Infectives)、不再被/会感染的(免疫/死亡人群,封闭了的)群体,这三个群体之间的动态关系。就可称为SIR模型。
现在很多预测模型,千变万化,但共同点就是在刻画三个人群之间的动态变化的规律。研究这个规律,我们要看:
(1)从易感者(S)到感染者(I),这个叫感染的传播过程。我们要研究让易感者避免被感染,控制易感人群变成传染人群的速度,这便和干预措施有很大关系。
(2)从感染者(I)到不传染(R), 或叫被移除。不传染有各种情况:一部分是治好了,一般来说病毒性的疾病治好了就有免疫力,不会再被传染;一部分不幸死亡了,也不能再传染;还有一部分我们能够有很好的办法隔离起来,比如方舱医院,让感染者不再传染别人,也可以算是被移除的。
另外,还要看三个动态变化人群之间的关系:
①在给定时间(t)里,易感人群还有多少;
②被传染人群有多少(即已被感染并会传染的人数,我们每天报的疫情有确认的受感者,但报的是发现就诊的, 通常这只是真正受感染的很少的一部分);
③已经治愈的和死亡的数据有多少。这个数目比较确定。
如何创建动态系统数学模型?首先假设模型里每个人是在不断游走的,没有什么限制,接触概率是相同的。我们来研究在这样的环境里,传染病是怎么传播的。
然后开始有干预政策,不让人群那么自由的流动,减少人与人的接触,这样的模型就要做些改变。在动态模型里,我们要找到感染速度、恢复速度等一系列特征量。
感染速度:S→I rate = b*StIt
感染速度(S→I rate),是描述易感者被感染的转换过程的特征。
这个感染速度与两个因素成正比:①被感染人群的大小;②易感人群大小。
所以,感染速度等于易感人群(St)与感染人群(It)的乘积,还要再乘上感染速率参数(b)。
感染速率参数与两个因素有关:与传染接触的概率有关。人群接触少的,参数就会小一点。艾滋病是靠性传染,传染接触的概率一般不大, 而新冠病毒是靠飞沫传染,传染接触的概率就大,要控制人与人的接触就难一些;与疾病传染性有关,也就是说,一旦接触后被感染的概率有多大,