新冠疫情预测模型--逻辑斯蒂回归拟合、SEIR模型

访客2023-12-01 15:36:0612

向AI转型的法式员都存眷了那个号👇👇👇

通过构建统计学模子、数学模子，或者操纵机器进修、深度进修办法拟合疫情开展趋向，操纵汗青数据对将来确实诊病例等疫情形势停止预测，好比说，逻辑斯蒂生长曲线拟合数据，预测将来几天可能的开展趋向；或者操纵时间序列模子构建预测模子；也可用LSTM构建预测模子，一种特殊的RNN收集。以上办法，除生长曲线外，其他模子，需要大量数据做训练，就目前情况看，数据量其实不大，即便构建出模子，参考价值其实不大，并没有与营业做交融，只是以数据理解数据。

别的一个建模思绪，能够从传统疾病传布模子（SIS、SIR、SEIR等），成立流行症模子，连系此次冠状病毒的传布特征，操纵现有的样本数估量出一个大要的参数，成立恰当的流行症数学模子，能较为精准的预估疫情的开展趋向，当然那是一个较为复杂且专业的问题。近日，由钟南山院士团队研究构建的「具有饱和发病率（其解释，任何流行症都具有饱和发病率，即不成能完全被覆灭） SIQS 流行症模子」固然被国外权势巨子期刊退回，但研究功效仍是契合国内疫情开展趋向。

据有关学者介绍，SIQS流行症模子现实上是在传统SEIR模子根底上，加上两个干涉因素，即国度的强力干涉和春节后的回程顶峰，别的，2020年2月28日，钟南山院士团队颁发了一篇名为《公共卫生干涉下COVID-19流行趋向的 SEIR和AI预测批改》，将2020年1月23日前后的生齿迁徙数据及最新的新冠肺炎流行病学数据整合到SEIR模子中生成流行曲线，同时，团队还操纵人工智能手艺，以2003年SARS数据为根底停止训练，从而更好地预测新冠疫情。研究团队还利用长短期记忆模子，预测新增传染数随时间的变革。关于根本训练数据集的处置，研究团队操纵 2003年4-6 月SARS的病例统计，纳入COVID-19流行病学参数。从钟南山院士团队的研究功效来看，假设是一收纯手艺团队，是无法做出解释性强、可信度高的预测模子，所以说数据建模不单单依靠的是手艺东西，更多的是营业理论布景，模子不该该是冰凉的手艺实现，更应该是有温度、有内涵的营业与手艺的交融。

因本人不具备流行症、医疗专业范畴相关常识，从非专业角度，测验考试操纵Logistic生长曲线模仿泰安地域累计确诊病例数量，并试着简单论述传统疾病传布模子-SEIR。

（一）Logistic生长曲线

逻辑斯蒂曲线是由比利时数据学家初次发现的特殊曲线，后来，生物学家皮尔(R．Pearl)和L·J·Reed按照那一理论研究生齿增长规则，因而，逻辑斯蒂生长曲线也被称为生长曲线或者珍珠德曲线。逻辑斯蒂生长曲线一般形式如下：

Yt=L1+ae-bt

L,a,b均为未知参数，需要按照汗青数据停止估量。生长曲线在现代贸易、消费行业、生物科学等方面有着十分普遍的应用。

我们操纵生长曲线模子，拟合上海2022年3月1日到4月30日累计确诊病例数据，成立生长曲线模子。数据拟合如下图所示，蓝色部门显示确实诊病例不雅测值，橙色部门显示的是确诊病例预测值，并计算出3天确实诊预测病例数据（5月7日，5月8日，5月9日）。

截行本论文完成时间（5月9号），新冠确诊的现实人数是55599、55921、56155（别离为5月7日、5月8日、5月9日的数据），而按照此模子预测那三天确实诊人数别离为55926、56179、56387，可见预测值与现实值根本一致。

逻辑斯蒂拟合的代码

从上图预测值生成的曲线来看，生长曲线模子整体呈现“S”型，根据相关参考文献申明，生长曲线能够分为初期、中期和末期三个阶段：

在初期，固然 t处于增长阶段，但是 y 的增长较为迟缓，那时曲线呈现较为平缓的上升；

在中期，跟着t的增长，y 的增长速度逐步增快，曲线呈现快速上升的态势；当到达拐点(t，Y)后，因函数饱和水平的增长到达末期，跟着t的增长 y 的增长较为迟缓，增长速度趋近于0，曲线呈程度状开展。

在领会模子特点后，假设外部因素干涉事务开展，就会招致数据的突然增加或削减，会影响模子的预测精度。因而，logistic增长模子只是对疾病停止预估，其实不能准确判断，也并非更佳模子。当然能够通过模子优化，来进步预测精度，有的文献提出能够按照华罗庚提出的0.618选优法，对得到的模子停止优化（计算该模子能否能得到预测值和丈量值最小残差平方和）。那里我们就不再展开，能够后期停止切磋进修。

（二）疾病传布模子-SEIR

查阅相关文献后，发现常见的流行症模子根据流行症类型分为SI、SIR、SIRS、SEIR 模子等，用于研究流行症的传布速度、空间范畴、传布路子等问题，用来指点对流行症的预防和控造。模子中涉及S、E、I、R、r、β、γ、α参数：

S类：暗示易感者 (Susceptible)，指未抱病者，但缺乏免疫才能，与传染者接触后容易遭到传染；E类：暗示表露者 (Exposed)，指接触过传染者，但暂无才能传染给其别人的人，对暗藏期长的流行症适用；I类：暗示感病者 (Infectious)，指染上流行症的人，能够传布给 S 类成员，将其变成 E 类或 I 类成员；R类：暗示康复者 (Recovered)，指被隔离或因康复而具有免疫力的人。如免疫期有限，R类成员能够从头变成 S 类。

r：传染患者（I）每天接触的易感者数目；β：传染系数，由疾病自己的传布才能，人群的防控才能决定；γ：恢复系数，一般为病程的倒数，例如流感的病程5天的话，那么它的γ就是1/5；α：暗藏者的发病概率，一般为暗藏期的倒数。

我们那里不再操纵收罗到的数据，模仿疫情开展形式，一方面原因是我们其实不能较好的估量模子中涉及到各个参数, 需要考虑的的参数较多，另一方面数据其实不能支持其模子推导，出格是疫情的政府干涉因素、社会舆情因素，对疫情开展趋向城市产生必然的影响，应将相关的因素考虑进去，所以那个问题相对来说是比力复杂的过程，我们那里不再停止过多切磋。各人有兴趣的能够去查找相关文献质料，停止深切研究进修。

SEIR模子代码

一个在线的SEIR模子可视化平台

基于GNN的新冠肺炎疫情开展预测

机器进修算法AI大数据手艺

搜刮公家号添加： datanlp

阅读过本文的人还看了以下文章：

TensorFlow 2.0深度进修案例实战

基于40万表格数据集TableBank，用MaskRCNN做表格检测

《基于深度进修的天然语言处置》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目的检测算法系列讲解，通俗易懂！

《美团机器进修理论》_美团算法团队.pdf

《深度进修入门：基于Python的理论与实现》高清中文PDF+源码

《深度进修：基于Keras的Python理论》PDF和代码

特征提取与图像处置(第二版).pdf

python就业班进修视频，从入门到实战项目

2019最新《PyTorch天然语言处置》英、中文版PDF+源码

《21个项目玩转深度进修：基于TensorFlow的理论详解》完好版PDF+附书代码

《深度进修之pytorch》pdf+附书源码

PyTorch深度进修快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器进修实战:基于Scikit-Learn和TensorFlow》

《Python数据阐发与发掘实战》PDF+完好源码

汽车行业完好常识图谱项目实战视频(全23课)

李沐大神开源《脱手学深度进修》，加州伯克利深度进修（2019春）教材

条记、代码明晰易懂！李航《统计进修办法》最新资本全套！

《神经收集与深度进修》最新2018版中英PDF+源码

将机器进修模子摆设为REST API

yolo3 检测出图像中的不规则汉字

同样是机器进修算法工程师，你的面试为什么过不了？

前海征信大数据算法：风险概率预测

【Keras】完好实现‘交通标记’分类、‘票据’分类两个项目，让你掌握深度进修图像分类

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模子堆叠

特征工程(七)：图像特征提取和深度进修

若何操纵全新的决策树集成级联合构gcForest做特征工程并打分？

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师（共四面）通过

全球AI挑战-场景分类的角逐源码(多模子交融)

斯坦福CS230官方指南：CNN、RNN及利用技巧速查（打印保藏）

中科院Kaggle全球文本婚配竞赛华人第1名团队-深度进修与特征工程

不竭更新资本

深度进修、机器进修、数据阐发、python

搜刮公家号添加： datayx

Tags：

新冠疫情预测模型--逻辑斯蒂回归拟合、SEIR模型

相关推荐

控制面板

网站分类

最新留言