Problématiques de retraitement des données COVID-19 & modélisation SIRD avancée

01/10/2020

Les modèles épidémiologiques sont aujourd’hui largement utilisés dans les études d’impacts de la pandémie COVID-19 appliquées aux secteurs sanitaires et économiques.

Parmi ces approches, le modèle SIRD, particulièrement répandu, permet de disposer de projections des différents compartiments d’une population de référence (susceptibles, infectés, rétablis, décédés) sur un horizon court et moyen terme. Il apparaît néanmoins nécessaire de faire évoluer la méthodologie SIRD standard afin de capter certains faits stylisés associés à l’épidémie COVID-19, notamment en intégrant un compartiment spécifique dédié aux cas de contaminations asymptomatiques.

Nous présentons dans une première partie les ajustements à appliquer au modèle ainsi qu’aux données COVID-19. La mise en œuvre de ces ajustements sur les données françaises COVID-19 permet ensuite de projeter les différents compartiments à fin 2020.

1. Retraitement des données et ajustements du modèle SIRD

Cette partie reprend les notions et formalisations détaillées dans notre précédent billet dédié à la modélisation SIRD [1], auquel le lecteur intéressé pourra se référer.

Ajustement n°1 : intégration des cas asymptomatiques et des cas non signalés au sein des contaminés

Les nombres de susceptibles observés dans le cadre de la pandémie COVID-19 représentent uniquement la part des cas symptomatiques recensés. Or l’une des spécificités du virus réside en la proportion significative de cas asymptomatiques (individus contaminés mais n’ayant développés aucun symptôme) associés à son mécanisme de propagation. Dans la première phase épidémique, la recherche médicale et plusieurs institutions publiques (notamment l’OMS et le Center for Disease Control), faisaient mention d’ordres de grandeur d’environ 50% à 60% de cas asymptomatiques (cf. par exemple [2]). Des études récentes font aujourd’hui plutôt état de proportions comprises entre 20% et 40%. Il apparaît ainsi nécessaire en préalable à une modélisation SIRD d’effectuer des retraitements sur les données COVID-19 observées afin de tenir compte de ces spécificités.

En notant (Iobs(t)) – resp. (Robs(t)) les historiques de nombres d’individus infectés (resp. rétablis), il peut être envisagé en première approximation de les ajuster afin de tenir compte de la proportion sous-jacente d’individus asymptomatiques, notée wasympt.

Ceci conduit aux corrections suivantes : 

I*(t) = Iobs(t) / 1 – wasympt) et R*(t) ≈ Robs(t) / (1 – wasympt)

À noter que, bien que les proportions de rétablissement d’un cas asymptomatique ou d’un cas reconnu soient par nature différentes, la simplification  proposée pour le nombre de rétablissements incluant les individus asymptomatiques est recevable en tant qu’approximation de premier ordre.

Il peut être également pertinent d’intégrer dans le processus de retraitement des séries d’infectés et de rétablis, la part d’individus symptomatiques dont la contamination n’a pas été déclarée (par ex. cas des patients diagnostiqués COVID-19 non hospitalisés). Afin de ne pas complexifier inutilement la modélisation, cette population n’a pas été intégrée dans notre approche.

Notons que l’hypothèse de proportion d’asymptomatiques constitue un paramètre clé dont l’estimation repose en grande partie sur une évaluation à dire d’expert. Il convient donc de mesurer son impact sur la modélisation par analyse de sensibilités.

Ajustement n°2 : modification du comptage des contaminés

 

 

Les nombres d’individus contaminés recensés dans les sources de données COVID-19 usuelles (par ex. European Centre for Disease Prevention and Control, John Hopkins,…) sont comptabilisés en vision nombre de cas cumulés. Ainsi un individu contaminé puis rétabli viendra incrémenter la population des individus infectés sans pour autant être retiré de ce groupe dès lors qu’il rejoint le compartiment des rétablis. Or dans une modélisation SIRD, la population des susceptibles « S », doit à chaque pas de temps être mouvementée des nouveaux cas d’infection ainsi que des cas de décès et de rétablissements.

Il est donc nécessaire d’appliquer le retraitement ci-dessous afin d’adopter un comptage en vision stock d’infectés à chaque date de projection :

I(t) = I(t – 1) + I*(t) – I*(– 1) – (D(t) – D(– 1)) – (R*(t) – R*(– 1))

Ce retraitement appliqué aux données peut également être formulé, après somme télescopique, comme le nombre d’individus infectés diminué des décès et rétablissements cumulés jusqu’alors :

I(t) = I*(t) – D(t) – R*(t)

La variable  I(t) correspond ainsi au nombre d’individus contaminés symptomatiques et asymptomatiques à la date.

Evolution de la dynamique du modèle SIRD

Sous les notations introduites dans le précédent billet sur l’approche SIRD [1], la dynamique du modèle doit être adaptée comme suit afin de projeter conjointement les compartiments d’individus contaminés symptomatiques et asymptomatiques :

Où Isympt(t) – resp. Iasympt(t) correspond au nombre d’individus symptomatiques (resp. asymptomatiques) en date  et avec les hypothèses suivantes :

  • Le taux d’infection  dépendant du temps et associé aux individus symptomatiques est abattu du facteur  dans le processus de contamination d’un patient asymptomatique (cf. EQ1 et EQ2). Ce paramètre est estimé mais sa valeur initiale est fixée à 50% comme proposé dans l’étude [2] réalisée par l’Imperial College COVID-19 Response Team.
  • Les paramètres de taux de rétablissement et  sont différenciés selon les cas symptomatiques et asymptomatiques (cf. EQ4). Leur inverse représente la durée moyenne de rétablissement d’un patient infecté.
  • Le taux de létalité  est uniquement associé aux individus symptomatiques. Un individu asymptomatique ne décédant pas du COVID-19, la seule sortie possible de l’état de contamination correspond au rétablissement (cf. EQ5).
  • Les nouvelles contaminations induites par les symptomatiques et asymptomatiques sont réparties selon le facteur de pondération wasympt  (cf. EQ2 et EQ3).

Afin d’améliorer l’ajustement du modèle aux données et de pouvoir notamment prendre en compte l’entrée en vigueur d’un plan de confinement, le taux d’infection  est supposé dépendre du temps.

En notant  Tconf  la date de mise en confinement de la population, le taux d’infection est supposé suivre la décroissante exponentielle ci-dessous :

Où le paramètre  Kante (resp. Kpost) correspond à la vitesse de décroissance ante (resp. post) confinement. Les vitesses de décroissance sont supposées proportionnelles :

Kpost = h x Kante

Le facteur h d’ajustement  n’est pas intégré au processus de calibrage et est fixé en amont à l’aide d’une étude dédiée (cf. la section de calibrage infra). Les éléments Kante et  α(0) sont quant à eux estimés au sein du processus de calibrage.

Méthodologie de calibrage du modèle SIRD

La technique d’estimation considérée dans cette étude, repose sur le programme d’optimisation suivant :

Et où θ = (α(0),Kante,δ,βsymptasympt,ϒ)  représente le vecteur de paramètres à estimer.

La fonction cible correspond aux écarts quadratiques entre les nombres observés et théoriques, en vision cumulée et incrémentale. Les cas asymptomatiques n’étant pas observés en pratique, le processus de calibrage se focalise sur les différentes grandeurs observables (i.e. les nombres de contaminés symptomatiques, les décès, les rétablissements).

 

Les éléments correspondent aux poids associés à chacune des composantes de la fonction cible:

 

Pistes d’approfondissement envisageables

Comment mesurer l’effet d’une politique de confinement ?

Disposant d’un modèle épidémiologique susceptible d’effectuer des projections à court et moyen terme, il peut être particulièrement utile de l’exploiter pour mesurer les effets d’une politique de confinement. Ceci peut notamment permettre à des pouvoirs publics de confronter les effectifs de contamination aux capacités des unités de soin et en particulier des services de réanimation. Le lecteur intéressé pourra notamment consulter l’étude de Massonnaud et al. [3] sur le sujet.

Rappelons que le taux d’infection  α(t) est homogène au produit d’une probabilité de contamination avec un nombre moyen d’individus rencontrés par une personne infectée à chaque unité de temps. Différents articles de recherche s’appuient sur des hypothèses de taux de réduction de contacts dans le cadre de la mise en œuvre d’un plan de confinement. Plusieurs chercheurs de l’INSERM évoquent notamment dans Di Domenico et al. [4], des taux de réduction de 80% (resp. 73% et 90%) suite à la mise en place de politique de confinement en France (resp. au Royaume-Uni et à Shanghai).

En notant τ , le taux de réduction de contacts et  D  la duration de l’épisode pandémique (calculée par exemple sur des périodes de temps pondérées par le nombre de décès incrémentaux observés à chaque date), il est possible d’écrire :

Cette relation permet d’objectiver le paramètre  introduit supra  à partir de la relation :

Pour une duration de  jours, conforme aux ordres de grandeurs observés pour les épisodes COVID-19 en Chine et en Corée du Sud, et une vitesse de convergence  Kante d’environ 0,2% , le paramètre  est homogène à un facteur 20 .

L’ajustement du paramètre de vitesse  Kante et Kpost  permet ainsi de rendre compte de l’impact de l’entrée en vigueur d’une politique de confinement.

Adaptation stochastique du modèle SIRD

Les modèles épidémiologiques dans leur utilisation la plus standard, sont projetés de manière déterministe. Or les projections sont particulièrement sensibles à la robustesse des paramètres considérés (source de variabilité dénommée en général par « erreur d’estimation ») voire dans certains cas aux fluctuations d’échantillonnage associées à la projection des compartiments du modèle.

Différentes techniques permettent de quantifier l’erreur d’estimation comme par exemple une méthodologie boostrap appliquée aux bases de données sous-jacentes ou encore la spécification de lois de distributions associées aux observations afin de caractériser la loi de l’estimateur du maximum de vraisemblance des paramètres SIRD.

Pour la prise en compte des fluctuations d’échantillonnage, il est possible sous réserve d’effectifs suffisants, de s’appuyer sur une approche de type « théorème central limite » et d’en déduire une méthode de simulation.

A titre d’exemple, pour générer les fluctuations d’échantillonnage associées au compartiment des décédés, on pourra considérer la variable suivante :

Où  (t) représente la variable aléatoire relative au nombre de décès en période t et (Xk)k une famille de lois indépendantes et identiquement distribuées suivant une loi de Bernoulli de probabilité égale au taux de létalité ϒ.

L’application du théorème central limite, conduit à l’approximation ci-dessous pour le tirage du  nombre de décès en période t:

La construction des variables aléatoires associés aux autres états du modèle SIRD (i.e. rétablissements des symptomatiques et asymptomatiques, nouveaux cas d’infections) repose sur des approches similaires.

Ces différentes techniques permettent d’encadrer les résultats découlant des projections déterministes.

 2. Calibrage du modèle sur les données françaises COVID-19

Les paramètres du modèle épidémiologique SIRD présenté précédemment ont été calibrés sur les données  françaises COVID-19, pour la période comprise entre le 23/01/2020 et le 26/04/2020[1]. Ces données ont été retraitées à partir des méthodologies détaillées dans la première partie permettant d’incorporer des proportions d’individus asymptomatiques dans les populations de contaminés et de rétablis.

Le modèle a également fait l’objet d’un backtesting sur la fenêtre de données comprises entre le 26/04/2020 et le 04/05/2020, date de réalisation de l’étude.

Ajustement du modèle SIRD aux données

Au vu du nombre élevé de paramètres à estimer, il apparaît primordial de pouvoir disposer de valeurs pertinentes pour l’initialisation du processus de calibrage.

Les ordres de grandeurs des différents paramètres du modèles ont été discutés dans le précédent billet sur la modélisation SIRD standard [1], le lecteur désireux d’approfondir ces aspects pourra s’y référer.

Notons néanmoins que dans le cadre de cette étude, la proportion  d’individus asymptomatiques a été fixée à , conformément aux dernières estimations publiées par la recherche médicale. Les valeurs initiales des taux de rétablissement des symptomatiques et asymptomatiques retenues ont été respectivement de 7% et 20%, homogènes à des durées de rétablissement de 14 jours et 5 jours (durées d’incubation fréquemment mises en avant par la recherche médicale).

Par ailleurs, une valeur initiale de 50% a été considérée pour le paramètre d’ajustement  à appliquer au taux d’infection des individus asymptomatiques.

Les valeurs des paramètres estimés sont  restituées dans le tableau ci-dessous.

Tableau 1 : estimation des paramètres du modèle SIRD sur données françaises

Les graphiques ci-après permettent de visualiser l’ajustement des effectifs théoriques induits par le modèle SIRD sur les données cibles observées.

Figure 1 : décès cumulés observés et théoriques sur données françaises 24/01/2020-26/04/2020

Figure 3 : décès incrémentaux observés et théoriques sur données françaises 24/01/2020-26/04/2020

 

Figure 2 : cas confirmés cumulés observés et théoriques sur données françaises 24/01/2020-26/04/2020

Figure 4 : cas confirmés incrémentaux observés et théoriques sur données françaises 24/01/2020-26/04/2020

 

Les ajustements observés sont globalement satisfaisants, les décès projetés par le modèle semblent néanmoins plus élevés que les décès observés. Ce phénomène est dû à une estimation relativement haute du taux de létalité ϒ autour de 1,4%. Nous reviendrons sur cette problématique dans la suite de l’étude.

Backtesting du modèle SIRD

Le backtesting du modèle SIRD sur la période comprise entre le 26/04/2020 et le 04/05/2020, conduit aux résultats présentés dans le tableau ci-dessous.

Tableau 2 : comparaison des effectifs de patients symptomatiques et de décès au 04/05/2020

Le nombre d’infectés projeté par le modèle est plus faible que l’observé. Ceci peut notamment s’expliquer par le processus de calibrage qui repose sur les périodes ante et post confinement. En effet, même si le modèle permet de couvrir ces deux périodes à partir d’une paramétrisation spécifique du taux d’infection, la déformation du risque sous-jacent demeure délicate à capter. Par ailleurs, le nombre de décès projetés est quant à lui plus élevé que l’observé. Ceci provient du niveau du taux de létalité estimé qui est relativement élevé, bien que conforme aux ordres de grandeurs qui ressortent dans les publications d’experts.

Les valeurs des nombres de reproduction Restimés sur les données observées et théoriques sont très proches et égales à 1.1 [1]. Ces niveaux relativement bas, proviennent du fait que l’estimation repose sur les données ante et post confinement. Les R post confinement sont d’ailleurs significativement plus faibles avec des valeurs de 0,5 et 0,4 respectivement sur les données observés et théoriques. Rappelons que lorsque le niveau de R0 est inférieur à  l’épidémie s’éteint progressivement et dans le cas contraire, elle est amenée à se propager. Notons que dans notre précédent billet [1], le  Rmesuré sur la première phase épidémique ante confinement, ressortait à 2,93 . Ce paramètre étant proportionnel au taux d’infection, lui-même proportionnel à la quantité de contacts possibles au sein de la population, une entrée en confinement induisant une réduction de 80% des contacts (cf. partie « Comment mesurer l’effet d’une politique de confinement ? ») conduit à une valeur ajustée de R, homogène avec les estimations du  post confinement présentés ci-dessus.

Projection du modèle SIRD

Comme évoqué supra, le taux de létalité estimé, ressort comme relativement élevé suite à la mise en œuvre du backtesting. Une ré-estimation de ce paramètre afin de faire converger le nombre de décès observés et projetés à l’issue de la période de backtesting renvoie une valeur de 0,4 pour ce paramètre.

Les graphiques ci-dessous présentent les profils de décès et de contaminations symptomatiques projetés sur l’année 2020 :

Figure 5 : nombres de décès cumulés COVID-19 projetés en 2020 sur la population française

Figure 6 : nombres de décès incrémentaux COVID-19 projetés en 2020 sur la population française

Figure 7 : nombres de contaminations COVID-19 projetées en 2020 sur la population française

Figure 8 : cumul des cas confirmés COVID-19 projetés en 2020 sur la population française

Ces projections ont été réalisées conditionnellement à la situation sanitaire au 4 mai 2020, date de réalisation de l’étude. Elles pourront donc dévier progressivement des observations, notamment suite à l’entrée en vigueur de la politique de déconfinement du 11 mai 2020 qui aura un effet sur la déformation du risque et sur les paramètres régissant la dynamique pandémique.

Ces projections permettent d’identifier un pic épidémique (période à partir de laquelle les nouveaux cas d’infection entrent en décroissance) à fin avril 2020 et un nombre de décès global causés par le COVID-19 d’environ 37 000 sur la population française en 2020 (cf. Figure 9). Le nombre de contaminations symptomatiques global s’élève quant à lui à environ 162 000 cas, correspondant au plafond apparaissant en Figure 8.

 Pour aller plus loin…

Le modèle SIRD présenté dans le cadre de cette étude permet de disposer de projections des différents compartiments considérés (susceptibles, contaminés symptomatiques et asymptomatiques, rétablis, décédés) sur un horizon court et moyen terme.

Nous avons également présenté plusieurs pistes d’approfondissements permettant de construire une approche stochastique autour de ce modèle déterministe et d’effectuer différents ajustements sur les paramètres après estimation. Il est ainsi envisageable de simuler des scénarios de confinements / déconfinements en ajustant successivement le taux de contagion qui peut être considéré, comme évoqué plus haut, proportionnel à la quantité de contacts observés dans une population. De même, une amélioration des traitements médicaux liés aux COVID-19 pourrait être reflétée en adaptant de manière cohérente les taux de létalité ou de rétablissement du modèle.

Ces modalités de traitements permettent d’effectuer aisément des calculs de sensibilités du modèle SIRD à de potentielles évolutions du contexte sanitaire qui peuvent être confrontées aux informations disponibles sur les capacités des unités de soin d’une zone géographique d’intérêt. Ceci permet notamment d’anticiper le risque pandémique à moyen terme en évaluant ses impacts sanitaires et économiques.

Il est néanmoins crucial de noter la forte sensibilité des résultats obtenus à la structure du modèle et à son paramétrage, d’autant que les dire d’experts qui permettent de spécifier certaines hypothèses peuvent encore considérablement évoluer avec les progrès de la recherche médicale sur le COVID-19 dans les prochains mois.

 

Laurent DEVINEAU, Executive Partner

Marielle de la Salle, Head of addactis Lab

[1] Modèles épidémiologiques et problématiques de calibrage sur les données COVID-19 – billet addactis, avril 2020

[2] Imperial College COVID-19 Response Team, Impact of non-pharmaceutical interventions to reduce COVID-19 mortality and healthcare demand, mars 2020

[3] Massonnaud et al., COVID-19: Forecasting short term hospital needs in France, mars 2020

[4] Di Domenico et al., Impact attendu du confinement en Île-de-France et stratégies de sortie possibles, avril 2020