• La mise en garde va même au delà de la tentation à fitter des exponentielles. La phrase clé est la dernière : « Moreover, R2
      statistics are invalid with cumulative data because the assumption that observations are independent is violated. »

    • Une autre ressource sur les erreurs à ne pas commettre quand on décrit les courbes épidémiques :

      Avoidable errors in the modelling of outbreaks of emerging pathogens, with special reference to Ebola | Proceedings of the Royal Society B : Biological Sciences
      https://royalsocietypublishing.org/doi/abs/10.1098/rspb.2015.0347

      (1) models should be fit to raw, disaggregated data whenever possible and never to temporally accumulated data;

      J’ajoute que, une fois que l’accumulation est importante, la courbe cumulative ne permet plus de voir la décrue du nombre de nouveaux cas quotidiens.

    • Je suis d’accord sur « arrêter », mais… :-)

      – Ma courbe principale (celle du dessus) n’est pas une courbe des décès cumulés, mais bien le relevé des décès chaque jour. Et dans nos 3 cas, on a bien eu une accélération de la progression chaque jour, d’où le passage en échelle logarithmique.

      Dans ma courbe du bas, je superpose les évolutions des cumuls des décès, mais je ne représente plus les corrélations linéaires exponentielles, parce que justement, comme il y a un aspect un peu plus « prédictif » (voir si la France suit le même mouvement que l’Italie, à 11 jours de différence), ça n’est justement pas l’approximation exponentielle qui m’intéresse, mais bien la comparaison des deux courbes.

      – Si on fait la courbe comme ils le préconisent, on voit bien que le résultat n’est pas du tout le même que dans leur propre représentation de Hong Kong :

      A comparer à la période représentée chez eux à Honk-Kong :

      Je pense que si j’avais ces chiffres de Hong-Kong dans ma propre représentation, je n’aurais pas le problème d’évolution en pseudo-exponentielle lié à la représentation en cumulé (et en échelle linéaire) : avec ma représentation en exponentielle des nouveaux cas quotidiens, on aurait une représentation encore plus « plate » que la leur, et une corrélation elle-même sans doute à pente quasiment nulle.

      – Dans mon esprit, mais ce n’est pas forcément dit clairement, il ne s’agit de pas faire une prévision à long terme, mais quelles sont les tendances actuelles. L’idée aussi est de s’opposer au discours qui dit que ce ne serait pas grave si on ne fait rien : si on ne fait rien, on a bien une progression exponentielle tant qu’on n’a pas atteint une part importante de la population (ce qui n’est pas encore le cas).

      Tant qu’on a une évolution exponentielle, ce qu’on représente à mon avis, ce n’est pas une prédiction, mais le constat que :
      – on est loin d’avoir atteint le stade de l’immunité de groupe,
      – les mesures mises en place pour contrôler l’épidémie n’ont pas encore les résultats espérés.

      – En théorie, il me semble aussi que, dans tous les cas et sur un moyen terme, on attend (qu’on fasse quelque chose ou qu’on ne fasse rien) une évolution en cloche, avec une première phrase d’augmentation exponentielle, puis un ralentissement de l’augmentation, puis un plateau, puis une phase descendante. La représentation des « pentes » des corrélations au début cherche justement chercher à repérer les éventuels « décrochages » qui suggéreraient qu’on se rapproche de l’aplatissement en cloche (moment où la courbe « décroche » par rapport à l’estimation exponentielle). D’où :
      – dans le cas de l’Italie, une pente générale qui est déjà nettement plus faible que les deux autres pays, ce qui suggère bien qu’on a déjà un ralentissement sur le moyen terme ; et par ailleurs une perturbation nettement plus marquée depuis 4 jours, source d’espoir à surveiller, (est-ce qu’on va commencer à aller vers un plateau, ce qui semble par exemple ce qui est représenté pour Hong-Kong ?) et c’est justement pour cela que, ces deux derniers jours, je suis très d’accord avec le problème de continuer à afficher la progression linéaire exponentielle ;
      – dans le cas de l’Espagne, pour le moment, l’évolution est tristement celle d’une évolution exponentielle ; comme suggéré, ça ne donne pas l’évolution à « long terme », mais par rapport à l’Italie, la courbe exponentielle me semble encore celle qui correspond le mieux à l’évolution à court terme.

      Dit autre : à nombres de décès équivalents aujourd’hui, l’Italie ne semble plus dans une situation où l’on peut dire « il y a aura deux fois plus de morts dans 4 jours » ; l’Espagne, oui, nettement.

  • Je rappelle l’outil de @fil pour visualiser les dernières données dans chaque pays :
    https://observablehq.com/@fil/covid-19-derived-chart

    Si on regarde la tendance sur les 7 derniers jours,
    – la France double le nombre de morts tous les 2,6 jours
    – l’Italie double le nombre de morts tous les 4,2 jours.
    – l’Allemange, malgré les articles enthousiastes qui circulent, est sur un rythme d’un doublement des décès tous les 2,1 jours.

    Si on superpose les courbes des 3 pays à partir du jour où elles ont franchi les 7 morts, on obtient une superposition très nette des courbes. Dans cette logique, l’Allemagne ne semble pas présenter de différence dans le progression des morts par rapport à la France et l’Italie.

    En revanche, on aurait tout de même un infléchissement des courbes au fur et à mesure du temps (qu’il ne me semble pas évident d’expliquer tout de suite : début d’efficacité des mesures de confinement ? amélioration des prises en charge hospitalières ?).

    • C’est très compliqué car il y a beaucoup de facteurs à prendre en compte : par exemple
      – temporels : dans l’hypothèse où la population la plus à risque (les vieux) aurait été rapidement infectée, on voit ses morts apparaître progressivement après 5 à 15 jours, et ce même si l’épidémie arrête de se propager
      – les exponentielles (cf note) peuvent décrire le début d’une courbe épidémique, mais pas la suite — car la population n’est pas infinie. Les courbes à modéliser sont donc plutôt des courbes logistiques (courbes en S avec un début de type exponentiel, puis un plateau).
      – le ralentissement lié au confinement devrait inch’allah commencer à se faire sentir
      – l’hôpital sait sans doute un peu mieux prendre les gens en charge qu’au début (meilleure connaissance de la maladie) mais a moins de ressources (lits, personnels) par patient.

      [note] loin de moi l’idée de dénigrer les épidémiologistes amateurs que nous sommes tous ici, mais il semble bien (merci Prof. @simplicissimus) que la première mise en garde des modélisateurs est que il faut éviter d’employer des données agrégées et cumulées :

      Avoidable errors in the modelling of outbreaks of emerging pathogens, with special reference to Ebola | Proceedings of the Royal Society B : Biological Sciences
      https://royalsocietypublishing.org/doi/abs/10.1098/rspb.2015.0347

      (1) models should be fit to raw, disaggregated data whenever possible and never to temporally accumulated data;

      Par conséquent il faut rester très modeste sur ce que racontent ces courbes.

    • Question que vous avez peut-être déjà abordé ici : est-ce que ce ne serait pas intéressant de présenter ces courbes sous forme de pourcentage de hausse (ou simplement la dérivée) histoire de voir quand la courbe commence à s’infléchir ?

    • Je ne pense pas que les pourcentages eux-mêmes t’indiquent grand chose directement. En fait, la copie d’écran que tu as ci-dessus te donne un peu l’indication que tu suggères, parce que les 3 pays, avec leur décalage dans le temps, ont jusque là suivi la même évolution. Si ça n’a pas forcément valeur prédictive, ça te montre en gros l’évolution de la courbe italienne sur 3 périodes successives d’une semaine :
      – première semaine, l’Italie était presque identique de la pente allemande de cette semaine, avec un doublement en 2,1 jours ;
      – deuxième semaine, l’Italie était presque identique à la pente française de cette semaine (plutôt : avec un décalage d’une dizaine de jours), avec un doublement à peine ralentit ;
      – dernière semaine, l’Italie a désormais un doublement tous les 4,2 jours, ce qui suggère un net infléchissement de la courbe.

      Mais en même temps, comme le rappelle @fil : c’est pas évident d’en tirer des conclusions pratiques.

      Note : je suis fainéant alors j’utilise le rendu que j’ai déjà posté ci-dessus en prétendant que les 3 pays sont suffisamment proches de la courbe italienne. Mais pour être plus précis, l’outil de Fil permet d’afficher cette droite d’approximation en choisissant le nombre de jours (ici : 7), mais aussi un décalage par rapport à aujourd’hui. Tu peux donc directement faire « glisser » cette courbe d’approximation en direct, sur le pays de ton choix, en faisant bouger le curseur, et tu vois ainsi « visuellement » la courbe qui s’infléchit.

  • John Burn-Murdoch sur Twitter : “NEW chart on #coronavirus: we’re now tracking death toll trajectories as well as cases • Deaths in Italy & Spain now growing much faster than they did in China at same stage • More deaths in Italy in last 24h than on any day in Wuhan Live version here: https://www.ft.com/content/a26fbf7e-48f8-11ea-aeb3-955839e06441” / Twitter
    https://twitter.com/jburnmurdoch/status/1239276487062233089

    • si je comprends bien (il n’y a pas beaucoup d’explications), SWP ne fait pas d’estimation de taux de croissance tant que (et uniquement parce que ?) il n’a pas résolu les problèmes de censure.

      • censure à gauche : il y a des décès dont on ne connait pas la date de manière précise
      • censure à droite : il y a encore des cas dont on ne connait pas l’issue, c’est je crois le but du 3ème graphique qui montre qu’une partie des cas ont été réhospitalisés, donc peut-être des décès à venir
      pour calculer le taux de mortalité (CFR case fatalité rate), il connait le dénominateur (nb de cas) mais au numérateur, certains cas sont encore en suspens
      (pour la censure à gauche, je ne vois pas trop comment il peut faire, j’imagine attendre des infos plus précises)

    • Je pensais bêtement que les stats, c’était essayer de faire parler les enregistrements (ou « obtenues ») dont on dispose, pas attendre que les données se conforment à nos conditions de validité.

      Mais surtout ce qui me chagrine c’est de comprendre pourquoi on poserait comme interdit un modèle log pour des valeurs cumulatives. (A priori et naïvement, vu que l’intégrale de l’exponentielle est une exponentielle, ce n’est pas le fait d’additionner avant de passer à la moulinette log qui pose en soi problème.)

    • Oui, c’est bizarre, il utilise un graphique qui te dit : c’est exponentiel accompagné de l’injonction de ne pas ajuster d’exponentielle. Sans autre commentaire.

      Ah, Sang Woo Park vient de donner des explications :
      • sur la censure
      https://twitter.com/sang_woo_park/status/1234123118932889600

      Left-censoring: we don’t know when most cases were infected or symptomatic (not reported).
      Right-censoring: we don’t know the outcomes of most cases yet.
      For example, here’s a list of cases whose onset dates or outcomes are known (and have been transcribed)

      • sur l’injonction de ne pas ajuster une exponentielle
      https://twitter.com/sang_woo_park/status/1239720261387194368

      Unrelated to CFR. I used the log scale for visualization purposes. Naively fitting exponential growth curves to cumulative cases (without accounting for autocorrelated residual structures) leads to biased estimates with narrow confidence intervals. See https://royalsocietypublishing.org/doi/full/10.1098/rspb.2015.0347

      On peut ajouter que dans tous les cas, les exponentielles, comme les arbres, ne montent pas jusqu’au ciel. Ce dont on s’aperçoit d’ailleurs empiriquement sur le graphique du FT pour la Chine et la Corée du Sud. Et n’aident pas à prédire le moment où on atteint la saturation (immunité de troupeau…)

    • Le noyau dur de la référence :

      Avoidable errors in the modelling of outbreaks of emerging pathogens, with special reference to Ebola | Proceedings of the Royal Society B: Biological Sciences
      https://royalsocietypublishing.org/doi/abs/10.1098/rspb.2015.0347

      2. Deterministic models fit to cumulative incidence curves: a recipe for error and overconfidence
      […]
      Although in general one expects that violation of model assumptions will introduce some degree of bias, in this case since both the raw and cumulative incidence curves generically grow exponentially at a rate determined by R0, estimates of this parameter are fairly accurate, on average, when data are drawn, as here, from the early phase of an outbreak. Figure 1b is the corresponding plot of estimated overdispersion of measurement noise. Using the raw incidence data, one recovers the true observation variability. When fitted to cumulative data, however, the estimates display extreme bias: far less measurement noise is needed to explain the relatively smooth cumulative incidence. The data superficially appear to be in very good agreement with the model.

    • Il y a la limite à l’extrapolation, mais ce qu’il dit est autre chose.

      Cumuler lisse… C’est une remarque empirique assez classique mais c’est la première fois que je vois traiter ça aussi officiellement. Il suffit d’avoir essayé avec des séries chronologiques mensuelles saisonnières assez bruitées : quand tu compares la courbe de la série avec les cumuls annuels, le deuxième graphique est beaucoup plus « joli » (ben oui, en moyenne les bruits successifs se compensent…)

      Au passage, si on fait un peu de théorie à pas cher quand tu ajustes en vue de la prévision, tu fais toujours (au moins implicitement…) l’hypothèse d’un bruit blanc (ou du moins pas trop structuré - indépendance, hétéroscédasticité, toussa, toussa (dans le coude of course). Quand tu cumules ta série, tu introduit un processus MA (moyennes mobiles) sur le bruit (puisque ton nouveau bruit est une somme de bruits). Or ce sont les résultats en prévision qui sont de loin les moins robustes au non respect des hypothèses.

      Bon, on va dire que c’est la faute à Twitter et son nombre de signes limités ;-)

    • je ne suis pas en mesure d’entrer dans ces considérations statistiques mais pour comparer ces courbes de mortalité liées au COVID 19, il faudrait intégrer l’age médian des populations concernées, non ? Car l’age moyen est assez élevé en Italie.