La façon dont nous pensons dans un monde moderne et post-industrialisé est caractérisée par une abstraction conceptuelle croissante. La méthode scientifique a transformé notre monde, et elle a transformé la façon dont nous pensons au monde au jour le jour. Piaget a appelé cela le stade opérationnel formel : nous pensons en manipulant des concepts abstraits détachés d’exemples concrets. C’était absolument étranger à nos ancêtres pas si lointains, comme le montrent les expériences menées dans des villages reculés de l’Union soviétique au seuil de l’industrialisation.
L’abstraction est partout : alors que le mot pourcentage n’apparaissait presque nulle part il y a seulement 100 ans, il surgit aujourd’hui autour d’un mot sur 5000 dans le texte anglais moyen, représentant 0,02 % de tous les mots.
D’une certaine manière, nous sommes contraints à la pensée abstraite : nous vivons dans un monde qui ne ressemble à aucun de ceux vus par nos ancêtres évolutionnaires, et ce sont surtout nos facultés de pensée conceptuelle qui tentent de suivre la rapidité avec laquelle notre environnement se déplace, et vers quels types de domaines numériques, basés sur la connaissance, il se déplace. Mais ce n’est pas une tâche triviale. Notre cerveau n’est pas optimisé pour être rationnel et objectif : Wikipedia recense environ 200 biais cognitifs, des schémas psychologiques dans lesquels notre perception déforme la réalité et nous empêche de porter un jugement rationnel.
La fausse confiance des chiffres
Le monde ,tel que nous le rencontrons ,est incertain. Les théories neuroscientifiques modernes considèrent notre cerveau comme un appareil qui essaie constamment de prendre des décisions optimales dans l’incertitude.
À une époque où une pandémie se répand dans le monde entier, menaçant des vies, des emplois et la vie sociale telle que nous la connaissons, l’incertitude est partout.
L’abstraction du monde se débarrasse du bruit et du fracas de la réalité, feignant un sentiment d’objectivité face à l’incertitude. Les nombres donnent une impression d’inattaquabilité, de nous donner quelque chose de stable auquel nous pouvons nous accrocher. Ils nous réconfortent, et pourquoi ne le feraient-ils pas ? Les nombres ont fourni un outil extrêmement utile pour mettre de l’ordre dans le monde, pour le manipuler avec beaucoup de succès. Ils représentent peut-être l’avancée technologique la plus importante de l’humanité depuis la découverte du feu.
Mais les chiffres ne sont pas toujours égaux aux chiffres. Les nombres viennent avec un risque inhérent : l’abstraction est difficile, l’enquête scientifique est difficile, et les nombres peuvent cacher la lutte derrière leur genèse, l’incertitude de l’origine derrière le halo de vérité objective qu’ils rayonnent.
Les difficultés des statistiques
Les statistiques, selon Wikipedia, concernent la collecte, l’organisation, l’analyse, l’interprétation et la présentation des données.
Les nombres sont l’une des façons centrales de représenter les données. Et beaucoup de chiffres flottent dans les médias et le discours public ces jours-ci : taux de mortalité, nombre total de cas, facteurs R0, estimations de l’efficacité des contre-mesures…mais très souvent ,des questions sans réponse se cachent derrière eux.
Avant de supposer ce que les données vous disent sur l’état objectif de la réalité, il faut répondre à certaines questions clés :
- Comment les données ont-elles été recueillies et organisées ?
- Comment sont-elles présentées ?
- Comment doivent-elles être interprétées ?
L’importance de la collecte des données
Covid-19 est un défi presque sans précédent pour la communauté mondiale (ne parlons pas du changement climatique…) et fait que les gens du monde entier retiennent leur souffle collectif. Dans ce contexte, il est donc naturel de rechercher des chiffres qui nous donnent un sentiment de certitude sur ce qui se passe réellement.
Mais les mesures prises pour endiguer la propagation du virus ne sont pas une expérience scientifique, et nous devons donc être très prudents avant de les traiter comme telle. Il y a plusieurs points dans lesquels le test du virus s’écarte considérablement d’une expérience réelle, et dans lesquels les biais affluent. Il est très important de garder à l’esprit que c’est, en fait, le cas et que les chiffres sont là pour être appréciés avec un grain de sel significatif.
- Qui est testé ? Le fait de tester principalement les personnes voyageant depuis des « zones à haut risque » (comme l’Iran, l’Italie et la Chine) induit un biais de groupe de sélection, ce qui conduit à une distribution asymétrique indiquant que pour la plupart des personnes des zones à haut risque ont été infectées, même si les personnes d’ailleurs pourraient l’être aussi, mais ne sont pas détectées.
- Comparer les chiffres entre les pays est d’une valeur limitée parce que les nombres de tests varient considérablement entre eux. Alors que la Corée du Sud, à son apogée, a effectué environ 10000 tests par jour, et que l’Allemagne n’est pas très loin derrière, d’autres pays testent beaucoup moins et détectent en conséquence un nombre beaucoup plus faible d’infections.
- Dans certains endroits, pendant certaines périodes, alors que le nombre de patients ayant une infection confirmée par le Covid-19 augmente de manière exponentielle, le nombre de tests augmente également rapidement. En principe, cela pourrait conduire à une forte croissance des détections ,même si le nombre de personnes infectées restait constant.
- De nombreuses personnes ne présentent presque aucun symptôme ou seulement des symptômes très légers, et donc de nombreuses personnes ne passeront pas inaperçues, en particulier si les capacités de test sont surchargées et donc limitées à un petit groupe de personnes issues de groupes sélectionnés. La situation à Washington, où l’on a retrouvé le virus plusieurs semaines avant le premier cas confirmé, souligne bien ce problème.
Donc, avant de chercher à interpréter les données (tel est le taux de mortalité, tel est le nombre de patients infectés), il faut comprendre comment les données ont été recueillies.
Il y a quelques jours ,un widget est apparu sur l’écran de mon téléphone avec le nombre de cas confirmés se dessinant en lettres rouges : 201463 personnes avaient été infectées par le coronavirus ! Si l’on considère que le nombre réel de cas dans le monde pourrait facilement varier d’un facteur 10 à 50, je ne pense pas que prétendre les compter jusqu’à la personne individuelle unique aide à nourrir une compréhension de la difficulté du processus de collecte des données.
Le taux de létalité est de même souvent jeté en pâture, mais il est assorti d’une quantité presque égale d’incertitude : un immense facteur de confusion inclut la démographie (jusqu’à 70 % des patients en Allemagne sont des jeunes en bonne forme qui reviennent de séjours de ski en Italie, ce qui induit un autre grand biais de groupe de sélection), alors qu’en Italie une grande proportion des personnes affectées est âgée, en partie parce que les personnes âgées en Italie sont plus fortement intégrées dans la vie sociale. Et puis, il y a probablement beaucoup plus de cas non détectés en Italie (il faut savoir que 70 Allemands revenant de vacances dans le Tyrol du Sud ont été testés positifs à un moment où l’État tout entier ne comptait que 2 cas confirmés). Ceci, et le fait que l’Allemagne a commencé à tester plus et plus tôt, a induit une différence dans le taux de mortalité d’un facteur de presque 50 entre deux pays en apparence relativement similaires.
Puis il y a les délais entre l’infection et les guérisons à prendre en compte, l’efficacité des soins intensifs, le rôle du tabagisme et de la pollution atmosphérique (élevés en Italie et en Chine, et plus répandus chez les hommes), la démographie du pays, la capacité des hôpitaux, la question de savoir quels patients sont comptabilisés comme des décès Covid-19 (la première victime allemande était un patient de 78 ans en phase terminale de cancer en soins palliatifs, donc on peut discuter dans quelle mesure sa mort devrait vraiment être comptabilisée par Covid-19), etc.
Il est donc trompeur de dire « le taux de mortalité est ceci et cela », « et de juger de la dangerosité réelle de la Covid-19 sur la base de ces seuls chiffres. Si nous parlons d’un taux de mortalité, nous devons être conscients d’où il vient et de ce qu’il dit vraiment.
Adopter un cadre bayésien
Dans les statistiques bayésiennes, les probabilités expriment notre degré de croyance en un événement. Une estimation bayésienne d’une quantité incorpore toujours ce que nous pensons savoir sur la quantité, plus notre estimation de l’incertitude inhérente à la quantité.
Les nombres expriment notre connaissance de ce monde : mais comme cette connaissance est nécessairement probabiliste, les quantités dans les statistiques bayésiennes sont plutôt représentées par des distributions de probabilité (qui peuvent être une courbe en cloche comme dans le graphique ci-dessus) au lieu de nombres simples. La largeur de la distribution représente notre degré de certitude dans notre estimation. Le point le plus élevé du graphique est notre meilleure estimation (la moyenne de la gaussienne), mais si la distribution est vraiment large, notre meilleure estimation ne nous dit pas grand-chose.
Comme l’explique en détail ce grand regard approfondi sur nos mesures possibles contre elle, il y a un grand nombre d’inconnues quand il s’agit de Covid-19, et trop d’inconnues pour manier n’importe quel chiffre avec trop de confiance (cela explique aussi pourquoi les mesures fortes sont notre meilleure politique en ce moment, car elles nous font gagner du temps pour avoir une image plus claire).
Prenez ce graphique a fait le tour du monde et provient d’un article publié ce week-end par Neil Ferguson et al. à l’Imperial College de Londres.
Indépendamment de l’importance de son message (il a conduit à des changements de politique aux États-Unis et au Royaume-Uni), la façon dont le graphique représente les courbes est trompeuse. Quels sont les paramètres implicites qui ont été introduits dans la simulation, et quelle est la taille de leurs intervalles de confiance ? Les effets de la météo/des différentes mesures de distanciation sociale/de la structure sociale/des traitements émergents sont tous incertains, et aucun de ces facteurs n’a été déterminé par des études empiriques, mais sont, à ce jour, des conjectures.
Comme le dit Jeremy Howard dans son résumé pratique de la situation de Covid-19, alors que ces courbes semblent horribles, les barres d’erreur qui les entourent pourraient être presque de la taille des courbes elles-mêmes.
Surmonter l’incertitude
La ligne de fond : il peut être difficile de rester calme face à l’incertitude, mais il y a une certaine sagesse à cela.
Malheureusement, chez les politiciens, reconnaître l’incertitude est souvent interprété comme un signe de faiblesse. C’est pourquoi je pense qu’il est de la responsabilité de la communauté scientifique de souligner le rôle qu’elle joue dans l’évaluation de ce qui se passe, ce que cela signifie par rapport aux mesures que nous devrions prendre, et pourquoi cette incertitude est l’une des meilleures raisons pour lesquelles nous avons besoin de plus de temps pour la conquérir lentement à travers une évaluation scientifique plus rigoureuse du virus, et ensuite décider de la meilleure stratégie à long terme.
Nous aimons avoir des chiffres auxquels nous raccrocher lorsque le nuage sombre de la pandémie plane au-dessus de toutes nos têtes. Mais avant que des faits plus clairs n’émergent, avant que la communauté mondiale n’ait une maîtrise plus ferme de la situation, il vaut mieux résister à l’incertitude que de perpétuer les faits pour nous tromper nous-mêmes dans le confort ou, à l’autre extrême, nous obséder dans une panique qui vient du fait que nous pensons mieux savoir ce qui se passe que nous ne le savons réellement.