WEBVTT
Kind: captions
Language:  en

00:00:01.960 --> 00:00:08.720
Merci, Lauren, pour votre aimable présentation, et merci aux hôtes de 2024 COVID Information Commons et à nos collègues conférenciers, étudiants et membres du personnel. Je vais 

00:00:08.720 --> 00:00:16.960
aujourd'hui vous présenter notre projet Expeditions, financé par la NSF. Il s'agit d'une recherche collaborative pour une épidémiologie computationnelle omniprésente à l'échelle mondiale. Je 

00:00:22.840 --> 00:00:38.280
m'appelle Judy Fox. Je travaille à l'école de science des données et d'informatique de l'université de Virginie.

00:00:38.280 --> 00:00:45.360
Il s'agit d'un projet multi-institutionnel dirigé par le Dr Madhav Marathe, 

00:00:45.360 --> 00:00:54.040
qui en est le coordinateur principal. Nous avons des collègues à l'université de Virginie et au Biocomplexity 

00:00:54.040 --> 00:01:10.960
Institute. Il s'agit d'une collaboration multi-institutionnelle et nous avons des collègues et des chercheurs formidables. C'est une expérience très stimulante pour moi.

00:01:10.960 --> 00:01:18.440
Je voulais parler de l'avenir. C'est la partie la plus passionnante de ma présentation d'aujourd'hui. Imaginez COVID en 2025.

00:01:18.440 --> 00:01:29.920
Que serons-nous ? Nous voulons passer de l'intervention à la prévention, car les maladies infectieuses sont un problème de société. 

00:01:29.920 --> 00:01:38.560
D'ici à 2050, on prévoit plus de 10 millions de décès par an et un impact économique de plus de 100 000 milliards de 

00:01:38.560 --> 00:01:46.720
dollars. Il y a quelques années, nous sommes sortis d'une pandémie qui a fait plus de 1,1 million 

00:01:46.720 --> 00:01:58.240
de morts rien qu'aux États-Unis et qui compte plus de 100 millions de cas. Cela représente près d'un tiers des familles infectées. 

00:01:58.240 --> 00:02:05.600
Une grande partie de cette situation aurait pu être évitée grâce à une politique gouvernementale mieux informée. Cependant, 

00:02:05.600 --> 00:02:14.640
COVID-19 est un problème de données complexe. Tout d'abord, nous recevons des données non stationnaires.

00:02:14.640 --> 00:02:25.200
l est très difficile d'apprendre et de prédire les tendances avec un manque de données, des données bruyantes. 

00:02:25.200 --> 00:02:33.440
Rendre les prévisions d'infection compréhensibles ou explicables peut également aider à la prise de décision.

00:02:41.520 --> 00:02:49.360
Elles peuvent aider à identifier les zones géographiques et temporelles importantes afin que nous puissions signaler aux gouvernements une allocation

00:02:58.280 --> 00:03:07.800
Je souhaite axer le reste de mon exposé sur les recherches menées par mon groupe. 

00:03:07.800 --> 00:03:17.480
Nous voulions interpréter les infections COVID-19 au niveau des comtés aux États-Unis.

00:03:17.480 --> 00:03:24.160
Nous avons appliqué le modèle Transformer AI, qui est un type de modèle d'apprentissage profond utilisé par les grands modèles de langage. 

00:03:24.160 --> 00:03:36.240
L'un des domaines sur lesquels nous nous concentrons est la question suivante : pourquoi avons-nous besoin de prédictions ?

00:03:36.240 --> 00:03:44.280
Les prédictions utilisant des données en temps réel ont été mises en évidence en 2009 par le Dr Harvey V. Fineberg

00:03:44.280 --> 00:03:52.080
et le Dr Mary Elizabeth Wilson. Ils soulignent l'importance de l'utilisation des données les plus

00:03:52.080 --> 00:03:58.640
récentes pour étudier la lutte contre les maladies et tenter d'observer et de prédire. Les interventions

00:03:58.640 --> 00:04:09.080
 seront mises en œuvre au moment du pic, mais elles permettront d'aplanir la courbe avant l'heure.

00:04:09.080 --> 00:04:17.040
Nous utilisons un modèle d'apprentissage profond, le Temporal Fusion Transformer (TFT),

00:04:17.040 --> 00:04:24.240
qui permet de faire des prévisions en temps réel. Dans nos expériences,

00:04:24.240 --> 00:04:32.640
nous utilisons les 13 derniers jours pour prédire les 15 jours à venir. Les données collectées proviennent de

00:04:32.640 --> 00:04:42.360
différents modèles de prédiction. Nous les classons en ensembles 

00:04:42.360 --> 00:04:50.120
différents modèles de prédiction. Nous les classons en ensembles de données co-variantes statiques et dynamiques, comme les cas et les décès. Nous disposons également 

00:04:50.120 --> 00:04:56.960
de données connues telles que les fêtes de fin d'année. Avec un tel modèle, notre objectif est d'essayer de comprendre comment utiliser l'IA interprétabl

00:04:56.960 --> 00:05:06.240
pour obtenir des connaissances et des informations sur le lieu et le moment où l'infection se produira. Quels sont les pays les plus exposés ?

00:05:06.240 --> 00:05:13.120
Quelles sont les communautés vulnérables ? Et nous essayons de les aider.

00:05:13.120 --> 00:05:23.760
Le parcours de cette étude est tout cela, avec de nombreux obstacles que nous devons surmonter.

00:05:23.760 --> 00:05:33.680
Le problème vient de la question générale de la précision. Comment notre modèle peut-il prédire de manière à ce que nous soyons sûrs que notre

00:05:41.600 --> 00:05:50.760
politiques quels sont les facteurs importants de l'augmentation actuelle du nombre de cas ? Pour cela,

00:05:50.760 --> 00:05:57.440
nous devons avoir une compréhension plus approfondie des données elles-mêmes à un niveau beaucoup plus fin, 

00:05:57.440 --> 00:06:06.840
comme les caractéristiques au niveau du comté. Nous voulons également prendre une décision en temps réel afin de garantir sa pertinence. 

00:06:06.840 --> 00:06:14.320
Il s'agit d'une étude très riche, car la disparité en matière de santé n'est pas seulement liée aux personnes, mais aussi à l'impact socio-économique. 

00:06:14.320 --> 00:06:26.640
Nous avons recueilli plus de deux ans et demi de données pour 3 142 comtés américains.

00:06:26.640 --> 00:06:35.040
Nous catégorisons et réduisons les caractéristiques de l'ensemble des décès de vingt à six caractéristiques. Deux d'entre elles sont 

00:06:35.040 --> 00:06:41.040
statiques : la disparité en matière de santé et le groupe d'âge de la population. Il existe des caractéristiques observables, notamment la vaccination, la propagation de la maladie,

00:06:41.040 --> 00:06:48.520
les cas transmissibles et la mobilité. Nous incorporons 

00:06:48.520 --> 00:06:59.400
des événements connus et inconnus, de sorte que nous disposons d'un modèle d'IA articulée multimodale très complexe.

00:07:00.360 --> 00:07:07.360
Permettez-moi de passer à la vitesse supérieure et de vous présenter quelques-uns de nos résultats en matière de prédiction. 

00:07:07.360 --> 00:07:16.320
Nous avons comparé le modèle TFT avec le LSTM, un modèle de base de séquence à séquence. Nous pouvons 

00:07:16.320 --> 00:07:23.800
montrer que dans le graphique de gauche, le modèle TFT est le plus performant. Il donne le message d'erreur,

00:07:23.800 --> 00:07:32.360
la précision est plus élevée et l'erreur est plus faible.

00:07:32.360 --> 00:07:40.880
Qu'est-ce qui sous-tend la compréhension de l'IA interprétable ? Cela vient du mécanisme de tension qui utilise une architecture codeur-décodeur et le mécanisme de tension est à la base 

00:07:40.880 --> 00:07:48.720
grand modèle de langage actuel, y compris ChatGPT. Grâce à ce mécanisme de multi-attention, nous pouvons saisir le contexte de la maladie au fil du temps,

00:07:51.080 --> 00:07:58.920
ce qui permet d'affiner l'espace dans lequel nous examinons la caractéristique - la cause et l'effet. Nous pouvons ainsi 

00:07:58.920 --> 00:08:06.880
mettre l'accent sur l'importance des schémas spatiaux et temporels dans les zones sensibles. Sur la 

00:08:15.080 --> 00:08:24.600
droite, vous pouvez voir l'architecture d'un modèle TFT. Nous saisissons les caractéristiques passées et essayons de prédire les événements futurs.

00:08:32.240 --> 00:08:39.200
tatiques, en utilisant un modèle de séquences pour capturer les modèles temporels fiables. Nous propageons tous ces 

00:08:39.200 --> 00:08:48.160
schémas à l'auto-attention pour tenter de masquer l'attention multi-têtes

00:08:48.160 --> 00:08:57.920
interprétable afin de pouvoir nous concentrer sur les schémas et les zones importants. 

00:08:57.920 --> 00:09:07.760
Ce modèle de prévision est en mesure de nous fournir le modèle cyclique qui rend compte des cas COVID. Il tient

00:09:07.760 --> 00:09:15.240
également compte des événements particuliers, tels que les vacances et les week-ends. Nous pouvons clairement les identifier dans ce graphique

00:09:15.240 --> 00:09:23.560
Sur le côté droit, nous pouvons même regarder en arrière pour voir quelle période a le plus

00:09:23.560 --> 00:09:33.480
d'impact sur la prédiction future dans le laps de temps de 0 à 13 jours.

00:09:33.480 --> 00:09:40.720
Voici le tableau des tendances que nous pouvons prédire. En choisissant les 100 comtés les plus peuplés, 

00:09:40.720 --> 00:09:47.920
vous pouvez voir que nous avons une prédiction par rapport à la vérité de terrain. En outre, nous pouvons comparer

00:09:47.920 --> 00:09:55.920
es comtés moins peuplés - vous pouvez voir que le résultat correspond beaucoup mieux et

00:09:55.920 --> 00:10:07.480
et qu'il y a moins de pics et de valeurs différentes. 

00:10:07.480 --> 00:10:14.280
Qu'en est-il des informations relatives à la localisation ? Ce graphique montre à gauche l'auto-attention du modèle d'IA et saisit l'intensité au niveau du comté. 

00:10:14.280 --> 00:10:21.320
Cela n'est pas possible si nos données se situent au niveau de l'État. 

00:10:21.320 --> 00:10:29.280
À droite, on trouve une représentation des données des cas cumulés provenant du CDC pour plus de 3 000 comtés américains.

00:10:29.280 --> 00:10:40.080
Si vous regardez ces deux résultats, vous pouvez voir la corrélation entre ces deux ensembles de données et les résultats

00:10:40.080 --> 00:10:49.200
Nous avons mesuré la corrélation et conclu que nous pouvons interpréter le modèle d'IA en

00:10:49.200 --> 00:10:55.800
saisissant les poids d'auto-attention au niveau du comté. Il existe une forte corrélation entre le comportement du modèle et la prédiction 

00:10:55.800 --> 00:11:03.680
des cas par rapport à la vérité de terrain.

00:11:03.680 --> 00:11:12.640
R2 fournit les informations dont les décideurs politiques ont besoin. Nous pensons qu'une petite réduction de la transmission dans les points chauds peut conduire

00:11:12.640 --> 00:11:20.360
à une forte réduction des infections, en particulier au stade précoce. Il est essentiel d'établir des prévisions en temps réel et 

de concentrer notre attention sur les régions les plus importantes en termes d'infections quotidiennes. Nous disposons
00:11:26.760 --> 00:11:34.520
d'une méthode fine pour détecter ces infections au niveau du comté, ce qui réduirait considérablement le risque. De nombreux 

00:11:34.520 --> 00:11:42.720
travaux futurs peuvent être réalisés à partir de ce résultat existant. Nous pouvons explorer de nombreux 

00:11:42.720 --> 00:11:53.160
impacts et disparités sociaux et économiques dans le cadre de travaux futurs.

00:11:53.160 --> 00:11:59.440
À l'UVA, nous avons lancé le programme AI for science et attiré plus de 3 000 étudiants de premier cycle. Nous avons sélectionné une douzaine d'étudiants impliqués dans notre projet. 

00:12:09.960 --> 00:12:19.240
Nous souhaitons étudier plus avant la sensibilité des groupes d'âge de la population en utilisant l'étude de l'indice de 

00:12:28.640 --> 00:12:35.320
Nous avons choisi un modèle d'apprentissage profond de séries temporelles parce que le mécanisme de tension

00:12:35.320 --> 00:12:43.760
mentionné ci-dessus peut donner un aperçu et comprendre comment le modèle est prédit.

00:12:53.160 --> 00:13:01.160
public health and the economy at such a&nbsp;
large scale. From the COVID-19 pandemic, our&nbsp;&nbsp;

00:13:01.160 --> 00:13:08.920
sur la santé publique et l'économie à grande échelle. La première leçon que nous avons tirée de la pandémie de COVID-19 est que les tests sont 

00:13:08.920 --> 00:13:16.080
essentiels pour comprendre l'évolution de la pandémie. La deuxième est que de nombreuses infections sont très différentes d'une région à l'autre. La situation est très dynamique. La 

00:13:16.080 --> 00:13:25.360
meilleure façon d'aborder cette question dans la politique est de l'adapter au niveau local. Nous pouvons nous améliorer à bien

00:13:25.360 --> 00:13:35.880
des égards, notamment en construisant les outils que nous avons étudiés pour prédire avec précision l'infection par le COVID et les maladies

00:13:35.880 --> 00:13:42.400
infectieuses à venir. Cela aidera les décideurs politiques à intervenir sur une base scientifique. L'intervention

00:13:42.400 --> 00:13:52.400
est l'avenir. Nous voulons être préparés et prêts pour les crises futures, telles que la pandémie.

00:13:52.400 --> 00:14:02.440
Avant de conclure, je tiens à dire à tout le monde que nous devons instaurer la confiance. S'il y a des leçons à tirer de la dernière pandémie, nous voulons mieux expliquer au public,

00:14:02.440 --> 00:14:11.640
aux experts, aux décideurs politiques ce qui se passe et comment nous pouvons tirer parti de la politique pour 

00:14:11.640 --> 00:14:21.600
avoir un impact. Nous voulons disposer d'une méthode interprétable pour modéliser et évaluer nos méthodes de manière quantifiable. 

00:14:21.600 --> 00:14:31.680
Nous voulons également expliquer le comportement de notre modèle et les prédictions basées sur l'IA aux non-experts, 

00:14:31.680 --> 00:14:40.320
y compris au public et aux étudiants. Collectivement, nous espérons construire un avenir qui nous permettra

00:14:40.320 --> 00:14:49.440
d'être prêts pour les événements futurs.

00:14:49.440 --> 00:14:56.840
Sur ce, je tiens à vous remercier tous d'avoir participé à l'atelier d'aujourd'hui. Je présente ici quelques-uns de nos travaux.

