WEBVTT
Kind: captions
Language: es

00:00:01.000 --> 00:00:09.450
Buenas tardes a muchos de ustedes, todavía
son las 11:50 [a.m.] aquí, y voy a hablar

00:00:09.450 --> 00:00:13.510
de cómo voy a trabajar en la democratización
del análisis de secuencias genómicas para

00:00:13.510 --> 00:00:16.080
COVID-19, usando CloudLab, que es un banco
de pruebas experimental financiado por la

00:00:16.080 --> 00:00:20.310
NSF para la computación en nube.

00:00:20.310 --> 00:00:24.900
Estoy en la Universidad de Missouri-Columbia.

00:00:24.900 --> 00:00:30.341
Y así la motivación para nuestro trabajo
es bastante sencilla: hay un creciente interés

00:00:30.341 --> 00:00:37.670
en entender cómo el genoma de un individuo
realmente impacta los síntomas que una persona

00:00:37.670 --> 00:00:44.870
ve debido a COVID-19, así como la gravedad
de la enfermedad, así como el resultado final

00:00:44.870 --> 00:00:46.120
- si sobreviven a la enfermedad o no.

00:00:46.120 --> 00:00:51.100
Por lo tanto, al hacer un análisis genómico
del genoma de los pacientes con COVID-19,

00:00:51.100 --> 00:00:56.129
podemos mejorar nuestra comprensión de la
enfermedad, y esto puede permitirnos tener

00:00:56.129 --> 00:00:59.980
nuevas estrategias de tratamiento y un descubrimiento
de medicamentos más rápido.

00:00:59.980 --> 00:01:07.930
Hay un número de publicaciones que están
viniendo para arriba, y uno de ellos está

00:01:07.930 --> 00:01:16.570
en el New England Journal of Medicine que
hizo un estudio de la asociación genoma-ancha

00:01:16.570 --> 00:01:23.210
- y éste era sobre el uso de cerca de 1.900
pacientes y el estudio de sus variantes genéticas

00:01:23.210 --> 00:01:24.440
en los genomas.

00:01:24.440 --> 00:01:32.210
Otro esfuerzo que ha existido es el Esfuerzo
Genético Humano COVID, y es un consorcio

00:01:32.210 --> 00:01:40.310
internacional y el objetivo es básicamente
identificar cómo el genoma de un individuo

00:01:40.310 --> 00:01:41.990
impacta su respuesta a COVID-19.

00:01:41.990 --> 00:01:46.430
Así que nuestros genomas pueden contener
las respuestas para luchar contra COVID-19,

00:01:46.430 --> 00:01:50.350
y este es un área importante en la que centrarse.

00:01:50.350 --> 00:01:57.130
Así que los objetivos de nuestro proyecto
son básicamente, ya sabes, dos: el primero

00:01:57.130 --> 00:02:03.930
es permitir a los investigadores realizar
análisis variantes a escala en secuencias

00:02:03.930 --> 00:02:07.670
del genoma humano, y el objetivo es darles
los recursos sin cargo.

00:02:07.670 --> 00:02:19.940
Así que el análisis de variantes esencialmente
detecta variaciones en el genoma del individuo

00:02:19.940 --> 00:02:22.129
- por ejemplo, polimorfismos de nucleótidos
individuales o pequeñas inserciones y elimina,

00:02:22.129 --> 00:02:24.590
así como, incluso podemos pensar en variantes
estructurales como las variaciones del número

00:02:24.590 --> 00:02:25.590
de copia.

00:02:25.590 --> 00:02:32.160
Ahora, la otra parte de la investigación
se va a centrar en el desarrollo de un eficiente

00:02:32.160 --> 00:02:38.640
ensamblaje de novo de los genomas humanos
para que podamos hacer un análisis más profundo

00:02:38.640 --> 00:02:46.400
de las variantes de los genomas de los individuos,
ya sabes, uno que pertenece a un grupo que

00:02:46.400 --> 00:02:52.590
no fueron afectados por la enfermedad, y el
otro perteneciente al grupo que se vieron

00:02:52.590 --> 00:02:57.310
afectados por la enfermedad - y en este contexto
particular, estamos viendo COVID-19.

00:02:57.310 --> 00:03:01.930
Así que para lograr nuestros objetivos, lo
que vamos a hacer es desarrollar una infraestructura

00:03:01.930 --> 00:03:02.980
de software utilizando CloudLab.

00:03:02.980 --> 00:03:07.510
Y CloudLab ha existido durante varios años,
fue diseñado originalmente para la investigación

00:03:07.510 --> 00:03:11.610
de sistemas informáticos y no fue realmente
planeado para las cargas de trabajo de datos

00:03:11.610 --> 00:03:16.400
intensivos, pero en este esfuerzo en particular
vamos a mostrar cómo podemos aprovechar CloudLab

00:03:16.400 --> 00:03:21.730
y tener soluciones alternativas en torno a
algunas de las limitaciones que tiene para

00:03:21.730 --> 00:03:25.739
construir una infraestructura que pueda soportar
el análisis genómico a gran escala utilizando

00:03:25.739 --> 00:03:31.010
tecnologías de computación de clúster,
así como herramientas de código abierto,

00:03:31.010 --> 00:03:35.040
así que vamos a estar mirando las mejores
prácticas que hay por ahí para las tuberías

00:03:35.040 --> 00:03:36.040
genómicas.

00:03:36.040 --> 00:03:42.230
Uno de ellos es el GATK, también vamos a
ver el proyecto BD Genomics, vamos a utilizar

00:03:42.230 --> 00:03:50.980
Apache Spark para lograr el paralelismo, y
también vamos a utilizar algunas de las herramientas

00:03:50.980 --> 00:03:56.680
de código abierto que se utilizan ampliamente
en la comunidad de genómica.

00:03:56.680 --> 00:04:03.620
Y la segunda parte sería desarrollar un algoritmo
eficiente que nos va a ayudar a realizar lo

00:04:03.620 --> 00:04:09.019
que llamamos un análisis de variantes exhaustivo
usando ensamblaje de novo.

00:04:09.019 --> 00:04:15.790
Así que esencialmente estamos hablando de
dos grupos de pacientes aquí, y usando el

00:04:15.790 --> 00:04:21.799
modelado gráfico bipartito, estaremos mirando
la comparación por parejas entre estos individuos

00:04:21.799 --> 00:04:26.690
y tendremos un análisis más profundo de
las variantes en sus genomas que nos ayudarán

00:04:26.690 --> 00:04:29.120
a entender mejor la enfermedad.

00:04:29.120 --> 00:04:36.710
Y en el lado derecho lo que se ve es esencialmente
todo el ecosistema que estamos poniendo juntos

00:04:36.710 --> 00:04:40.300
- aprovechando lo que está disponible en
términos de software de código abierto,

00:04:40.300 --> 00:04:42.570
y la construcción de nuestros propios componentes
(como el motor de análisis de variantes exhaustiva).

00:04:42.570 --> 00:04:48.830
Y el objetivo es, al final del día, los investigadores
no deben preocuparse por tener que pagar altos

00:04:48.830 --> 00:04:53.160
costos de recursos de computación en nube,
ya sea a través de proveedores comerciales

00:04:53.160 --> 00:04:54.830
u otros, ya sabes, lugares.

00:04:54.830 --> 00:05:02.580
Así que CloudLab es una plataforma académica
gratuita y nos gustaría aprovechar eso para

00:05:02.580 --> 00:05:08.080
empoderar básicamente a los investigadores
con la capacidad de hacer análisis genómicos

00:05:08.080 --> 00:05:10.360
a gran escala en un esfuerzo por encontrar
una cura para COVID-19.

00:05:10.360 --> 00:05:15.639
También nos gustaría entender: ¿cómo afectan
las cargas de trabajo genómicas a la computadora

00:05:15.639 --> 00:05:17.610
y la red sistemas, ya sabes?

00:05:17.610 --> 00:05:21.539
¿Cómo podemos construir sistemas futuros
que estén mejor orientados hacia el procesamiento

00:05:21.539 --> 00:05:24.080
de cargas de trabajo genómicas a escala?

00:05:24.080 --> 00:05:27.320
Ahora aquí hay un sitio de proyecto - lo
tenemos alojado activamente en Github - y

00:05:27.320 --> 00:05:33.370
podemos permitir a los usuarios registrarse
en CloudLab y hacer análisis de variantes

00:05:33.370 --> 00:05:36.169
en una sola carga, así como en un clúster.

00:05:36.169 --> 00:05:39.500
También pueden hacer ensamblaje de novo sobre
secuencias, tenemos acceso a dos recursos

00:05:39.500 --> 00:05:41.320
disponibles públicamente: uno es el Proyecto
Mil Genomas, que por supuesto no está relacionado

00:05:41.320 --> 00:05:44.950
con COVID-19 pero nos da muchos datos para
probar nuestro software, y luego tenemos acceso

00:05:44.950 --> 00:05:51.390
a la COVID-19 portal de datos donde algunos
de los algunos de los proyectos enumeran secuencias

00:05:51.390 --> 00:05:54.729
que están disponibles para nosotros, ya sabes
trabajar con, también informamos alguna evaluación

00:05:54.729 --> 00:05:56.630
de rendimiento en nuestros esfuerzos iniciales
- qué tan rápido podemos hacer realmente

00:05:56.630 --> 00:06:00.135
el análisis de variantes en estas secuencias
en un modo de clúster - y así como análisis

00:06:00.135 --> 00:06:01.135
de novo.

00:06:01.135 --> 00:06:05.669
Así que por favor, siga este enlace [https://github.com/MU-Data-Science/EVA]
si está interesado en hacer análisis de

00:06:05.669 --> 00:06:11.750
genoma a gran escala sin costo alguno, y aquí
hay una interfaz de usuario sencilla que estamos

00:06:11.750 --> 00:06:15.819
construyendo para que pueda proporcionar acceso,
o proporcionar las URL de sus archivos, y

00:06:15.819 --> 00:06:20.150
luego puede decir ejecutar y dar su ID de
correo electrónico y luego le enviaremos

00:06:20.150 --> 00:06:24.910
de vuelta el archivo de análisis de variantes
una vez que se complete el proceso.

00:06:24.910 --> 00:06:27.090
Aquí está nuestro equipo, que incluye un
conjunto diverso de investigadores que van

00:06:27.090 --> 00:06:29.289
desde la patología a la genómica a la bioinformática
a la epidemiología, y mi Ph.D. estudiante

00:06:29.289 --> 00:06:33.139
Arun Zachariah está activamente involucrado
en la construcción del software junto conmigo,

00:06:33.139 --> 00:06:39.009
así que no dude en ponerse en contacto con
nosotros si tiene alguna pregunta o interés

00:06:39.009 --> 00:06:42.669
en usar nuestra plataforma, y muchas gracias
por su atención.

