1 00:00:00,240 --> 00:00:06,200 en la que vamos a estudiar algunas herramientas bioinformáticas aplicadas a la biología molecular. 2 00:00:06,980 --> 00:00:15,880 Es un tema bastante novedoso, puesto que en las últimas décadas las herramientas de análisis bioinformático 3 00:00:15,880 --> 00:00:19,579 se han aplicado a la biología molecular con mucho éxito. 4 00:00:20,960 --> 00:00:26,859 Hablamos de biología molecular como una parte de la bioinformática 5 00:00:26,859 --> 00:00:30,859 como una parte de la informática que va a utilizar herramientas computacionales 6 00:00:31,420 --> 00:00:38,380 para hacer análisis insílico, es decir, para gestionar, para analizar datos biológicos y médicos. 7 00:00:39,179 --> 00:00:44,200 Esta es una nueva rama que ha surgido en la última década y media 8 00:00:44,200 --> 00:00:47,439 y que está cobrando una gran importancia. 9 00:00:47,719 --> 00:00:53,539 Por eso la vamos a ver, aunque ya veis que es una parte pequeña del tema 9, 10 00:00:53,539 --> 00:00:58,240 nosotros la vamos a ver y la vamos a trabajar de forma práctica. 11 00:00:58,659 --> 00:01:06,650 En biología molecular esta especialidad de bioinformática es una herramienta muy importante, 12 00:01:07,069 --> 00:01:10,750 casi casi imprescindible, que tiene muchísimas aplicaciones. 13 00:01:11,329 --> 00:01:16,609 Por ejemplo, ¿para qué se utilizan? Pues se utilizan para localizar, para comparar secuencias, 14 00:01:16,989 --> 00:01:22,430 secuencias de genes, secuencias de mensajero, por ejemplo, comparar las secuencias de un gen 15 00:01:22,430 --> 00:01:46,090 entre diferentes especies, ver estudios de evolución, por ejemplo de evolución comparada, para el diseño de primers, por ejemplo primers para PCR o el diseño de sondas, sondas específicas para técnicas de hibridación, por ejemplo sondas para FISH, para hibridación in situ fluorescente 16 00:01:46,090 --> 00:02:01,969 O, por ejemplo, para obtener información sobre un inserto que queremos clonar en un plásmido, por ejemplo. Bueno, aquí tenéis un botón de muestra de las aplicaciones que tiene la bioinformática en la biología molecular. 17 00:02:01,969 --> 00:02:24,449 Pero ya digo que hoy en día es una herramienta imprescindible que se utiliza muchísimo sobre todo en los laboratorios de investigación biomédica y para la asistencia y el diseño de reactivos para las técnicas de biología molecular como son los cebadores, los primers, sondas específicas, etcétera, etcétera. 18 00:02:24,449 --> 00:02:41,849 Es decir, ¿cómo sabemos que una sonda para una técnica de hibridación in situ fluorescente, por ejemplo, es única y exclusiva para una secuencia diana si el genoma humano tiene miles y miles y miles de pares de bases? 19 00:02:41,849 --> 00:02:54,009 Para poder dar con una sonda específica no podemos hacerlo a mano y coger la secuencia cromosoma a cromosoma y buscar la secuencia específica a mano. 20 00:02:55,110 --> 00:03:03,229 Sería imposible, podríamos estar años. De tal manera que utilizando aplicaciones informáticas podemos hacerlo básicamente en unos segundos. 21 00:03:03,229 --> 00:03:29,250 Y lo que es el diseño de primers igual, de hecho la actividad con la que vamos a evaluar esta unidad de trabajo 9 es una actividad práctica de diseño en sílico de primers que la explicaremos en otro vídeo y vais a poder comprobar por vosotros mismos lo potentes que son estas herramientas bioinformática y todo lo que podemos obtener de ellas. 22 00:03:29,250 --> 00:04:00,879 A ver, el desarrollo y la evolución de estas herramientas de informática ha ido en paralelo a la biología molecular. De tal manera que a medida que se iban descubriendo y se iban teniendo nuevos hallazgos en biología molecular, se iban haciendo descubrimientos nuevos, iban evolucionando las técnicas de biología molecular, los investigadores se daban cuenta que para analizar la cantidad ingente de datos obtenidos, 23 00:04:01,520 --> 00:04:12,400 En una técnica de biología molecular se necesitaban programas informáticos porque hacerlo a mano era prácticamente imposible. 24 00:04:12,659 --> 00:04:21,439 De tal manera que el desarrollo de ambas disciplinas, tanto la biología molecular como la bioinformática, ha ido de la mano siempre. 25 00:04:21,839 --> 00:04:28,860 Imaginaos, por ejemplo, un experimento de microarrays, esta técnica de hibridación que vimos en el tema 5. 26 00:04:28,860 --> 00:04:36,939 la técnica de microarrays, vamos a analizar de una atacada, si os acordáis, todo el genoma entero, 27 00:04:37,180 --> 00:04:43,160 todos los genes presentes, por ejemplo, en el genoma humano o en el genoma de ratón o en el genoma de rata, 28 00:04:44,399 --> 00:04:49,100 entre una muestra control, por ejemplo, y una muestra patológica, experimental. 29 00:04:50,279 --> 00:04:56,459 Claro, imaginaros, son cientos de miles de genes que vamos a analizar a la vez, 30 00:04:56,459 --> 00:05:01,860 son cientos de miles de datos que tenemos que analizar, ¿de acuerdo? 31 00:05:02,040 --> 00:05:04,579 Para ello necesitamos estas herramientas bioinformáticas. 32 00:05:05,540 --> 00:05:11,980 Por ejemplo, cuando hablamos de herramientas bioinformáticas, aquí tenemos un, bueno, un botón de muestra, 33 00:05:12,399 --> 00:05:18,839 por ejemplo, tenemos bases de datos genómicas que almacenan toda la información generada 34 00:05:18,839 --> 00:05:25,139 por la secuenciación completa de los genomas, entre ellos el genoma humano, el genoma de ratón, 35 00:05:25,139 --> 00:05:51,439 Pero cada día se están secuenciando muchos más genomas de otros seres. Por ejemplo, el genoma del coronavirus, este coronavirus de la COVID-19, está secuenciado, ya lo han secuenciado. De tal manera que toda esa información, que es una cantidad ingente de información, está almacenada en bases de datos que llamamos genómicas. 36 00:05:51,439 --> 00:06:19,199 Tenemos también bases de datos proteicas, de datos de proteínas, ya no de los genes sino de las proteínas. En estas bases de datos de proteínas también trabajaremos con una de ellas y veréis la cantidad de información que podemos almacenar, de qué familia proteica es, cuál es su secuencia, qué estructura tridimensional tiene, qué funciones tiene, posibles alteraciones funcionales que pueden llevar o estar asociadas a patología, etc. 37 00:06:19,199 --> 00:06:42,459 Por otro lado tenemos lo que llamamos las aplicaciones, aplicaciones o algoritmos que son pequeños programas, bueno, pequeños entre comillas, son programas que nos permiten analizar secuencias, por ejemplo, alinear la secuencia del gen humano con el del gen del ratón y ver similitudes, qué nucleótidos cambian de humano a ratón. 38 00:06:42,459 --> 00:07:01,399 Para hacerlo fácil hay que alinear las secuencias, hay que compararlas o una serie de programas de software específico para crear mapas cromosómicos, genómicos, donde podemos localizar dentro de un cromosoma la localización exacta de cada uno de los genes que contiene, 39 00:07:01,399 --> 00:07:09,879 algoritmos para diseñar primers y sondas o herramientas de análisis para modelos evolutivos 40 00:07:09,879 --> 00:07:19,779 y creación de árboles filogenéticos, es decir, si yo tengo la secuencia del gen X en 50 especies 41 00:07:19,779 --> 00:07:25,459 haciendo un análisis bioinformático puedo ver cuál de esta especie desde un punto de vista genético 42 00:07:25,459 --> 00:07:31,000 está más cercana a otra desde un punto de vista evolutivo, ¿de acuerdo? 43 00:07:31,399 --> 00:07:35,879 qué especie evoluciona, de qué especie, etcétera, etcétera. 44 00:07:36,540 --> 00:07:40,959 Aplicaciones, por ejemplo, también para análisis e interpretación de microarrays, 45 00:07:41,040 --> 00:07:44,420 que es lo que os contaba antes, o para analizar la expresión génica 46 00:07:44,420 --> 00:07:49,040 de determinados genes en un tejido versus un tejido patológico, 47 00:07:49,699 --> 00:07:53,079 o bases de datos especializadas, por ejemplo, en mutaciones. 48 00:07:54,000 --> 00:07:58,319 Entonces, hay una base de datos que vamos a consultar, que es la base de datos OMIM, 49 00:07:58,319 --> 00:08:06,360 que esa base de datos, por ejemplo, tiene y almacena toda la información sobre las mutaciones somáticas 50 00:08:06,360 --> 00:08:15,040 que conllevan el desarrollo de una patología genética, una enfermedad genética en el humano, ¿de acuerdo? 51 00:08:15,579 --> 00:08:20,199 Tenemos otras bases de datos donde podemos encontrar programas de modelado 52 00:08:20,199 --> 00:08:25,800 para modelar la estructura tridimensional de proteínas, desde su estructura primaria a la secundaria, 53 00:08:25,800 --> 00:08:27,740 la tercera, la cuaternaria, etcétera. 54 00:08:28,319 --> 00:08:51,830 Bueno, esto es un botón de muestra de todas las herramientas que podemos encontrar, ¿de acuerdo? De tal manera que en los últimos años se ha desarrollado una rama de la investigación biomédica que es lo que llaman la investigación insílico. ¿Qué es esto de la investigación insílico? No es ni más ni menos que la investigación científica computacional. 55 00:08:51,830 --> 00:09:18,370 Es decir, una investigación que no se hace en el laboratorio con pipetas y haciendo experimentos, sino que se hace desde el ordenador utilizando herramientas bioinformáticas, contrastando quizá datos experimentales con datos teóricos, pero que es lo que llamamos la investigación insílico. También se le llama investigación simulada por ordenador. 56 00:09:18,370 --> 00:09:46,269 Pero este tipo de investigación se basa en tres conceptos muy importantes. El primero es lo que llamamos el modelado. ¿Qué es el modelado? Consiste en la generación de modelos biológicos virtuales, es decir, a partir de datos experimentales, sistemas biológicos, datos experimentales reales, yo puedo recrear, hacer un modelo virtual. 57 00:09:46,269 --> 00:10:12,429 Por ejemplo, un modelo sobre cómo un vaso sanguíneo vasodilata o vasoconstriñe, cómo se produce la vasoconstricción cuando yo aplico frío o calor. Eso yo lo puedo hacer experimentalmente y medir el calibre con herramientas del laboratorio de forma experimental, cómo varía el calibre de un vaso cuando yo aplico frío o aplico calor. 58 00:10:12,429 --> 00:10:29,429 Ahora con esos datos reales yo en sílico en el ordenador voy a hacer un modelo virtual que me sirva para poder estudiar muchas otras cosas en ese sistema biológico sin tener que acudir a los experimentos. 59 00:10:29,429 --> 00:10:46,509 Es decir, y si yo ahora en lugar de frío y calor a ese vaso le añado por ejemplo una pomada, ¿vale? Me añado una pomada en la piel, es una pomada que tiene efecto refrescante, ¿qué es lo que ocurriría? 60 00:10:46,509 --> 00:10:58,710 Pues antes de ir al sistema real y probarlo a nivel experimental, si yo he generado el modelo biológico, puedo probarlo primero y hacerme una idea de lo que ocurriría en este modelo virtual. 61 00:10:59,429 --> 00:11:23,629 Entonces, el modelo virtual y los sistemas biológicos experimentales se complementan unos a otros. El segundo concepto en el que se basa es el concepto de simulación. ¿Qué es la simulación? Pues la simulación es una predicción, es intentar predecir de forma realista la evolución de este modelo biológico. 62 00:11:23,629 --> 00:11:38,590 Es decir, este modelo biológico virtual al que yo, bueno, que acabo de crear en el ordenador, si ahora añado un estímulo determinado, ¿qué es lo que va a ocurrir? Eso es lo que llamamos una simulación. 63 00:11:38,590 --> 00:11:52,830 Entonces este programita, este modelo biológico me puede permitir predecir qué es lo que pasará. Insílico, insisto, esto es insílico. De esta manera yo puedo preparar y diseñar mucho mejor mi experimento. 64 00:11:52,830 --> 00:12:22,610 Y por último la visualización, que no es ni más ni menos que la representación gráfica de los resultados que obtengo, ¿de acuerdo? Por tanto, en esta investigación en sílico debo ser capaz de modelar, crear un modelo, en segundo lugar, ese modelo me tiene que permitir predecir y por tanto simular determinadas situaciones y en tercer lugar, los resultados obtenidos los tengo que poder visualizar de forma gráfica de una manera fácil y sencilla. 65 00:12:22,830 --> 00:12:31,019 ¿Qué bases de datos de secuencia existen en la actualidad? 66 00:12:31,340 --> 00:12:35,259 Pues la verdad es que se han diseñado innumerables bases de datos 67 00:12:35,259 --> 00:12:37,779 ¿De acuerdo? Y recogen secuencias de todo tipo 68 00:12:37,779 --> 00:12:42,820 De DNA, DNA genómico, ya hemos dicho, genomas completos 69 00:12:42,820 --> 00:12:46,720 DNA clonado, por ejemplo, plásmidos 70 00:12:46,720 --> 00:12:50,600 Ya veremos qué es esto de la clonación de genes 71 00:12:50,600 --> 00:12:52,539 Que todavía no lo hemos visto porque es propio 72 00:12:52,539 --> 00:12:56,000 Bueno, este Mario de la unidad de trabajo 7 73 00:12:56,000 --> 00:12:58,899 O de mensajeros 74 00:12:58,899 --> 00:13:03,000 Trabajaremos con una base de datos de mensajeros 75 00:13:03,000 --> 00:13:04,159 ¿De acuerdo? 76 00:13:04,879 --> 00:13:06,639 Incluso alguna de estas bases de datos 77 00:13:06,639 --> 00:13:10,039 Pueden recoger secuencias y otro tipo de información 78 00:13:10,039 --> 00:13:11,799 Ya muy específica 79 00:13:11,799 --> 00:13:14,159 Por ejemplo, una base de datos 80 00:13:14,159 --> 00:13:17,980 Con todos los datos genómicos de los mamíferos 81 00:13:17,980 --> 00:13:20,039 O de secuencias clonadas 82 00:13:20,039 --> 00:13:22,940 o de mutaciones asociadas a patologías, etc. 83 00:13:24,940 --> 00:13:27,740 Entre todas estas bases de datos hay tres importantes. 84 00:13:27,940 --> 00:13:31,240 El gene de las especializadas, tenemos el GeneCards. 85 00:13:31,720 --> 00:13:36,580 El GeneCards es una base de datos de los genes humanos. 86 00:13:36,580 --> 00:13:39,799 Entonces el GeneCards es... 87 00:13:39,799 --> 00:13:43,860 Bueno, básicamente no es el genoma humano completo, 88 00:13:44,279 --> 00:13:48,299 sino que lo que tiene son todos los genes humanos identificados. 89 00:13:48,299 --> 00:13:50,759 aquí tenéis el link por si queréis acceder 90 00:13:50,759 --> 00:13:52,720 y ver cómo es, de tal manera que 91 00:13:52,720 --> 00:13:54,860 todos los genes nuevos que se van descubriendo 92 00:13:54,860 --> 00:13:57,019 tienen que irse introduciendo 93 00:13:57,019 --> 00:13:58,720 en la base de GINCAT 94 00:13:58,720 --> 00:14:00,539 la base de COSMIC 95 00:14:00,539 --> 00:14:03,240 la base de COSMIC 96 00:14:03,240 --> 00:14:04,879 es un catálogo de mutaciones 97 00:14:04,879 --> 00:14:07,100 somáticas de cáncer, muy útil 98 00:14:07,100 --> 00:14:08,419 para los grupos de investigación 99 00:14:08,419 --> 00:14:11,059 en oncología, cualquier tipo 100 00:14:11,059 --> 00:14:13,059 de cáncer, desde la leucemia al cáncer 101 00:14:13,059 --> 00:14:15,580 colorectal, al glioblastoma multiforme 102 00:14:15,580 --> 00:14:17,019 a nivel cerebral, etcétera 103 00:14:17,019 --> 00:14:37,600 Todos ellos, muchos de ellos tienen mutaciones características en genes específicos que son los que van produciendo que el cáncer pase, por ejemplo, de un estadio de cáncer benigno a un estadio de cáncer maligno y prácticamente ya terminal. 104 00:14:38,240 --> 00:14:42,139 Entonces, esta base de datos, si tú estás estudiando un cáncer 105 00:14:42,139 --> 00:14:46,379 y quieres saber qué mutaciones son características de ese tipo de cáncer, 106 00:14:46,480 --> 00:14:49,120 puedes acudir a esta base de datos y ahí las tienes todas. 107 00:14:49,899 --> 00:14:54,960 Y la base de datos HGVS reúne varias bases de datos 108 00:14:54,960 --> 00:14:58,740 sobre variaciones y mutaciones del genoma humano. 109 00:14:59,100 --> 00:15:02,460 Bueno, pues estas son tres bases de datos especializadas. 110 00:15:03,299 --> 00:15:06,059 Luego tenemos bases de datos genéricas, ¿de acuerdo? 111 00:15:06,059 --> 00:15:32,220 Estas bases de datos genéricas son fruto de la colaboración internacional, ¿de acuerdo? Entonces, del International Nucleotide Sequence Database Collaboration, ¿de acuerdo? Es un grupo, un megagrupo de investigación internacional en el que participan muchísimos países, entre ellos España, que han creado estas tres bases de datos, tres bases de datos que son tremendamente importantes. 112 00:15:32,220 --> 00:16:00,700 el gene bank, el EMBL y el DNA data bank, son muy importantes las tres y reúnen toda la información genómica, ¿de acuerdo? No solamente la información genómica, sino toda la información, todo esto lo vamos a ver más adelante, toda la información respecto a un gen, toda la información que se conoce respecto a ese gen, no solamente la secuencia, sino la secuencia de su mensajero, de splicing alternativos, 113 00:16:00,700 --> 00:16:11,960 cómo es la secuencia de la proteína, qué mutaciones presenta la proteína, si tiene o no tiene patologías asociadas, patologías genéticas. 114 00:16:12,659 --> 00:16:23,820 Básicamente está la base de datos estadounidense del NIH, que es el Instituto Nacional de Salud, los Institutos Nacionales de Salud de Estados Unidos, 115 00:16:24,039 --> 00:16:30,360 que es como si dijésemos aquí en España el CSIC, ¿de acuerdo? De investigación. 116 00:16:30,700 --> 00:16:52,740 Y es el GenBank. La europea, el GenBank europeo está en el Laboratorio Europeo de Biología Molecular en el EMBL, ¿de acuerdo? European Molecular Biology Laboratory y ya veremos que dentro de ellos está el EBI, se le llama, ¿de acuerdo? EBI, lo vamos a ver ahora después, que es como un centro de bioinformática europeo. 117 00:16:52,740 --> 00:17:11,359 Entonces ellos también tienen en el EBI, también tienen, bueno, Ibai, ahí en el Ibai tienen su base de datos que es muy parecida al GenBank. Y después tenemos la japonesa, ¿de acuerdo? Que es el DNA DataBank. ¿Vale? DNA DataBank japonés. 118 00:17:11,359 --> 00:17:39,619 Bueno, en cuanto al análisis de las secuencias es muy útil el análisis de secuencias entre genes de diferentes especies o para ver si el gen, por ejemplo, para saber, para que nos hagamos una idea, para saber de dónde ha venido, para poder descubrir de dónde surgió el virus del VIH, el virus del VIH en los años 80, principios de los años 80, 119 00:17:39,619 --> 00:17:48,640 cuando empezó las infecciones del VIH y el síndrome de inmunodeficiencia humana adquirida del SIDA 120 00:17:48,640 --> 00:17:50,740 fue un virus que no se conocía. 121 00:17:50,940 --> 00:17:54,420 Es muy parecido al caso de ahora del coronavirus del COVID-19. 122 00:17:54,420 --> 00:17:59,480 No se conocía y gracias a herramientas bioinformáticas de análisis de secuencia 123 00:17:59,480 --> 00:18:04,420 se puso a determinar que el virus del VIH tenía su origen en los chimpancés. 124 00:18:04,420 --> 00:18:27,960 Entonces se produjo lo que se llama una zoonosis. Una zoonosis es una enfermedad propia de animales que salta, el virus salta y ya es capaz de infectar a humanos. Es algo parecido a lo que se está intentando estudiar ahora, si este coronavirus realmente viene de otras especies animales y también es una zoonosis. 125 00:18:27,960 --> 00:18:33,460 Se especula si viene del murciélago o viene de los bisones, bueno, ¿de acuerdo? 126 00:18:33,839 --> 00:18:37,500 Vale, pues el análisis de las secuencias es tremendamente útil, ¿de acuerdo? 127 00:18:38,079 --> 00:18:43,640 Existen bases de datos nucleotídicas que permiten identificar secuencias, 128 00:18:44,039 --> 00:18:50,259 en esas secuencias detectar posibles variaciones, mutaciones, compararlas con las secuencias de otros animales 129 00:18:50,259 --> 00:18:55,920 y este análisis de secuencias es tremendamente útil en la investigación biomédica, ¿de acuerdo? 130 00:18:55,920 --> 00:19:22,180 Una herramienta muy utilizada para el análisis de las secuencias es la herramienta BLAST, la vamos a utilizar nosotros también. BLAST está diseñada por el NCBI, el NCBI es el National Center of Bioinformatics, si no recuerdo mal, de Estados Unidos, ¿vale? Es como el European Bioinformatics, pero el americano, ¿de acuerdo? 131 00:19:22,180 --> 00:19:26,920 Es completamente gratuito, lo vamos a utilizar esta base de datos, ¿de acuerdo? 132 00:19:29,220 --> 00:19:33,519 Y por último tenemos los portales bioinformáticos. ¿Qué es un portal bioinformático? 133 00:19:33,740 --> 00:19:41,299 Pues un portal bioinformático no es ni más ni menos que es una web, ¿de acuerdo? 134 00:19:41,380 --> 00:19:50,160 Es un sitio en internet, es un website en el cual, bueno, pues vamos a tener acceso a múltiples aplicaciones bioinformáticas. 135 00:19:50,160 --> 00:20:13,200 Entonces desde estos portales, aquí tenemos varios, el Emboss, Clover, el del IBAI, del Instituto Europeo de Informática o el Ensemble que lo utilizaremos en la práctica, que tenéis que hacer, todos ellos utilizando estos portales desde aquí tenemos links a todas las bases de datos anteriores, 136 00:20:13,200 --> 00:20:33,700 De nucleótidos, de proteínas, de mutaciones, de enfermedades genéticas, ¿de acuerdo? Entonces, estos portales bioinformáticos, bueno, pues se utilizan muchísimo también y nos permiten acceder a múltiples de estas aplicaciones bioinformáticas, ¿de acuerdo? 137 00:20:33,700 --> 00:20:49,099 Entonces, un poquito todo esto sería la teoría de la bioinformática y para el examen, pues, básicamente habría que saber qué es la bioinformática, qué son los portales bioinformáticos, qué tipo de herramientas y qué tipo de bases de datos bioinformáticas tenemos. 138 00:20:49,680 --> 00:20:54,140 Eso es un poquito la información que entraría en alguna pregunta en el próximo examen.