1
00:00:00,240 --> 00:00:06,200
en la que vamos a estudiar algunas herramientas bioinformáticas aplicadas a la biología molecular.

2
00:00:06,980 --> 00:00:15,880
Es un tema bastante novedoso, puesto que en las últimas décadas las herramientas de análisis bioinformático

3
00:00:15,880 --> 00:00:19,579
se han aplicado a la biología molecular con mucho éxito.

4
00:00:20,960 --> 00:00:26,859
Hablamos de biología molecular como una parte de la bioinformática

5
00:00:26,859 --> 00:00:30,859
como una parte de la informática que va a utilizar herramientas computacionales

6
00:00:31,420 --> 00:00:38,380
para hacer análisis insílico, es decir, para gestionar, para analizar datos biológicos y médicos.

7
00:00:39,179 --> 00:00:44,200
Esta es una nueva rama que ha surgido en la última década y media

8
00:00:44,200 --> 00:00:47,439
y que está cobrando una gran importancia.

9
00:00:47,719 --> 00:00:53,539
Por eso la vamos a ver, aunque ya veis que es una parte pequeña del tema 9,

10
00:00:53,539 --> 00:00:58,240
nosotros la vamos a ver y la vamos a trabajar de forma práctica.

11
00:00:58,659 --> 00:01:06,650
En biología molecular esta especialidad de bioinformática es una herramienta muy importante,

12
00:01:07,069 --> 00:01:10,750
casi casi imprescindible, que tiene muchísimas aplicaciones.

13
00:01:11,329 --> 00:01:16,609
Por ejemplo, ¿para qué se utilizan? Pues se utilizan para localizar, para comparar secuencias,

14
00:01:16,989 --> 00:01:22,430
secuencias de genes, secuencias de mensajero, por ejemplo, comparar las secuencias de un gen

15
00:01:22,430 --> 00:01:46,090
entre diferentes especies, ver estudios de evolución, por ejemplo de evolución comparada, para el diseño de primers, por ejemplo primers para PCR o el diseño de sondas, sondas específicas para técnicas de hibridación, por ejemplo sondas para FISH, para hibridación in situ fluorescente

16
00:01:46,090 --> 00:02:01,969
O, por ejemplo, para obtener información sobre un inserto que queremos clonar en un plásmido, por ejemplo. Bueno, aquí tenéis un botón de muestra de las aplicaciones que tiene la bioinformática en la biología molecular.

17
00:02:01,969 --> 00:02:24,449
Pero ya digo que hoy en día es una herramienta imprescindible que se utiliza muchísimo sobre todo en los laboratorios de investigación biomédica y para la asistencia y el diseño de reactivos para las técnicas de biología molecular como son los cebadores, los primers, sondas específicas, etcétera, etcétera.

18
00:02:24,449 --> 00:02:41,849
Es decir, ¿cómo sabemos que una sonda para una técnica de hibridación in situ fluorescente, por ejemplo, es única y exclusiva para una secuencia diana si el genoma humano tiene miles y miles y miles de pares de bases?

19
00:02:41,849 --> 00:02:54,009
Para poder dar con una sonda específica no podemos hacerlo a mano y coger la secuencia cromosoma a cromosoma y buscar la secuencia específica a mano.

20
00:02:55,110 --> 00:03:03,229
Sería imposible, podríamos estar años. De tal manera que utilizando aplicaciones informáticas podemos hacerlo básicamente en unos segundos.

21
00:03:03,229 --> 00:03:29,250
Y lo que es el diseño de primers igual, de hecho la actividad con la que vamos a evaluar esta unidad de trabajo 9 es una actividad práctica de diseño en sílico de primers que la explicaremos en otro vídeo y vais a poder comprobar por vosotros mismos lo potentes que son estas herramientas bioinformática y todo lo que podemos obtener de ellas.

22
00:03:29,250 --> 00:04:00,879
A ver, el desarrollo y la evolución de estas herramientas de informática ha ido en paralelo a la biología molecular. De tal manera que a medida que se iban descubriendo y se iban teniendo nuevos hallazgos en biología molecular, se iban haciendo descubrimientos nuevos, iban evolucionando las técnicas de biología molecular, los investigadores se daban cuenta que para analizar la cantidad ingente de datos obtenidos,

23
00:04:01,520 --> 00:04:12,400
En una técnica de biología molecular se necesitaban programas informáticos porque hacerlo a mano era prácticamente imposible.

24
00:04:12,659 --> 00:04:21,439
De tal manera que el desarrollo de ambas disciplinas, tanto la biología molecular como la bioinformática, ha ido de la mano siempre.

25
00:04:21,839 --> 00:04:28,860
Imaginaos, por ejemplo, un experimento de microarrays, esta técnica de hibridación que vimos en el tema 5.

26
00:04:28,860 --> 00:04:36,939
la técnica de microarrays, vamos a analizar de una atacada, si os acordáis, todo el genoma entero,

27
00:04:37,180 --> 00:04:43,160
todos los genes presentes, por ejemplo, en el genoma humano o en el genoma de ratón o en el genoma de rata,

28
00:04:44,399 --> 00:04:49,100
entre una muestra control, por ejemplo, y una muestra patológica, experimental.

29
00:04:50,279 --> 00:04:56,459
Claro, imaginaros, son cientos de miles de genes que vamos a analizar a la vez,

30
00:04:56,459 --> 00:05:01,860
son cientos de miles de datos que tenemos que analizar, ¿de acuerdo?

31
00:05:02,040 --> 00:05:04,579
Para ello necesitamos estas herramientas bioinformáticas.

32
00:05:05,540 --> 00:05:11,980
Por ejemplo, cuando hablamos de herramientas bioinformáticas, aquí tenemos un, bueno, un botón de muestra,

33
00:05:12,399 --> 00:05:18,839
por ejemplo, tenemos bases de datos genómicas que almacenan toda la información generada

34
00:05:18,839 --> 00:05:25,139
por la secuenciación completa de los genomas, entre ellos el genoma humano, el genoma de ratón,

35
00:05:25,139 --> 00:05:51,439
Pero cada día se están secuenciando muchos más genomas de otros seres. Por ejemplo, el genoma del coronavirus, este coronavirus de la COVID-19, está secuenciado, ya lo han secuenciado. De tal manera que toda esa información, que es una cantidad ingente de información, está almacenada en bases de datos que llamamos genómicas.

36
00:05:51,439 --> 00:06:19,199
Tenemos también bases de datos proteicas, de datos de proteínas, ya no de los genes sino de las proteínas. En estas bases de datos de proteínas también trabajaremos con una de ellas y veréis la cantidad de información que podemos almacenar, de qué familia proteica es, cuál es su secuencia, qué estructura tridimensional tiene, qué funciones tiene, posibles alteraciones funcionales que pueden llevar o estar asociadas a patología, etc.

37
00:06:19,199 --> 00:06:42,459
Por otro lado tenemos lo que llamamos las aplicaciones, aplicaciones o algoritmos que son pequeños programas, bueno, pequeños entre comillas, son programas que nos permiten analizar secuencias, por ejemplo, alinear la secuencia del gen humano con el del gen del ratón y ver similitudes, qué nucleótidos cambian de humano a ratón.

38
00:06:42,459 --> 00:07:01,399
Para hacerlo fácil hay que alinear las secuencias, hay que compararlas o una serie de programas de software específico para crear mapas cromosómicos, genómicos, donde podemos localizar dentro de un cromosoma la localización exacta de cada uno de los genes que contiene,

39
00:07:01,399 --> 00:07:09,879
algoritmos para diseñar primers y sondas o herramientas de análisis para modelos evolutivos

40
00:07:09,879 --> 00:07:19,779
y creación de árboles filogenéticos, es decir, si yo tengo la secuencia del gen X en 50 especies

41
00:07:19,779 --> 00:07:25,459
haciendo un análisis bioinformático puedo ver cuál de esta especie desde un punto de vista genético

42
00:07:25,459 --> 00:07:31,000
está más cercana a otra desde un punto de vista evolutivo, ¿de acuerdo?

43
00:07:31,399 --> 00:07:35,879
qué especie evoluciona, de qué especie, etcétera, etcétera.

44
00:07:36,540 --> 00:07:40,959
Aplicaciones, por ejemplo, también para análisis e interpretación de microarrays,

45
00:07:41,040 --> 00:07:44,420
que es lo que os contaba antes, o para analizar la expresión génica

46
00:07:44,420 --> 00:07:49,040
de determinados genes en un tejido versus un tejido patológico,

47
00:07:49,699 --> 00:07:53,079
o bases de datos especializadas, por ejemplo, en mutaciones.

48
00:07:54,000 --> 00:07:58,319
Entonces, hay una base de datos que vamos a consultar, que es la base de datos OMIM,

49
00:07:58,319 --> 00:08:06,360
que esa base de datos, por ejemplo, tiene y almacena toda la información sobre las mutaciones somáticas

50
00:08:06,360 --> 00:08:15,040
que conllevan el desarrollo de una patología genética, una enfermedad genética en el humano, ¿de acuerdo?

51
00:08:15,579 --> 00:08:20,199
Tenemos otras bases de datos donde podemos encontrar programas de modelado

52
00:08:20,199 --> 00:08:25,800
para modelar la estructura tridimensional de proteínas, desde su estructura primaria a la secundaria,

53
00:08:25,800 --> 00:08:27,740
la tercera, la cuaternaria, etcétera.

54
00:08:28,319 --> 00:08:51,830
Bueno, esto es un botón de muestra de todas las herramientas que podemos encontrar, ¿de acuerdo? De tal manera que en los últimos años se ha desarrollado una rama de la investigación biomédica que es lo que llaman la investigación insílico. ¿Qué es esto de la investigación insílico? No es ni más ni menos que la investigación científica computacional.

55
00:08:51,830 --> 00:09:18,370
Es decir, una investigación que no se hace en el laboratorio con pipetas y haciendo experimentos, sino que se hace desde el ordenador utilizando herramientas bioinformáticas, contrastando quizá datos experimentales con datos teóricos, pero que es lo que llamamos la investigación insílico. También se le llama investigación simulada por ordenador.

56
00:09:18,370 --> 00:09:46,269
Pero este tipo de investigación se basa en tres conceptos muy importantes. El primero es lo que llamamos el modelado. ¿Qué es el modelado? Consiste en la generación de modelos biológicos virtuales, es decir, a partir de datos experimentales, sistemas biológicos, datos experimentales reales, yo puedo recrear, hacer un modelo virtual.

57
00:09:46,269 --> 00:10:12,429
Por ejemplo, un modelo sobre cómo un vaso sanguíneo vasodilata o vasoconstriñe, cómo se produce la vasoconstricción cuando yo aplico frío o calor. Eso yo lo puedo hacer experimentalmente y medir el calibre con herramientas del laboratorio de forma experimental, cómo varía el calibre de un vaso cuando yo aplico frío o aplico calor.

58
00:10:12,429 --> 00:10:29,429
Ahora con esos datos reales yo en sílico en el ordenador voy a hacer un modelo virtual que me sirva para poder estudiar muchas otras cosas en ese sistema biológico sin tener que acudir a los experimentos.

59
00:10:29,429 --> 00:10:46,509
Es decir, y si yo ahora en lugar de frío y calor a ese vaso le añado por ejemplo una pomada, ¿vale? Me añado una pomada en la piel, es una pomada que tiene efecto refrescante, ¿qué es lo que ocurriría?

60
00:10:46,509 --> 00:10:58,710
Pues antes de ir al sistema real y probarlo a nivel experimental, si yo he generado el modelo biológico, puedo probarlo primero y hacerme una idea de lo que ocurriría en este modelo virtual.

61
00:10:59,429 --> 00:11:23,629
Entonces, el modelo virtual y los sistemas biológicos experimentales se complementan unos a otros. El segundo concepto en el que se basa es el concepto de simulación. ¿Qué es la simulación? Pues la simulación es una predicción, es intentar predecir de forma realista la evolución de este modelo biológico.

62
00:11:23,629 --> 00:11:38,590
Es decir, este modelo biológico virtual al que yo, bueno, que acabo de crear en el ordenador, si ahora añado un estímulo determinado, ¿qué es lo que va a ocurrir? Eso es lo que llamamos una simulación.

63
00:11:38,590 --> 00:11:52,830
Entonces este programita, este modelo biológico me puede permitir predecir qué es lo que pasará. Insílico, insisto, esto es insílico. De esta manera yo puedo preparar y diseñar mucho mejor mi experimento.

64
00:11:52,830 --> 00:12:22,610
Y por último la visualización, que no es ni más ni menos que la representación gráfica de los resultados que obtengo, ¿de acuerdo? Por tanto, en esta investigación en sílico debo ser capaz de modelar, crear un modelo, en segundo lugar, ese modelo me tiene que permitir predecir y por tanto simular determinadas situaciones y en tercer lugar, los resultados obtenidos los tengo que poder visualizar de forma gráfica de una manera fácil y sencilla.

65
00:12:22,830 --> 00:12:31,019
¿Qué bases de datos de secuencia existen en la actualidad?

66
00:12:31,340 --> 00:12:35,259
Pues la verdad es que se han diseñado innumerables bases de datos

67
00:12:35,259 --> 00:12:37,779
¿De acuerdo? Y recogen secuencias de todo tipo

68
00:12:37,779 --> 00:12:42,820
De DNA, DNA genómico, ya hemos dicho, genomas completos

69
00:12:42,820 --> 00:12:46,720
DNA clonado, por ejemplo, plásmidos

70
00:12:46,720 --> 00:12:50,600
Ya veremos qué es esto de la clonación de genes

71
00:12:50,600 --> 00:12:52,539
Que todavía no lo hemos visto porque es propio

72
00:12:52,539 --> 00:12:56,000
Bueno, este Mario de la unidad de trabajo 7

73
00:12:56,000 --> 00:12:58,899
O de mensajeros

74
00:12:58,899 --> 00:13:03,000
Trabajaremos con una base de datos de mensajeros

75
00:13:03,000 --> 00:13:04,159
¿De acuerdo?

76
00:13:04,879 --> 00:13:06,639
Incluso alguna de estas bases de datos

77
00:13:06,639 --> 00:13:10,039
Pueden recoger secuencias y otro tipo de información

78
00:13:10,039 --> 00:13:11,799
Ya muy específica

79
00:13:11,799 --> 00:13:14,159
Por ejemplo, una base de datos

80
00:13:14,159 --> 00:13:17,980
Con todos los datos genómicos de los mamíferos

81
00:13:17,980 --> 00:13:20,039
O de secuencias clonadas

82
00:13:20,039 --> 00:13:22,940
o de mutaciones asociadas a patologías, etc.

83
00:13:24,940 --> 00:13:27,740
Entre todas estas bases de datos hay tres importantes.

84
00:13:27,940 --> 00:13:31,240
El gene de las especializadas, tenemos el GeneCards.

85
00:13:31,720 --> 00:13:36,580
El GeneCards es una base de datos de los genes humanos.

86
00:13:36,580 --> 00:13:39,799
Entonces el GeneCards es...

87
00:13:39,799 --> 00:13:43,860
Bueno, básicamente no es el genoma humano completo,

88
00:13:44,279 --> 00:13:48,299
sino que lo que tiene son todos los genes humanos identificados.

89
00:13:48,299 --> 00:13:50,759
aquí tenéis el link por si queréis acceder

90
00:13:50,759 --> 00:13:52,720
y ver cómo es, de tal manera que

91
00:13:52,720 --> 00:13:54,860
todos los genes nuevos que se van descubriendo

92
00:13:54,860 --> 00:13:57,019
tienen que irse introduciendo

93
00:13:57,019 --> 00:13:58,720
en la base de GINCAT

94
00:13:58,720 --> 00:14:00,539
la base de COSMIC

95
00:14:00,539 --> 00:14:03,240
la base de COSMIC

96
00:14:03,240 --> 00:14:04,879
es un catálogo de mutaciones

97
00:14:04,879 --> 00:14:07,100
somáticas de cáncer, muy útil

98
00:14:07,100 --> 00:14:08,419
para los grupos de investigación

99
00:14:08,419 --> 00:14:11,059
en oncología, cualquier tipo

100
00:14:11,059 --> 00:14:13,059
de cáncer, desde la leucemia al cáncer

101
00:14:13,059 --> 00:14:15,580
colorectal, al glioblastoma multiforme

102
00:14:15,580 --> 00:14:17,019
a nivel cerebral, etcétera

103
00:14:17,019 --> 00:14:37,600
Todos ellos, muchos de ellos tienen mutaciones características en genes específicos que son los que van produciendo que el cáncer pase, por ejemplo, de un estadio de cáncer benigno a un estadio de cáncer maligno y prácticamente ya terminal.

104
00:14:38,240 --> 00:14:42,139
Entonces, esta base de datos, si tú estás estudiando un cáncer

105
00:14:42,139 --> 00:14:46,379
y quieres saber qué mutaciones son características de ese tipo de cáncer,

106
00:14:46,480 --> 00:14:49,120
puedes acudir a esta base de datos y ahí las tienes todas.

107
00:14:49,899 --> 00:14:54,960
Y la base de datos HGVS reúne varias bases de datos

108
00:14:54,960 --> 00:14:58,740
sobre variaciones y mutaciones del genoma humano.

109
00:14:59,100 --> 00:15:02,460
Bueno, pues estas son tres bases de datos especializadas.

110
00:15:03,299 --> 00:15:06,059
Luego tenemos bases de datos genéricas, ¿de acuerdo?

111
00:15:06,059 --> 00:15:32,220
Estas bases de datos genéricas son fruto de la colaboración internacional, ¿de acuerdo? Entonces, del International Nucleotide Sequence Database Collaboration, ¿de acuerdo? Es un grupo, un megagrupo de investigación internacional en el que participan muchísimos países, entre ellos España, que han creado estas tres bases de datos, tres bases de datos que son tremendamente importantes.

112
00:15:32,220 --> 00:16:00,700
el gene bank, el EMBL y el DNA data bank, son muy importantes las tres y reúnen toda la información genómica, ¿de acuerdo? No solamente la información genómica, sino toda la información, todo esto lo vamos a ver más adelante, toda la información respecto a un gen, toda la información que se conoce respecto a ese gen, no solamente la secuencia, sino la secuencia de su mensajero, de splicing alternativos,

113
00:16:00,700 --> 00:16:11,960
cómo es la secuencia de la proteína, qué mutaciones presenta la proteína, si tiene o no tiene patologías asociadas, patologías genéticas.

114
00:16:12,659 --> 00:16:23,820
Básicamente está la base de datos estadounidense del NIH, que es el Instituto Nacional de Salud, los Institutos Nacionales de Salud de Estados Unidos,

115
00:16:24,039 --> 00:16:30,360
que es como si dijésemos aquí en España el CSIC, ¿de acuerdo? De investigación.

116
00:16:30,700 --> 00:16:52,740
Y es el GenBank. La europea, el GenBank europeo está en el Laboratorio Europeo de Biología Molecular en el EMBL, ¿de acuerdo? European Molecular Biology Laboratory y ya veremos que dentro de ellos está el EBI, se le llama, ¿de acuerdo? EBI, lo vamos a ver ahora después, que es como un centro de bioinformática europeo.

117
00:16:52,740 --> 00:17:11,359
Entonces ellos también tienen en el EBI, también tienen, bueno, Ibai, ahí en el Ibai tienen su base de datos que es muy parecida al GenBank. Y después tenemos la japonesa, ¿de acuerdo? Que es el DNA DataBank. ¿Vale? DNA DataBank japonés.

118
00:17:11,359 --> 00:17:39,619
Bueno, en cuanto al análisis de las secuencias es muy útil el análisis de secuencias entre genes de diferentes especies o para ver si el gen, por ejemplo, para saber, para que nos hagamos una idea, para saber de dónde ha venido, para poder descubrir de dónde surgió el virus del VIH, el virus del VIH en los años 80, principios de los años 80,

119
00:17:39,619 --> 00:17:48,640
cuando empezó las infecciones del VIH y el síndrome de inmunodeficiencia humana adquirida del SIDA

120
00:17:48,640 --> 00:17:50,740
fue un virus que no se conocía.

121
00:17:50,940 --> 00:17:54,420
Es muy parecido al caso de ahora del coronavirus del COVID-19.

122
00:17:54,420 --> 00:17:59,480
No se conocía y gracias a herramientas bioinformáticas de análisis de secuencia

123
00:17:59,480 --> 00:18:04,420
se puso a determinar que el virus del VIH tenía su origen en los chimpancés.

124
00:18:04,420 --> 00:18:27,960
Entonces se produjo lo que se llama una zoonosis. Una zoonosis es una enfermedad propia de animales que salta, el virus salta y ya es capaz de infectar a humanos. Es algo parecido a lo que se está intentando estudiar ahora, si este coronavirus realmente viene de otras especies animales y también es una zoonosis.

125
00:18:27,960 --> 00:18:33,460
Se especula si viene del murciélago o viene de los bisones, bueno, ¿de acuerdo?

126
00:18:33,839 --> 00:18:37,500
Vale, pues el análisis de las secuencias es tremendamente útil, ¿de acuerdo?

127
00:18:38,079 --> 00:18:43,640
Existen bases de datos nucleotídicas que permiten identificar secuencias,

128
00:18:44,039 --> 00:18:50,259
en esas secuencias detectar posibles variaciones, mutaciones, compararlas con las secuencias de otros animales

129
00:18:50,259 --> 00:18:55,920
y este análisis de secuencias es tremendamente útil en la investigación biomédica, ¿de acuerdo?

130
00:18:55,920 --> 00:19:22,180
Una herramienta muy utilizada para el análisis de las secuencias es la herramienta BLAST, la vamos a utilizar nosotros también. BLAST está diseñada por el NCBI, el NCBI es el National Center of Bioinformatics, si no recuerdo mal, de Estados Unidos, ¿vale? Es como el European Bioinformatics, pero el americano, ¿de acuerdo?

131
00:19:22,180 --> 00:19:26,920
Es completamente gratuito, lo vamos a utilizar esta base de datos, ¿de acuerdo?

132
00:19:29,220 --> 00:19:33,519
Y por último tenemos los portales bioinformáticos. ¿Qué es un portal bioinformático?

133
00:19:33,740 --> 00:19:41,299
Pues un portal bioinformático no es ni más ni menos que es una web, ¿de acuerdo?

134
00:19:41,380 --> 00:19:50,160
Es un sitio en internet, es un website en el cual, bueno, pues vamos a tener acceso a múltiples aplicaciones bioinformáticas.

135
00:19:50,160 --> 00:20:13,200
Entonces desde estos portales, aquí tenemos varios, el Emboss, Clover, el del IBAI, del Instituto Europeo de Informática o el Ensemble que lo utilizaremos en la práctica, que tenéis que hacer, todos ellos utilizando estos portales desde aquí tenemos links a todas las bases de datos anteriores,

136
00:20:13,200 --> 00:20:33,700
De nucleótidos, de proteínas, de mutaciones, de enfermedades genéticas, ¿de acuerdo? Entonces, estos portales bioinformáticos, bueno, pues se utilizan muchísimo también y nos permiten acceder a múltiples de estas aplicaciones bioinformáticas, ¿de acuerdo?

137
00:20:33,700 --> 00:20:49,099
Entonces, un poquito todo esto sería la teoría de la bioinformática y para el examen, pues, básicamente habría que saber qué es la bioinformática, qué son los portales bioinformáticos, qué tipo de herramientas y qué tipo de bases de datos bioinformáticas tenemos.

138
00:20:49,680 --> 00:20:54,140
Eso es un poquito la información que entraría en alguna pregunta en el próximo examen.