1 00:00:00,370 --> 00:00:08,269 Como ya sabemos, los ordenadores solo pueden trabajar con números, y sin embargo, existen sistemas informáticos que son capaces de entender nuestros textos. 2 00:00:08,669 --> 00:00:09,810 ¿Esto cómo ocurre? 3 00:00:10,109 --> 00:00:17,210 Lo que se utiliza es un mecanismo para traducir palabras o frases a una representación numérica que se conoce como embeddings. 4 00:00:17,809 --> 00:00:22,170 Como Romea Jeremy Howard en su libro Aplicaciones de IA sin tener un doctorado, 5 00:00:22,170 --> 00:00:30,030 a la comunidad de inteligencia artificial les gusta a veces utilizar nombres un poco pomposos para conceptos que en realidad son muy simples. 6 00:00:30,370 --> 00:00:33,770 Y con los embeddings pasa un poco esto. Veamos cómo se construyen. 7 00:00:34,189 --> 00:00:41,649 Imaginemos que estamos en esta situación en la que ya se ha asignado una representación numérica a un conjunto de palabras, utilizando dos números. 8 00:00:42,570 --> 00:00:44,570 ¿Dónde colocaríamos la palabra manzana? 9 00:00:45,490 --> 00:00:52,350 Cerca de la posición A hay varios objetos redondos. Cerca de la B hay palabras que tienen que ver con construcciones. 10 00:00:53,030 --> 00:00:57,450 Pero en la posición C tendríamos la palabra manzana cerca de otras relacionadas con frutas. 11 00:00:58,149 --> 00:01:02,750 Esta sería una buena localización, puesto que el objetivo de los embeddings es que palabras 12 00:01:02,750 --> 00:01:07,450 similares se correspondan con puntos cercanos, y palabras que son diferentes se correspondan 13 00:01:07,450 --> 00:01:08,650 con puntos lejanos. 14 00:01:09,750 --> 00:01:11,030 Veamos otro ejemplo. 15 00:01:11,849 --> 00:01:17,049 Supongamos que ya hemos asignado la representación numérica a las palabras perro, cachorro y 16 00:01:17,049 --> 00:01:17,549 ternera. 17 00:01:18,090 --> 00:01:20,030 ¿Dónde colocaríamos la palabra vaca? 18 00:01:20,810 --> 00:01:25,469 Las tres posiciones podrían tener cierto sentido, pero si la colocamos en la posición 19 00:01:25,469 --> 00:01:30,269 C estaríamos capturando algunas relaciones entre las palabras, que es precisamente otro 20 00:01:30,269 --> 00:01:35,769 de los objetivos de los embeddings. En este caso estaríamos capturando dos analogías. 21 00:01:36,189 --> 00:01:42,650 Por un lado, cachorro es a perro, lo que ternera es a vaca. Y por otro, cachorro es a ternera, 22 00:01:42,909 --> 00:01:49,010 lo que perro es a vaca. Así, este embedding estaría capturando dos propiedades de las 23 00:01:49,010 --> 00:01:54,790 palabras, edad y tamaño. Y básicamente estos son los embeddings. Lo que ocurre es que los 24 00:01:54,790 --> 00:01:58,969 que utilizamos en aplicaciones reales tienen cientos o miles de dimensiones, es 25 00:01:58,969 --> 00:02:04,290 decir, que una palabra se traduce a un vector de cientos o miles de números. 26 00:02:04,290 --> 00:02:08,870 Como detallamos en el artículo asociado a este vídeo, estos embeddings permiten 27 00:02:08,870 --> 00:02:13,669 realizar visualizaciones y actividades en clase que son muy interesantes y que 28 00:02:13,669 --> 00:02:19,110 podrían ser el equivalente del siglo XXI a aprender a explorar un diccionario. 29 00:02:19,110 --> 00:02:22,949 Pero estos embeddings de palabras tienen ciertas limitaciones a la hora de 30 00:02:22,949 --> 00:02:28,150 reconocer frases, puesto que una misma palabra puede significar cosas diferentes en función del 31 00:02:28,150 --> 00:02:34,050 contexto. Afortunadamente, desde que nacieron los transformers con su mecanismo de atención que 32 00:02:34,050 --> 00:02:39,270 permite entender el contexto, ya contamos también con embeddings que son capaces de asignar una 33 00:02:39,270 --> 00:02:45,430 representación numérica a frases completas de manera coherente. Así, podemos ver que la frase 34 00:02:45,430 --> 00:02:51,250 nada me gusta más que el baloncesto está más cerca semánticamente de me encanta el baloncesto 35 00:02:51,250 --> 00:02:56,889 que la frase me encanta el fútbol, a pesar de que estas dos últimas comparten más palabras 36 00:02:56,889 --> 00:03:02,770 iguales. E incluso ya existen embeddings de frases multilingües en los que frases que 37 00:03:02,770 --> 00:03:07,330 significan lo mismo en diferentes idiomas reciben una representación numérica cercana. 38 00:03:07,669 --> 00:03:12,409 Como veremos en próximas entregas, estos embeddings de palabras y frases son la base 39 00:03:12,409 --> 00:03:17,710 de los grandes modelos de lenguaje como GPT-3 y Bloom. Pero mientras llegamos a ello, no 40 00:03:17,710 --> 00:03:22,069 No dejes de jugar con los desafíos y retos que te proponemos en nuestra web, ya que te 41 00:03:22,069 --> 00:03:26,389 van a permitir interactuar de manera directa con el funcionamiento interno de muchos de 42 00:03:26,389 --> 00:03:28,830 los sistemas de inteligencia artificial que utilizamos a diario.