1
00:00:00,370 --> 00:00:08,269
Como ya sabemos, los ordenadores solo pueden trabajar con números, y sin embargo, existen sistemas informáticos que son capaces de entender nuestros textos.

2
00:00:08,669 --> 00:00:09,810
¿Esto cómo ocurre?

3
00:00:10,109 --> 00:00:17,210
Lo que se utiliza es un mecanismo para traducir palabras o frases a una representación numérica que se conoce como embeddings.

4
00:00:17,809 --> 00:00:22,170
Como Romea Jeremy Howard en su libro Aplicaciones de IA sin tener un doctorado,

5
00:00:22,170 --> 00:00:30,030
a la comunidad de inteligencia artificial les gusta a veces utilizar nombres un poco pomposos para conceptos que en realidad son muy simples.

6
00:00:30,370 --> 00:00:33,770
Y con los embeddings pasa un poco esto. Veamos cómo se construyen.

7
00:00:34,189 --> 00:00:41,649
Imaginemos que estamos en esta situación en la que ya se ha asignado una representación numérica a un conjunto de palabras, utilizando dos números.

8
00:00:42,570 --> 00:00:44,570
¿Dónde colocaríamos la palabra manzana?

9
00:00:45,490 --> 00:00:52,350
Cerca de la posición A hay varios objetos redondos. Cerca de la B hay palabras que tienen que ver con construcciones.

10
00:00:53,030 --> 00:00:57,450
Pero en la posición C tendríamos la palabra manzana cerca de otras relacionadas con frutas.

11
00:00:58,149 --> 00:01:02,750
Esta sería una buena localización, puesto que el objetivo de los embeddings es que palabras

12
00:01:02,750 --> 00:01:07,450
similares se correspondan con puntos cercanos, y palabras que son diferentes se correspondan

13
00:01:07,450 --> 00:01:08,650
con puntos lejanos.

14
00:01:09,750 --> 00:01:11,030
Veamos otro ejemplo.

15
00:01:11,849 --> 00:01:17,049
Supongamos que ya hemos asignado la representación numérica a las palabras perro, cachorro y

16
00:01:17,049 --> 00:01:17,549
ternera.

17
00:01:18,090 --> 00:01:20,030
¿Dónde colocaríamos la palabra vaca?

18
00:01:20,810 --> 00:01:25,469
Las tres posiciones podrían tener cierto sentido, pero si la colocamos en la posición

19
00:01:25,469 --> 00:01:30,269
C estaríamos capturando algunas relaciones entre las palabras, que es precisamente otro

20
00:01:30,269 --> 00:01:35,769
de los objetivos de los embeddings. En este caso estaríamos capturando dos analogías.

21
00:01:36,189 --> 00:01:42,650
Por un lado, cachorro es a perro, lo que ternera es a vaca. Y por otro, cachorro es a ternera,

22
00:01:42,909 --> 00:01:49,010
lo que perro es a vaca. Así, este embedding estaría capturando dos propiedades de las

23
00:01:49,010 --> 00:01:54,790
palabras, edad y tamaño. Y básicamente estos son los embeddings. Lo que ocurre es que los

24
00:01:54,790 --> 00:01:58,969
que utilizamos en aplicaciones reales tienen cientos o miles de dimensiones, es

25
00:01:58,969 --> 00:02:04,290
decir, que una palabra se traduce a un vector de cientos o miles de números.

26
00:02:04,290 --> 00:02:08,870
Como detallamos en el artículo asociado a este vídeo, estos embeddings permiten

27
00:02:08,870 --> 00:02:13,669
realizar visualizaciones y actividades en clase que son muy interesantes y que

28
00:02:13,669 --> 00:02:19,110
podrían ser el equivalente del siglo XXI a aprender a explorar un diccionario.

29
00:02:19,110 --> 00:02:22,949
Pero estos embeddings de palabras tienen ciertas limitaciones a la hora de

30
00:02:22,949 --> 00:02:28,150
reconocer frases, puesto que una misma palabra puede significar cosas diferentes en función del

31
00:02:28,150 --> 00:02:34,050
contexto. Afortunadamente, desde que nacieron los transformers con su mecanismo de atención que

32
00:02:34,050 --> 00:02:39,270
permite entender el contexto, ya contamos también con embeddings que son capaces de asignar una

33
00:02:39,270 --> 00:02:45,430
representación numérica a frases completas de manera coherente. Así, podemos ver que la frase

34
00:02:45,430 --> 00:02:51,250
nada me gusta más que el baloncesto está más cerca semánticamente de me encanta el baloncesto

35
00:02:51,250 --> 00:02:56,889
que la frase me encanta el fútbol, a pesar de que estas dos últimas comparten más palabras

36
00:02:56,889 --> 00:03:02,770
iguales. E incluso ya existen embeddings de frases multilingües en los que frases que

37
00:03:02,770 --> 00:03:07,330
significan lo mismo en diferentes idiomas reciben una representación numérica cercana.

38
00:03:07,669 --> 00:03:12,409
Como veremos en próximas entregas, estos embeddings de palabras y frases son la base

39
00:03:12,409 --> 00:03:17,710
de los grandes modelos de lenguaje como GPT-3 y Bloom. Pero mientras llegamos a ello, no

40
00:03:17,710 --> 00:03:22,069
No dejes de jugar con los desafíos y retos que te proponemos en nuestra web, ya que te

41
00:03:22,069 --> 00:03:26,389
van a permitir interactuar de manera directa con el funcionamiento interno de muchos de

42
00:03:26,389 --> 00:03:28,830
los sistemas de inteligencia artificial que utilizamos a diario.