1 00:00:01,070 --> 00:00:05,889 Las personas percibimos el mundo a través de nuestros sentidos, pero ¿cómo perciben 2 00:00:05,889 --> 00:00:11,869 el mundo las máquinas? Los ordenadores utilizan distintos tipos de sensores, como micrófonos, 3 00:00:11,990 --> 00:00:17,370 cámaras, radares o receptores de GPS, entre otros, para recibir información del medio 4 00:00:17,370 --> 00:00:22,109 que les rodea y construir una representación de su entorno. Pero los ordenadores solo saben 5 00:00:22,109 --> 00:00:27,030 trabajar con números, así que toda la información que reciben de sus sensores la tienen que 6 00:00:27,030 --> 00:00:31,870 almacenar como un conjunto de números. Por ejemplo, una imagen en blanco y negro se codifica 7 00:00:31,870 --> 00:00:36,369 como una matriz de números, donde cada valor indica el brillo de cada uno de los píxeles. 8 00:00:36,950 --> 00:00:41,750 Si la imagen es en color, de cada píxel se almacenan tres números, que representan el 9 00:00:41,750 --> 00:00:46,929 brillo de los componentes rojo, verde y azul. Los sonidos también se codifican como una 10 00:00:46,929 --> 00:00:50,909 serie de números, que indican los valores de la forma de onda en diferentes momentos, 11 00:00:51,429 --> 00:00:54,109 tomando cientos o miles de muestras en cada segundo. 12 00:00:54,109 --> 00:01:00,630 ¿Y el hecho de que una máquina pueda recibir información del mundo ya la convierte en un sistema de inteligencia artificial? 13 00:01:01,369 --> 00:01:07,370 Pues no, para que la consideremos así es necesario que sea capaz de extraer significado de esa información 14 00:01:07,370 --> 00:01:12,569 Pensemos en una puerta de un supermercado que se abre cuando un sensor detecta movimiento 15 00:01:12,569 --> 00:01:17,730 El sistema es demasiado simple como para poder percibir quién o qué está entrando 16 00:01:17,730 --> 00:01:20,769 y poder tomar decisiones en base a este significado 17 00:01:20,769 --> 00:01:35,969 Y gracias a esta limitación podemos disfrutar de los maravillosos vídeos de animales salvajes paseando por los pasillos de los supermercados, tal como bromean Turesky y Garner en su capítulo sobre alfabetización en inteligencia artificial en esta magnífica obra. 18 00:01:35,969 --> 00:01:42,489 Pero, ¿cómo extraen los ordenadores significado de un conjunto de números que representa 19 00:01:42,489 --> 00:01:44,950 una imagen, por ejemplo? 20 00:01:44,950 --> 00:01:50,209 Esa transformación de señal a significado se produce en etapas progresivas mediante 21 00:01:50,209 --> 00:01:55,049 un proceso que se llama extracción de características. 22 00:01:55,049 --> 00:01:59,590 En pantalla tenemos una imagen de un número 4 escrito por una persona que el ordenador 23 00:01:59,590 --> 00:02:04,769 ya ha codificado en una matriz de números a partir de la información de su cámara. 24 00:02:04,769 --> 00:02:09,090 Pero ¿cómo podría saber que se trata de un 4 y no de un 1 o un 7? 25 00:02:09,090 --> 00:02:13,469 Buscando combinaciones específicas de valores que representan píxeles claros y oscuros 26 00:02:13,469 --> 00:02:20,009 en zonas pequeñas de la imagen, en este caso de 3x3 píxeles, se puede detectar la localización 27 00:02:20,009 --> 00:02:24,090 y la orientación de diferentes bordes en la imagen. 28 00:02:24,090 --> 00:02:30,009 Así, el resultado de aplicar un filtro para detectar bordes izquierdos se muestra en la 29 00:02:30,009 --> 00:02:34,569 imagen de la derecha, en la que las zonas detectadas como borde izquierdo aparecen 30 00:02:34,569 --> 00:02:40,650 marcadas en color rojo. En azul se muestran las zonas opuestas, es decir, en este caso los bordes 31 00:02:40,650 --> 00:02:49,270 derechos. Apliquemos ahora un filtro para detectar bordes superiores. ¿Ves? Pues así, mediante este 32 00:02:49,270 --> 00:02:54,270 proceso por etapas de extracción de características, en el que se van utilizando y combinando diferentes 33 00:02:54,270 --> 00:03:02,310 tipos de filtros, es como se va transformando una señal en significado. Con los sonidos se hace 34 00:03:02,310 --> 00:03:07,430 algo muy parecido, por ejemplo para el reconocimiento de voz, ya que cada vocal y cada 35 00:03:07,430 --> 00:03:13,150 consonante se puede asociar a diferentes patrones de un espectrograma, que es una representación 36 00:03:13,150 --> 00:03:17,909 visual que permite identificar las diferentes variaciones de la frecuencia y la intensidad del 37 00:03:17,909 --> 00:03:22,909 sonido. Pero hay sistemas de inteligencia artificial que no sólo son capaces de traducir 38 00:03:22,909 --> 00:03:28,530 un audio en un texto, sino que además parece que entienden estos textos. ¿Pero esto cómo puede ser? 39 00:03:28,610 --> 00:03:32,509 ¿Esto cómo es posible? Bueno, pues es precisamente lo que vamos a ver en el próximo vídeo.