Saltar navegación

Activa JavaScript para disfrutar de los vídeos de la Mediateca.

Misterios de la voz humana

Ajuste de pantalla

El ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:

Subido el 21 de mayo de 2017 por Francisco J. M.

92 visualizaciones

La voz humana es el sello que nos distingue como especie y la clave evolutiva de nuestra supervivencia. El deseo de reproducirla mecánicamente ha dado sus frutos pero aún resulta imposible conseguir una voz totalmente humana debido a su complejidad física y al poder emocional de su expresión.

Descargar la transcripción

La voz humana. Una maravilla de la anatomía. La firma de nuestra identidad. La voz es el 00:00:01
espejo del alma. Las voces son como las huellas dactilares, únicas. Es la clave evolutiva 00:00:15
para la supervivencia de nuestra especie. Existe ese hilo que se remonta hasta nuestros 00:00:23
antepasados primates. Con nuestra voz establecemos contacto con el mundo exterior. Elegimos a 00:00:30
nuestra pareja sentimental, a nuestros amigos y a nuestros líderes y expresamos nuestras 00:00:39
emociones más profundas. Expreso mis sentimientos. Vivo. Hoy los científicos están en una carrera 00:00:44
para crear nuevas tecnologías sin voz y voces artificiales como si fueran reales. Demostración 00:00:54
listo. Ante cualquier cosa que suene remotamente como una voz humana, nuestro cerebro dice 00:01:01
eso es una persona. Buenas tardes. ¿Estamos en el amanecer de una nueva era en la que 00:01:06
nos comunicamos más con robots y ordenadores que con humanos? ¿Queremos de verdad hablar 00:01:13
a un ser completamente inanimado? ¿Contarle nuestra vida? Misterios de la voz humana. 00:01:20
E incluso antes de nacer, reconocemos la voz humana. Mientras se encuentra todavía en 00:01:34
el útero, el feto responde al tono, al ritmo y a la entonación de la voz de su madre, 00:01:50
que resuena a través de su cuerpo. Cuando oye su voz, su ritmo cardíaco aumenta y 00:01:56
disminuye ante la voz de un extraño. El primer llanto de un recién nacido es un reflejo 00:02:07
para despejar sus vías respiratorias y respirar. Pero pronto la emergente voz humana tendrá 00:02:19
un variado repertorio de gritos para comunicar hambre, dolor, ira y miedo. La capacidad de 00:02:26
un recién nacido para emitir sonidos está limitada por la forma de su tracto vocal. 00:02:35
Pero a los tres meses comienza una transformación que le permite producir una amplia variedad 00:02:43
de nuevos sonidos. ¿Cantamos una canción diferente? Es sorprendente. En los primeros 00:02:49
cuatro años, la forma cambiante del tracto vocal de un bebé repetirá la historia entera 00:03:02
de la evolución humana. Nuestra voz ha tardado millones de años en evolucionar. Nuestros 00:03:07
antepasados primates carecían de lenguaje y solo podían producir una gama limitada 00:03:22
de sonidos, pero sus voces realizaban otra función vital, la comunicación de las emociones. 00:03:27
En especies sin un lenguaje léxico, el contenido emocional podría ser el elemento más importante 00:03:34
de la interacción, porque esencialmente cada uno tiene que comprender el estado emocional 00:03:40
del otro e intentar crear una relación interindividual sin palabras. El lenguaje corporal y la vocalización 00:03:46
tienen que haber estado estrechamente relacionados, volviéndose más eficientes a la hora de 00:03:54
comunicar aprobación, placer, desaprobación o disgusto. Cuando nuestros parientes prehumanos 00:03:58
salieron de los bosques y comenzaron a caminar erguidos, se produjeron unos cambios críticos 00:04:05
en su anatomía que mejoraron su capacidad para emitir sonidos. La forma de su cabeza 00:04:11
se transformó, su cara se aplanó, su lengua se desplazó hacia atrás y la laringe, que 00:04:18
contiene las cuerdas vocales, descendió, abriendo un tracto vocal más grande y cerrado, 00:04:25
capaz de producir una profusión de nuevos sonidos. Unidos al rápido desarrollo del 00:04:32
cerebro humano, estos cambios físicos permitieron a nuestra especie generar una compleja variedad 00:04:39
de sonidos necesaria para el lenguaje. Sin embargo, nuestro cerebro conservó su capacidad 00:04:45
para descifrar mensajes profundos y primordiales. Y la manera en que nuestro cerebro procesa 00:04:57
estos mensajes apenas ha cambiado a lo largo de toda la historia de la evolución humana. 00:05:06
En el interior de este escáner de resonancia magnética, en la Universidad College de Londres, 00:05:15
la profesora Sophie Scott está investigando cómo nuestro cerebro procesa los sonidos 00:05:23
producidos por la voz humana. El hemisferio izquierdo del cerebro se ocupa de la parte 00:05:28
lingüística de la voz, y el derecho, aunque sea un poco exagerado decirlo, de casi todo 00:05:33
lo demás. Se ocupa de quién es la persona que habla, de su estado emocional. Y en particular, 00:05:38
le gusta la prosodia, la melodía. Para identificar con precisión la región del hemisferio derecho 00:05:47
del cerebro que responde a las emociones en la voz más que al lenguaje, los sujetos del 00:05:54
experimento escucharon voces sin palabras. Si nos cuentan un chiste, nos reímos. Si 00:05:59
nos asustamos, seguramente gritaremos. Parecen gritos de animales, más que un lenguaje 00:06:06
humano. La investigación de la profesora Scott revela que la parte del cerebro que 00:06:14
responde a los sonidos emocionales se encuentra en la misma región del lóbulo temporal que 00:06:20
en nuestros antepasados primates. Y en ambas especies, la habilidad para detectar estos 00:06:26
sonidos es clave para la supervivencia. Es importante saber si algo sabe mal sin tener 00:06:31
que probarlo. Poder evaluar si alguien está enfadado con nosotros y supone una amenaza. 00:06:36
Poder valorar si alguien está asustado. Y hay un sonido particularmente similar entre 00:06:48
ambas especies. La manera de reírnos es casi exacta a como ríen los chimpancés. Nosotros 00:06:56
hacemos. Los chimpancés hacen... Pero su risa tiene un sonido fantástico. Y ese sonido 00:07:05
se reconoce como una carcajada. Son muy similares. Sigue existiendo ese hilo que se remonta hasta 00:07:14
nuestros antepasados primates. La comunicación tonal y emocional de nuestro estado anímico 00:07:22
es muy importante en las relaciones entre individuos. Somos mucho más similares a nuestros 00:07:28
ancestros homínidos de lo que la gente imagina. Uno de los primeros libros de Darwin fue la 00:07:34
expresión de las emociones en animales y humanos, sobre la teoría de que ser capaz 00:07:41
de manifestar las emociones es muy importante para las relaciones sociales, de manera que 00:07:46
la parte emocional de la voz evoluciona por ese motivo. Que está diseñada para comunicar, 00:07:51
sonar y para que el otro sienta lo que sentimos nosotros. Es esa entonación de la voz lo 00:07:59
que indica que alguien no está contento, está muy feliz o enamorado o a punto de casarse 00:08:06
o enojado. Si no pudieras verme, ¿podría saber por mi voz la edad que tengo, de dónde 00:08:11
procedo? ¿Podría saber si estoy de mal humor, si estoy enferma? La voz es una traducción 00:08:17
para los demás de nuestra personalidad. Si nos preguntan, ¿cómo estás? Y respondemos, 00:08:24
bien, gracias. Y nos contestan, no, creo que no estás bien, nuestra voz nos ha traicionado. 00:08:31
Puede que llevemos la huella de nuestros antepasados primates, pero la evolución nos ha dotado 00:08:38
con una voz única y exclusiva de nuestra especie. Somos unos instrumentos vocales asombrosos. 00:08:44
Dos terceras partes de nuestro cuerpo, miles de millones de señales eléctricas de nuestro cerebro 00:08:53
y cientos de músculos entran en acción cuando emitimos sonidos. 00:08:59
Cuando expelemos aire de nuestros pulmones, este se transforma en sonido gracias a dos minúsculas cuerdas vocales 00:09:03
que pueden vibrar hasta mil veces por segundo. 00:09:13
Las frecuencias generadas por nuestras cuerdas vocales pasan por la boca, que les da forma, 00:09:18
y las convierte en más de 300 sonidos diferentes, necesarios para el lenguaje hablado. Hola, 00:09:24
¿cómo estás? ¿Eres una niña buena? ¿A que sí? Eres una niña buena. La psicóloga 00:09:32
Christine Kitamura es una experta en el lenguaje infantil. Este es el diálogo no verbal entre 00:09:40
madres y bebés que se cree juega un papel en el desarrollo de las habilidades y el lenguaje 00:09:48
social. El bebé no entiende las palabras de su madre, todo se basa en el tono de su 00:09:54
voz. Mami, ¿puedes aplaudir? ¿Dónde está tu sonrisa? Es increíblemente primitivo. 00:10:00
Puedes sentir ese vínculo, que se remonta a una forma de comunicarse en la que se utilizaban 00:10:07
las emociones. A esta interacción universal entre madre y bebé, que se da en casi todas 00:10:12
las culturas, los lingüistas la llaman habla dirigida al bebé. Es muy exagerada. Tiene 00:10:21
un tono más alto. Tiene contornos de entonación exagerados. Y mantiene a la madre en sintonía 00:10:30
con las emociones del bebé y sus estados de excitación. El habla dirigida al bebé 00:10:41
es como música. Es el fertilizante de todo lo que viene después. Para el lenguaje. ¿Estás 00:10:50
cansadita? Para su relación con su madre y con todos los demás seres humanos. De ahí 00:11:02
es de donde proviene todo. Pero a medida que crecemos y nos dicen cómo debemos comportarnos, 00:11:10
aprendemos a esconder las emociones. La foniatra Isobel Kirk hace ejercicios vocales clásicos 00:11:17
para liberar la voz humana, como hablar con la lengua fuera. Los actores se supone que 00:11:30
deben liberar las tensiones físicas y mentales que inhiben su habilidad para expresar emociones. 00:11:39
Lo maravilloso es que es como si tuvieras un aparato ortopédico en la boca y te lo 00:11:48
quitaras. La boca dice, oh, muchas gracias. Sí, mi paladar quiere elevarse cuando bostezo. 00:11:53
Al fin libre. Isobel trabaja con un grupo de actores que ensaya un musical sobre los 00:12:01
secretos y los demonios más profundos del hombre. Su reto es conseguir que estos actores 00:12:12
liberen lo que tienen dentro. La gente se autocensura porque teme convertirse en un 00:12:18
bebé de dos años otra vez. Si eliminan sus impulsos censores, serán como un perro. Y 00:12:25
lo que les pase por dentro, saldrá. Tensamos los músculos de nuestro cuerpo, especialmente 00:12:33
alrededor de la caja torácica. En cualquier parte de nuestro cuerpo podemos sentir emociones, 00:12:44
Y somos capaces de reprimirlas. Es así de simple. Cuando decimos que sonreímos y aguantamos, 00:12:50
apretamos los dientes, nos mordemos la lengua o expresiones así, nos tragamos las palabras, 00:12:55
nos tragamos la lengua. El lenguaje está lleno de expresiones que tienen una manifestación 00:13:00
física. Nuestras voces y nuestras emociones son lo mismo. 00:13:05
Los grandes oradores saben también que la capacidad de nuestra voz para expresar emociones 00:13:20
tiene un efecto muy poderoso sobre los demás. La doctora Branca Sey-Pollerman, psicóloga, 00:13:33
está interesada en las neuronas espejo. Los neurocientíficos las han estudiado en 00:13:41
primates, aves y humanos. Polerman afirma que desempeñan un papel importante en la 00:13:48
manera en que las voces de los líderes desatan emociones en grupos grandes. Las neuronas 00:14:04
espejo son las neuronas que se activan cuando vemos o cuando oímos a los líderes. 00:14:10
nuestras neuronas espejo están activadas. Y hasta cierto punto, sentimos como si nosotros 00:14:18
mismos estuviéramos pronunciando esas palabras. Según la doctora Pollerman, uno de los factores 00:14:26
que activan las neuronas espejo es la calidad musical de la voz del orador. Y se sabe que 00:14:37
en la música, el crescendo, ya sea en el tono, en el volumen o en el ritmo, provoca 00:14:46
reacciones físicas como temblores y escalofríos. Obama, por ejemplo, utiliza más el crescendo 00:14:53
en el volumen que en el tono. Con una parte del discurso de aceptación del presidente 00:15:04
Obama en 2008, la doctora Pollerman revela cómo las voces de la persuasión son esencialmente 00:15:10
musicales, transformándolas en instrumentos. El objetivo de un discurso es desatar las 00:15:20
emociones de la gente. Cuando se acompaña de tono, volumen y crescendo, se convierte 00:15:37
en una forma muy poderosa de influir en los sentimientos. La voz humana es un poderoso 00:15:42
instrumento musical que no solo desata emociones, sino que revela quiénes somos y de dónde 00:16:01
venimos. La cantante africana Angelique Kidjo ha puesto su voz en manos del doctor Jan Abitbol, 00:16:06
otolaringólogo de renombre mundial. Para un cantante, la voz es su vida. Si le hubiéramos 00:16:16
preguntado a Yehudi Menuhin qué le gustaría ser, estoy seguro de que habría contestado 00:16:24
un Stradivarius. Pero la diferencia es que en el caso de la cantante, el Stradivarius 00:16:29
está aquí. La forma en que Kidjo actúa desde los tres años se parece a la actuación 00:16:37
de un deportista. Es una armonía entre su respiración abdominal, su respiración torácica, 00:16:42
la musculación de sus cuerdas vocales y la ubicación de su cámara de resonancia. Esto 00:16:48
es el fibroscopio, que nos permite mirar en todas las direcciones. ¿Quieres que cante 00:16:54
la misma canción? Si puedes. El doctor Abitbol es pionero en el uso del fibroscopio para 00:16:59
investigar las cuerdas vocales de algunos de los cantantes más importantes del mundo. 00:17:05
Estas son sus cuerdas vocales. Se ven muy bien. La voz de Angelique es un producto de 00:17:10
su anatomía vocal única, así como de sus orígenes en Benin, África Occidental. Tengo 00:17:15
que decir que mi voz está también basada en mis idiomas, en nuestra forma de cantar 00:17:22
en Benin, en nuestra forma de cantar en África. La mayoría de nosotros, los artistas africanos, 00:17:26
empezamos cantando sin micrófono, así que aprendimos de forma natural a proyectar la 00:17:33
voz. Al tener una voz natural, puede jugar con ella como si fuese un tambor. 00:17:37
Es el universo cultural de Kitcho, quien habla a través de su voz. Son sus antepasados los 00:17:56
que hablan a través de su voz. Para mí, la voz es el espejo del alma. Las voces son 00:18:14
como las huellas dactilares, únicas. No importa dónde vivas, tu voz llevará impresa y reflejará 00:18:26
tu cultura en el idioma que hables, en tu forma de cantar. La cultura da forma a la 00:18:37
voz de otras maneras también. Las mujeres japonesas tienen las voces más agudas del 00:18:51
mundo. Pueden alcanzar un descomunal pico de 450 hercios, dos veces más alto que el 00:18:57
de la mujer europea media. Y, sin embargo, no existe diferencia en el tamaño de sus 00:19:05
cuerdas vocales. Es un despliegue de feminidad con profundas raíces en la tradición. Majo 00:19:13
Kurashima es foniatra y trabaja con profesionales en Tokio. Primero vamos a desentumecer nuestro 00:19:27
cuerpo para poder utilizar nuestra voz con más facilidad. ¿Podéis poneros todos de 00:19:34
pie, por favor? Muchos son periodistas de radio y televisión. Si tomamos, por ejemplo, 00:19:38
una sociedad como la japonesa, remontándonos hasta hace unos diez años, la voz ideal del 00:19:49
hombre y la de la mujer eran ampliamente divergentes. La voz de la mujer era tan aguda que casi 00:19:55
parecía doloroso para las mujeres tener que ajustar su voz a esos parámetros. Alguien 00:20:01
lo describió como el equivalente vocal al vendado de pies en China. Cuando eres joven, 00:20:08
tienes una voz aguda. Por eso, de una manera instintiva, los hombres prefieren las voces 00:20:17
agudas. Pero recientemente ha habido una moda inversa en Japón a favor de voces más 00:20:24
graves en la mujer. Algunas profesionales japonesas se han hecho la cirugía bucal 00:20:32
para bajar la tonalidad de su voz, aunque la mayoría han acudido a foniatras como la 00:20:39
señora Kurashima. Hay historias extraordinarias de mujeres en Japón, principalmente presentadoras, 00:20:44
pero también de otras profesiones, que ahora intentan forzar su voz en la dirección contraria. 00:20:54
Tomamos como ejemplo la voz de una oficina. Si es una voz madura y baja, transmite confianza 00:21:03
y también transmite autoridad. Pero Maho Kurashima puede estar empujando a sus estudiantes 00:21:12
contra las fuerzas de la evolución. Los científicos han descubierto que las preferencias por las 00:21:21
voces agudas en las mujeres y las graves en los hombres pueden estar relacionadas con 00:21:29
la supervivencia de nuestra especie. Estudios sobre la tribu Himba en Namibia revelaron 00:21:34
que los hombres con voces graves y las mujeres con voces agudas tienen niveles más altos 00:21:44
de hormonas reproductivas y más descendencia. No se sabe si el tono de voz sigue influyendo 00:21:49
en el éxito reproductivo en las sociedades modernas, pero cuando desafiamos las convenciones 00:22:00
vocales, las cosas se pueden descontrolar. Por fin con nosotros, se denominan a sí mismos 00:22:06
la Organización para la Liberación de Barbie, la BLO. ¿Quieres ir de compras? ¿Cómo? ¿G.I. 00:22:11
Joe quiere ir de compras? Cuando un grupo feminista clandestino violó los estereotipos 00:22:16
vocales en Estados Unidos, se desató una guerra cultural. En 1989 nació un nuevo grupo 00:22:22
guerrillero en Nueva York, el Frente para la Liberación de Barbie. Un G.I. Joe víctima 00:22:32
de una emboscada de la Organización para la Liberación de Barbie. Descubrieron que 00:22:38
las Barbies y los G.I. Joes, los que hablaban, tenían los mismos chips de voz. Así que 00:22:43
fueron a varios grandes almacenes de Nueva York. Compraron 300 Barbies y GI Joes e intercambiaron 00:22:52
sus chips de voz. Observen cómo otros dos miembros de la BLO reemplazan al menos media 00:22:59
docena de muñecas Barbie en otra tienda cercana. Y los GI Joes, cuando hablaban, decían cosas 00:23:06
como planeemos nuestro sueño de boda o nunca tendremos ropa suficiente. Y las Barbies, 00:23:13
en cambio. Decían cosas como, al ataque, venganza. Soldados, ataque. El alboroto que 00:23:22
produjo aquel intercambio fue extraordinario. La gente se sintió indignada, se sintió 00:23:32
ofendida. Hubo protestas. Habla como una chica. ¿Le va el rollo raro? A mí me parece muy 00:23:39
interesante que algo así nos perturbe tanto. Atacad, fuego directo contra el Escuadrón 00:23:49
Cobra. Es muy triste que encorsetemos a la gente en estereotipos vocales. Puede que estemos 00:23:56
atrapados en nuestros propios estereotipos vocales. Pero nadie está más aislado que 00:24:08
aquellos que han perdido la voz por completo. Al exjuez, Phil Miyamoto, le extrajeron la 00:24:15
laringe con las cuerdas vocales como consecuencia de un cáncer. Los aísla en muchos aspectos. 00:24:25
Por ejemplo, de algo tan sencillo como ir a un restaurante y mantener una conversación. 00:24:32
Di hola. No pueden hablar por teléfono. El destacado patólogo del habla, Christoph 00:24:36
Izdevsky tiene que lidiar con algo más que los problemas físicos de sus pacientes. Los 00:24:46
pacientes que se han sometido a una laringectomía han formado el club de la cuerda perdida, 00:24:56
porque literalmente está perdida. Estaba, me desperté y ya no estaba. Pierden todo 00:25:02
el mecanismo para producir sonido. Phil habla hoy a través de una electrolaringe. Genera 00:25:10
eléctricamente un zumbido que sustituye al sonido que producían sus cuerdas vocales 00:25:18
perdidas. Otras personas reaccionan a la electrolaringe como podríais esperar. Siempre preguntan 00:25:23
¿eres R2D2? Todo cambia. Todo el mecanismo que permite hablar cambia. Quieres reírte 00:25:34
a carcajadas, quieres susurrar, no puedes hacerlo. Quieres llorar con sonidos o yozar 00:25:45
y no puedes. Quieres gritar, tampoco puedes. Si me enfado, algo que no sucede a menudo, 00:25:51
no puedo decir, deja de hacer eso, deja de hacer eso. Es un doble contratiempo. Primero 00:25:58
porque no pueden producir la voz bien y segundo porque no se les escucha. Actualmente los 00:26:09
científicos están en una carrera global para replicar la voz humana. En la Universidad 00:26:18
de York, el profesor de electrónica David Howard desarrolla un sistema sintetizador 00:26:25
de voz que podría ser utilizado por personas que han perdido su capacidad de hablar. Y 00:26:30
está decidido a conseguir que suene humano. Lo más importante es la investigación. Estoy 00:26:36
intentando comprender qué es lo que hace que un sonido suene natural. Se puede beneficiar 00:26:41
la gente que ha perdido parte de su aparato fonador a causa del cáncer o cualquier otro 00:26:47
accidente. En principio se les podría devolver la voz que tenían antes de sufrir el trauma. 00:26:52
Ese sería para mí un objetivo maravilloso, ser capaz de dejar eso como legado. La mayoría 00:26:57
mayoría de los actuales sistemas electrónicos de voz están basados en voces humanas reales. 00:27:06
Así pues, replicar artificialmente la voz humana constituye un enorme desafío. Es una 00:27:11
búsqueda que se remonta a siglos atrás. A finales del siglo XVIII, un excéntrico 00:27:24
inventor australiano, Wolfgang von Kempelen, diseñó este modelo del tracto vocal humano. 00:27:31
Estos son los pulmones 00:27:37
Dentro de la caja hay una caña 00:27:42
y esa caña es la fuente de sonido 00:27:44
Los modificadores de sonido están representados 00:27:46
por esta bolsa de cuero 00:27:49
y cuando apriete 00:27:50
oiréis un sonido vocálico 00:27:52
que intentaré modificar 00:27:54
El invento de la exposición de Frisco 00:27:56
el robot parlante 00:28:02
Ha habido varios intentos hasta la edad moderna 00:28:03
de la electrónica y la informática 00:28:06
El aparato utiliza dos sonidos producidos eléctricamente. Uno representa la respiración. 00:28:08
El vocoder fue el primer aparato sintetizador de voz. Lo inventó a finales de la década 00:28:16
de 1920 el ingeniero electrónico estadounidense Homer Dudley. Una mujer intentaba manejar 00:28:23
el aparato. Y era capaz de sacar un par de frases. ¿A quién vio? ¿Te vio o te oyó? 00:28:32
Así es como se han creado hasta hoy la mayoría de las voces electrónicas. Estos botones 00:28:44
grises representan un grupo de vocales y están dispuestos de la forma clásica en la que 00:28:53
se disponen desde el siglo XIX. Se llama síntesis deformantes y utiliza frecuencias 00:28:58
fijas para reproducir electrónicamente los sonidos vocales que hacemos cuando cambiamos 00:29:05
la forma de nuestra boca. De modo que si hago la vocal I y la cambio a A y vuelvo, vuelvo, 00:29:10
Ahora hago U y A. Suena electrónico, tiene un sonido robótico. Es el tipo de sintetizador 00:29:23
que tiene Stephen Hawking con un sonido electrónico. Se basa en los mismos principios. Si me coloco 00:29:32
esto... El profesor Howard está desarrollando algo mejor. Utiliza su propio tracto vocal 00:29:38
como modelo para producir una voz de ordenador realista. Primero graba los sonidos producidos 00:29:44
por sus cuerdas vocales. Luego, mediante la imagen de una resonancia magnética de su 00:29:55
garganta y boca, hace un modelo de plástico en 3D de su propio tracto vocal. Estos son 00:30:07
mis labios. Mi laringe, que se ve en el fondo, donde está este plato redondo, está situada 00:30:16
donde se encuentran los electrodos, y los labios están situados donde están mis labios. Esta 00:30:21
la vista lateral y la vista frontal. El modelo de su tracto vocal se coloca entonces en un 00:30:26
amplificador que repite la grabación de sus cuerdas vocales. El altavoz es ahora mi laringe 00:30:35
y obtenemos esto. Todo esto resulta un tanto siniestro. Si miro el dispositivo, se me antoja 00:30:41
realmente así, porque es una parte de mí, totalmente expuesta, y resulta bastante extraño. 00:30:51
Pero lo interesante es que lo único que tenemos como instrumento es un tubo blando de goma, 00:30:57
de esta longitud y un zumbador. Con el tiempo, el profesor Howard espera utilizar estos sonidos 00:31:01
para crear una voz de ordenador con un sonido más humano, pero sabe que tiene un largo 00:31:10
camino por delante. Puedo conectar a seres humanos y medir su tono de voz así. Cuando 00:31:15
lo resintetizo todo, sigue faltando algo. Y eso, para mí, es la humanidad mágica. 00:31:27
Así me gusta denominarlo, la huella vocal, como la dactilar, lo que significa que mis oídos y cerebro saben cuándo estoy escuchando un sonido que proviene de otro ser humano y no de un ordenador. 00:31:36
En ningún lugar trabajan tanto los informáticos para reproducir la voz humana como en Japón. 00:32:06
El doctor Hideyuki Saguada ha tomado un enfoque totalmente distinto para reproducir la voz. 00:32:14
Ha creado una máquina parlante mecánica robótica que se mueve como una boca humana. 00:32:30
El robot es un modelo de un mecanismo con una voz humana. 00:32:45
Aquí hay un compresor de aire equivalente a un pulmón. 00:32:51
Este robot es capaz de recrear sonidos vocales básicos del idioma japonés. Para crear diferentes 00:32:57
sonidos, la boca tiene que estar construida de cierta manera. Tiene que poder adoptar 00:33:18
las mismas formas que una boca humana. Aunque todavía se encuentra en un estado inicial, 00:33:25
el doctor Sawada está convencido de que este modelo físico de la boca humana es superior 00:33:35
a cualquier sonido electrónico que pueda ser reproducido por un ordenador. Como solo 00:33:40
es una boca y una nariz, a algunas personas les resulta repulsivo y a otras fascinante. 00:33:47
En este tipo de investigaciones no se reciben muchos elogios, por eso cualquier reacción 00:33:53
me hace feliz. El doctor Sawada ha enseñado a su boca parlante a cantar una canción popular 00:34:02
japonesa. Y la canta bastante bien. Cuando su tecnología esté perfeccionada, su objetivo 00:34:13
final es que sea utilizada por androides. En el interior de este laboratorio robótico 00:34:29
de Tokio, los límites entre lo humano y lo no humano se confunden. 00:34:40
Andriu y Andro son dos de los androides más avanzados verbalmente del mundo. Colaboramos 00:34:45
en una investigación entre la Universidad de Osaka y otras universidades. Son los retoños 00:34:57
del ingeniero en robótica Yoshio Matsumoto. Los hemos programado. Andriu y Andro están 00:35:04
programados para que hablen como humanos. Gracias al sonido sintetizado puedo hablar 00:35:12
naturalmente. La apariencia de un robot es muy importante. Si el robot parece humano, 00:35:19
pero la voz no es humana, la impresión que produce es muy extraña. Son similares a zombis 00:35:28
o personas muertas. Tenemos un programa que permite al robot tener una voz muy parecida 00:35:37
a la humana. No creo que haga falta mucho tiempo para que podamos duplicar una voz 00:35:49
humana. Los científicos quieren conseguir que las voces de estos androides suenen reales. 00:36:02
Pero el esfuerzo por replicar una voz humana a la perfección puede que no sea tan importante. 00:36:11
¿Quieres hacerte una foto conmigo? Aquí comenzó todo. Es el lugar de nacimiento de 00:36:17
Kismet, el primer robot social con voz. Actualmente Kismet reside en una vitrina de plexiglas 00:36:29
en el Instituto Tecnológico de Massachusetts. ¡Qué robot más bonito! Eres monísimo. Aunque 00:36:38
no hablaba ningún idioma, Kismet parecía comunicarse estrictamente con sonidos. Tú 00:36:47
y yo. Kismet tiene una voz cantarina, una voz humana sin palabras, y de vez en cuando 00:36:55
emite una palabra. Pero no demasiadas. Es una especie de balbuceo incoherente. Asintiendo 00:37:03
con la cabeza, con sus pequeñas expresiones. No, no, voy a tocar eso. No, no, para. Escúchame, 00:37:15
escúchame. La gente interactúa. La gente quiere entablar relaciones. Estoy deprimida, 00:37:22
Siri. Sherry Tarkel es psicóloga del Laboratorio de Inteligencia Artificial del Instituto Tecnológico 00:37:32
de Massachusetts. Ha estudiado cómo interactúa la gente con voces robóticas. He estudiado 00:37:38
los pequeños tamagotchis y he estudiado los saibos. Por favor, abrázame, abrázame. También 00:37:45
he estudiado los furbis, porque quería ver realmente hasta dónde somos capaces de llegar 00:37:52
para obtener una respuesta. Debido a que las voces y los gestos de los robots desencadenan 00:37:57
respuestas inconscientes en nosotros, la profesora Tarkel los ha llamado botones darwinianos. 00:38:07
Acuñé el término botones darwinianos para tratar de describir cómo la robótica social 00:38:17
provoca en nosotros reacciones. Reacciones que nos hacen retroceder hasta las respuestas 00:38:23
animales más primitivas a la hora de reconocer a otras criaturas e identificarnos con ellas, 00:38:30
como son el contacto visual, la imitación de gestos y la emisión de sonidos. Y ahora 00:38:38
triste. Y la voz, sea del tipo que sea, incluso la voz más primitiva y en particular cuando 00:38:46
posee algún tipo de cadencia, es uno de esos botones. En el laboratorio de medios interactivos 00:38:54
de la Universidad de Stanford, el psicólogo Clifford Nash ha estado estudiando cómo las 00:39:06
personas interactúan con voces artificiales. Prepárese para tomar la salida de San Diego. 00:39:11
En sus experimentos coloca a grupos de estudiantes dentro de simuladores de conducción para medir cómo responden a las voces de navegación del coche. 00:39:17
Sitúese en el carril derecho. 00:39:26
Y los resultados han sido sorprendentes. 00:39:28
Hemos llevado a cabo una serie de estudios utilizando varios tipos de lo que llamamos voces sintéticas, aquellas en las que resulta obvio que no se trata de una persona real del tipo. 00:39:30
Son las 12 horas y 43 minutos. La típica voz que uno nunca confundiría con una voz humana real. 00:39:39
A tres kilómetros gire a la izquierda por Main Street 00:39:44
El cerebro no está diseñado con un interruptor de apagado y encendido 00:39:48
que distinga entre humano y no humano en lo que se refiere al habla 00:39:52
Continúe para tomar la salida de San Diego 00:39:55
Nuestro cerebro reacciona igual ante una voz tecnológica y una humana 00:39:58
Gire a la izquierda al llegar 00:40:03
Ante algo que suene vagamente como una voz humana, por muy remota que sea 00:40:05
nuestro cerebro dice, eso es una persona 00:40:10
y activa todos los mecanismos de la personalidad. Por eso, es tan importante saber cuáles 00:40:12
escogerías y cuáles de todos descartarías. El profesor Nash ha llevado su investigación 00:40:18
un paso más allá. Está realizando experimentos con un robot llamado Nao, programado para 00:40:24
jugar a supervivencia en el desierto. En el juego, un avión se estrella en el desierto 00:40:30
y el único superviviente tiene que escoger entre diversos objetos para intentar mantenerse 00:40:36
con vida. ¿Estás listo para jugar al juego supervivencia en el desierto? Puedes orientarte 00:40:41
de noche con la linterna, pero no creo que esa sea la mejor opción. La idea del estudio 00:40:46
es hacer que, mientras yo estoy hablando, Nao esté analizando mi voz y vaya cambiando 00:40:51
para parecerse más a mí. La gente no suele pensar en prepararse ante situaciones peligrosas. 00:40:57
La premisa es que cuanto más se asemeje el ritmo y el tono de Nao a la voz del superviviente, 00:41:03
más dispuesto estará éste a aceptar sus opiniones a la hora de tomar decisiones vitales. 00:41:09
La primera elección que debes hacer es la categoría de refugio, a tu izquierda. ¿Quieres 00:41:15
el lienzo o la lona? Es otro ejemplo de mirroring o imitación espejo. ¿Por qué hacemos mirroring? 00:41:20
Bueno, hay argumentos evolucionistas que dicen que es una manera de demostrar que nos preocupamos 00:41:27
por una persona y somos compatibles. En algunos estudios adaptamos la tecnología para que 00:41:31
suene más parecida al interlocutor y a la gente le gusta más. Nao, me gustaría llevarme 00:41:36
el lienzo. El lienzo se desgarra en trozos más pequeños y se utiliza para otros fines. 00:41:42
Gracias, Nao. Nao está de acuerdo conmigo, y eso está muy bien. También resulta muy 00:41:52
agradable que su voz cambie para parecerse a la mía. No podrías transportarlo todo 00:41:56
tú solo en el desierto. El profesor Nash ha descubierto que no solo nuestros cerebros 00:42:02
confunden a este robot con una persona real, sino que hemos evolucionado genéticamente 00:42:07
hasta el punto de considerarlo un semejante. Hasta un cierto nivel somos conscientes de 00:42:12
que las voces se definen por todo tipo de características, pero una de ellas es de 00:42:18
tipo genético. Así que no es absurdo usar la voz como una de las medidas para indicar 00:42:22
las similitudes o las diferencias que hay entre nosotros. En el caso de Nao, mi cerebro 00:42:27
interpreta. Si su voz se parece a la mía, es como yo. Compartimos genes. Los científicos 00:42:32
están aprovechando el poder de las voces artificiales para interactuar con los humanos. 00:42:43
Esta es la razón por la que androides como estos están empezando a ocupar el puesto 00:42:49
de acompañantes humanos en consultorios médicos y residencias de ancianos. Las personas 00:42:53
hablan con el robot con toda naturalidad. No les tienen miedo. Es más, les acarician 00:42:59
la mano y les miran a los ojos cuando hablan. Un hombre llegó a pedir a un robot que se 00:43:06
casara con él. Y cuando traigo el robot joven y guapo, las mujeres se interesan y 00:43:11
se ponen guapas. Creo que los robots serán pronto una realidad cotidiana en nuestras 00:43:22
sociedades. Si deseas tener una relación, un amigo, un compañero, si quieres hablar 00:43:33
sobre tu vida, busca a una persona. Si tienes a tu cargo personas mayores que desean contar 00:43:41
la historia de su vida, déjales que hablen. Muéstrales respeto y ofréceles la posibilidad 00:43:48
de hablar con una persona. ¿Queremos realmente hablar a un ser completamente inanimado? Contarle 00:43:54
nuestra vida? ¿Por qué a la gente le parece una buena solución? ¿Por qué les parece 00:44:02
una buena solución? A medida que nos relacionamos cada vez más con robots y voces sintéticas, 00:44:11
¿estarán ahí para ayudarnos o acabarán reemplazando el contacto humano real? Esta 00:44:22
cuestión podría quedar eclipsada a medida que entramos en una nueva era en la que la 00:44:31
propia voz humana puede quedar obsoleta. Solo el año pasado se enviaron más de seis 00:44:35
billones de mensajes de texto en todo el mundo. Hoy, un adolescente estadounidense recibe 00:44:43
de promedio más de 1700 mensajes al mes. Y en Japón, el 85% de los consumidores afirma 00:44:49
que prefieren comunicarse con un ordenador más que con una persona. Todos los operadores 00:44:57
están ocupados. Pulse la tecla almohadilla para acceder al menú. Cuando conocemos a 00:45:02
una persona, la asociamos inmediatamente a una voz. Es un instrumento realmente potente. 00:45:07
Sin embargo, en Facebook estas señales desaparecen. Recibimos un aluvión de datos, de nombres. 00:45:13
Es tanta la información que nos cuesta hacer un seguimiento de todas las personas. Algunas 00:45:19
nunca llegamos a conocerlas. ¿Pero importa realmente? Bueno, para mí tiene una gran 00:45:23
importancia y creo que también la tiene para la sociedad. Por lo que sabemos, todas las 00:45:30
sociedades humanas han atribuido una enorme importancia a esas señales emocionales. Ahora 00:45:36
bien, los cambios suceden, las revoluciones se producen. Hoy la gente casi prefiere comunicarse 00:45:41
por escrito antes que hablar. Y cuando les pregunto cuál es el problema, te contestan. 00:45:49
Te voy a decir el problema que tiene una conversación. Requiere tiempo y no puedes 00:45:55
controlar lo que vas a decir. Si no prestamos una atención constante al rostro de nuestro 00:46:00
interlocutor al tiempo que escuchamos su voz, ¿perdemos esa capacidad? Es un hecho preocupante. 00:46:06
Si me envían información y yo no me hago eco de ella, mi interlocutor acabará desistiendo. 00:46:14
De esa forma entramos en una espiral descendente donde este aparato increíble, la voz humana, 00:46:20
diseñada para producir toda esta rica información y nuestro cerebro diseñado también para consumir 00:46:26
toda esta rica información dejan de tener importancia. Esa perspectiva es aterradora 00:46:32
para mí. La voz humana. Dos pequeños músculos que se ponen en movimiento por el flujo del 00:46:38
aire. Oscilan y son increíblemente hermosos. El vehículo que nos permite expresar nuestras 00:46:53
emociones más profundas y comprender los sentimientos de los demás. Es el sello que 00:47:03
nos distingue como especie. Pero a medida que los sistemas informáticos aprenden a 00:47:11
pulsar nuestros botones emocionales más primitivos, ¿de qué modo influirán en nuestra forma 00:47:22
de convivir juntos y relacionarnos? ¿Olvidaremos cómo expresar la ira, el respeto o el amor 00:47:29
mediante la voz humana? ¿Y cuál será su impacto sobre las voces de las generaciones 00:47:40
futuras? La voz ya no es un atributo exclusivo de los seres humanos, a pesar de que hemos 00:47:47
evolucionado con esa asunción. Y nuestro cerebro sigue funcionando con esa asunción. 00:47:54
El listón de lo que representa la voz humana ha caído muy bajo. Y la robótica lo celebra 00:48:03
como un gran logro. Dios mío, qué fácil es recrear la voz humana. ¡Qué maravilla! 00:48:09
Un robot no tiene por qué ser sofisticado. Y yo me digo, ¿para qué? ¿Para engañarnos 00:48:13
a nosotros mismos más fácilmente? ¿Pueden hacerlo tan bien como un ser humano? No. ¿Serán 00:48:19
capaces? Sin duda. ¿Tendrá implicaciones en nuestra forma de relacionarnos? Es una 00:48:30
pregunta difícil de responder. Un ordenador, ya sea un robot o un androide, nunca reemplazará 00:48:35
la voz humana. Nunca. La voz humana, cuando habla, crea algo nuevo a cada instante. No 00:48:44
podemos decir lo mismo dos veces. Porque no somos copias, somos los originales. 00:48:53
Autor/es:
RTVE - Documenta2
Subido por:
Francisco J. M.
Licencia:
Reconocimiento - No comercial - Compartir igual
Visualizaciones:
92
Fecha:
21 de mayo de 2017 - 20:52
Visibilidad:
URL
Enlace Relacionado:
http://www.rtve.es/alacarta/videos/documenta2/documenta2-misterios-voz-humana/3119801/
Centro:
IES ALPAJÉS
Duración:
49′ 09″
Relación de aspecto:
1.78:1
Resolución:
1024x576 píxeles
Tamaño:
561.25 MBytes

Del mismo autor…

Ver más del mismo autor


EducaMadrid, Plataforma Educativa de la Comunidad de Madrid

Plataforma Educativa EducaMadrid