Activa JavaScript para disfrutar de los vídeos de la Mediateca.
Misterios de la voz humana
Ajuste de pantallaEl ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:
La voz humana es el sello que nos distingue como especie y la clave evolutiva de nuestra supervivencia. El deseo de reproducirla mecánicamente ha dado sus frutos pero aún resulta imposible conseguir una voz totalmente humana debido a su complejidad física y al poder emocional de su expresión.
La voz humana. Una maravilla de la anatomía. La firma de nuestra identidad. La voz es el
00:00:01
espejo del alma. Las voces son como las huellas dactilares, únicas. Es la clave evolutiva
00:00:15
para la supervivencia de nuestra especie. Existe ese hilo que se remonta hasta nuestros
00:00:23
antepasados primates. Con nuestra voz establecemos contacto con el mundo exterior. Elegimos a
00:00:30
nuestra pareja sentimental, a nuestros amigos y a nuestros líderes y expresamos nuestras
00:00:39
emociones más profundas. Expreso mis sentimientos. Vivo. Hoy los científicos están en una carrera
00:00:44
para crear nuevas tecnologías sin voz y voces artificiales como si fueran reales. Demostración
00:00:54
listo. Ante cualquier cosa que suene remotamente como una voz humana, nuestro cerebro dice
00:01:01
eso es una persona. Buenas tardes. ¿Estamos en el amanecer de una nueva era en la que
00:01:06
nos comunicamos más con robots y ordenadores que con humanos? ¿Queremos de verdad hablar
00:01:13
a un ser completamente inanimado? ¿Contarle nuestra vida? Misterios de la voz humana.
00:01:20
E incluso antes de nacer, reconocemos la voz humana. Mientras se encuentra todavía en
00:01:34
el útero, el feto responde al tono, al ritmo y a la entonación de la voz de su madre,
00:01:50
que resuena a través de su cuerpo. Cuando oye su voz, su ritmo cardíaco aumenta y
00:01:56
disminuye ante la voz de un extraño. El primer llanto de un recién nacido es un reflejo
00:02:07
para despejar sus vías respiratorias y respirar. Pero pronto la emergente voz humana tendrá
00:02:19
un variado repertorio de gritos para comunicar hambre, dolor, ira y miedo. La capacidad de
00:02:26
un recién nacido para emitir sonidos está limitada por la forma de su tracto vocal.
00:02:35
Pero a los tres meses comienza una transformación que le permite producir una amplia variedad
00:02:43
de nuevos sonidos. ¿Cantamos una canción diferente? Es sorprendente. En los primeros
00:02:49
cuatro años, la forma cambiante del tracto vocal de un bebé repetirá la historia entera
00:03:02
de la evolución humana. Nuestra voz ha tardado millones de años en evolucionar. Nuestros
00:03:07
antepasados primates carecían de lenguaje y solo podían producir una gama limitada
00:03:22
de sonidos, pero sus voces realizaban otra función vital, la comunicación de las emociones.
00:03:27
En especies sin un lenguaje léxico, el contenido emocional podría ser el elemento más importante
00:03:34
de la interacción, porque esencialmente cada uno tiene que comprender el estado emocional
00:03:40
del otro e intentar crear una relación interindividual sin palabras. El lenguaje corporal y la vocalización
00:03:46
tienen que haber estado estrechamente relacionados, volviéndose más eficientes a la hora de
00:03:54
comunicar aprobación, placer, desaprobación o disgusto. Cuando nuestros parientes prehumanos
00:03:58
salieron de los bosques y comenzaron a caminar erguidos, se produjeron unos cambios críticos
00:04:05
en su anatomía que mejoraron su capacidad para emitir sonidos. La forma de su cabeza
00:04:11
se transformó, su cara se aplanó, su lengua se desplazó hacia atrás y la laringe, que
00:04:18
contiene las cuerdas vocales, descendió, abriendo un tracto vocal más grande y cerrado,
00:04:25
capaz de producir una profusión de nuevos sonidos. Unidos al rápido desarrollo del
00:04:32
cerebro humano, estos cambios físicos permitieron a nuestra especie generar una compleja variedad
00:04:39
de sonidos necesaria para el lenguaje. Sin embargo, nuestro cerebro conservó su capacidad
00:04:45
para descifrar mensajes profundos y primordiales. Y la manera en que nuestro cerebro procesa
00:04:57
estos mensajes apenas ha cambiado a lo largo de toda la historia de la evolución humana.
00:05:06
En el interior de este escáner de resonancia magnética, en la Universidad College de Londres,
00:05:15
la profesora Sophie Scott está investigando cómo nuestro cerebro procesa los sonidos
00:05:23
producidos por la voz humana. El hemisferio izquierdo del cerebro se ocupa de la parte
00:05:28
lingüística de la voz, y el derecho, aunque sea un poco exagerado decirlo, de casi todo
00:05:33
lo demás. Se ocupa de quién es la persona que habla, de su estado emocional. Y en particular,
00:05:38
le gusta la prosodia, la melodía. Para identificar con precisión la región del hemisferio derecho
00:05:47
del cerebro que responde a las emociones en la voz más que al lenguaje, los sujetos del
00:05:54
experimento escucharon voces sin palabras. Si nos cuentan un chiste, nos reímos. Si
00:05:59
nos asustamos, seguramente gritaremos. Parecen gritos de animales, más que un lenguaje
00:06:06
humano. La investigación de la profesora Scott revela que la parte del cerebro que
00:06:14
responde a los sonidos emocionales se encuentra en la misma región del lóbulo temporal que
00:06:20
en nuestros antepasados primates. Y en ambas especies, la habilidad para detectar estos
00:06:26
sonidos es clave para la supervivencia. Es importante saber si algo sabe mal sin tener
00:06:31
que probarlo. Poder evaluar si alguien está enfadado con nosotros y supone una amenaza.
00:06:36
Poder valorar si alguien está asustado. Y hay un sonido particularmente similar entre
00:06:48
ambas especies. La manera de reírnos es casi exacta a como ríen los chimpancés. Nosotros
00:06:56
hacemos. Los chimpancés hacen... Pero su risa tiene un sonido fantástico. Y ese sonido
00:07:05
se reconoce como una carcajada. Son muy similares. Sigue existiendo ese hilo que se remonta hasta
00:07:14
nuestros antepasados primates. La comunicación tonal y emocional de nuestro estado anímico
00:07:22
es muy importante en las relaciones entre individuos. Somos mucho más similares a nuestros
00:07:28
ancestros homínidos de lo que la gente imagina. Uno de los primeros libros de Darwin fue la
00:07:34
expresión de las emociones en animales y humanos, sobre la teoría de que ser capaz
00:07:41
de manifestar las emociones es muy importante para las relaciones sociales, de manera que
00:07:46
la parte emocional de la voz evoluciona por ese motivo. Que está diseñada para comunicar,
00:07:51
sonar y para que el otro sienta lo que sentimos nosotros. Es esa entonación de la voz lo
00:07:59
que indica que alguien no está contento, está muy feliz o enamorado o a punto de casarse
00:08:06
o enojado. Si no pudieras verme, ¿podría saber por mi voz la edad que tengo, de dónde
00:08:11
procedo? ¿Podría saber si estoy de mal humor, si estoy enferma? La voz es una traducción
00:08:17
para los demás de nuestra personalidad. Si nos preguntan, ¿cómo estás? Y respondemos,
00:08:24
bien, gracias. Y nos contestan, no, creo que no estás bien, nuestra voz nos ha traicionado.
00:08:31
Puede que llevemos la huella de nuestros antepasados primates, pero la evolución nos ha dotado
00:08:38
con una voz única y exclusiva de nuestra especie. Somos unos instrumentos vocales asombrosos.
00:08:44
Dos terceras partes de nuestro cuerpo, miles de millones de señales eléctricas de nuestro cerebro
00:08:53
y cientos de músculos entran en acción cuando emitimos sonidos.
00:08:59
Cuando expelemos aire de nuestros pulmones, este se transforma en sonido gracias a dos minúsculas cuerdas vocales
00:09:03
que pueden vibrar hasta mil veces por segundo.
00:09:13
Las frecuencias generadas por nuestras cuerdas vocales pasan por la boca, que les da forma,
00:09:18
y las convierte en más de 300 sonidos diferentes, necesarios para el lenguaje hablado. Hola,
00:09:24
¿cómo estás? ¿Eres una niña buena? ¿A que sí? Eres una niña buena. La psicóloga
00:09:32
Christine Kitamura es una experta en el lenguaje infantil. Este es el diálogo no verbal entre
00:09:40
madres y bebés que se cree juega un papel en el desarrollo de las habilidades y el lenguaje
00:09:48
social. El bebé no entiende las palabras de su madre, todo se basa en el tono de su
00:09:54
voz. Mami, ¿puedes aplaudir? ¿Dónde está tu sonrisa? Es increíblemente primitivo.
00:10:00
Puedes sentir ese vínculo, que se remonta a una forma de comunicarse en la que se utilizaban
00:10:07
las emociones. A esta interacción universal entre madre y bebé, que se da en casi todas
00:10:12
las culturas, los lingüistas la llaman habla dirigida al bebé. Es muy exagerada. Tiene
00:10:21
un tono más alto. Tiene contornos de entonación exagerados. Y mantiene a la madre en sintonía
00:10:30
con las emociones del bebé y sus estados de excitación. El habla dirigida al bebé
00:10:41
es como música. Es el fertilizante de todo lo que viene después. Para el lenguaje. ¿Estás
00:10:50
cansadita? Para su relación con su madre y con todos los demás seres humanos. De ahí
00:11:02
es de donde proviene todo. Pero a medida que crecemos y nos dicen cómo debemos comportarnos,
00:11:10
aprendemos a esconder las emociones. La foniatra Isobel Kirk hace ejercicios vocales clásicos
00:11:17
para liberar la voz humana, como hablar con la lengua fuera. Los actores se supone que
00:11:30
deben liberar las tensiones físicas y mentales que inhiben su habilidad para expresar emociones.
00:11:39
Lo maravilloso es que es como si tuvieras un aparato ortopédico en la boca y te lo
00:11:48
quitaras. La boca dice, oh, muchas gracias. Sí, mi paladar quiere elevarse cuando bostezo.
00:11:53
Al fin libre. Isobel trabaja con un grupo de actores que ensaya un musical sobre los
00:12:01
secretos y los demonios más profundos del hombre. Su reto es conseguir que estos actores
00:12:12
liberen lo que tienen dentro. La gente se autocensura porque teme convertirse en un
00:12:18
bebé de dos años otra vez. Si eliminan sus impulsos censores, serán como un perro. Y
00:12:25
lo que les pase por dentro, saldrá. Tensamos los músculos de nuestro cuerpo, especialmente
00:12:33
alrededor de la caja torácica. En cualquier parte de nuestro cuerpo podemos sentir emociones,
00:12:44
Y somos capaces de reprimirlas. Es así de simple. Cuando decimos que sonreímos y aguantamos,
00:12:50
apretamos los dientes, nos mordemos la lengua o expresiones así, nos tragamos las palabras,
00:12:55
nos tragamos la lengua. El lenguaje está lleno de expresiones que tienen una manifestación
00:13:00
física. Nuestras voces y nuestras emociones son lo mismo.
00:13:05
Los grandes oradores saben también que la capacidad de nuestra voz para expresar emociones
00:13:20
tiene un efecto muy poderoso sobre los demás. La doctora Branca Sey-Pollerman, psicóloga,
00:13:33
está interesada en las neuronas espejo. Los neurocientíficos las han estudiado en
00:13:41
primates, aves y humanos. Polerman afirma que desempeñan un papel importante en la
00:13:48
manera en que las voces de los líderes desatan emociones en grupos grandes. Las neuronas
00:14:04
espejo son las neuronas que se activan cuando vemos o cuando oímos a los líderes.
00:14:10
nuestras neuronas espejo están activadas. Y hasta cierto punto, sentimos como si nosotros
00:14:18
mismos estuviéramos pronunciando esas palabras. Según la doctora Pollerman, uno de los factores
00:14:26
que activan las neuronas espejo es la calidad musical de la voz del orador. Y se sabe que
00:14:37
en la música, el crescendo, ya sea en el tono, en el volumen o en el ritmo, provoca
00:14:46
reacciones físicas como temblores y escalofríos. Obama, por ejemplo, utiliza más el crescendo
00:14:53
en el volumen que en el tono. Con una parte del discurso de aceptación del presidente
00:15:04
Obama en 2008, la doctora Pollerman revela cómo las voces de la persuasión son esencialmente
00:15:10
musicales, transformándolas en instrumentos. El objetivo de un discurso es desatar las
00:15:20
emociones de la gente. Cuando se acompaña de tono, volumen y crescendo, se convierte
00:15:37
en una forma muy poderosa de influir en los sentimientos. La voz humana es un poderoso
00:15:42
instrumento musical que no solo desata emociones, sino que revela quiénes somos y de dónde
00:16:01
venimos. La cantante africana Angelique Kidjo ha puesto su voz en manos del doctor Jan Abitbol,
00:16:06
otolaringólogo de renombre mundial. Para un cantante, la voz es su vida. Si le hubiéramos
00:16:16
preguntado a Yehudi Menuhin qué le gustaría ser, estoy seguro de que habría contestado
00:16:24
un Stradivarius. Pero la diferencia es que en el caso de la cantante, el Stradivarius
00:16:29
está aquí. La forma en que Kidjo actúa desde los tres años se parece a la actuación
00:16:37
de un deportista. Es una armonía entre su respiración abdominal, su respiración torácica,
00:16:42
la musculación de sus cuerdas vocales y la ubicación de su cámara de resonancia. Esto
00:16:48
es el fibroscopio, que nos permite mirar en todas las direcciones. ¿Quieres que cante
00:16:54
la misma canción? Si puedes. El doctor Abitbol es pionero en el uso del fibroscopio para
00:16:59
investigar las cuerdas vocales de algunos de los cantantes más importantes del mundo.
00:17:05
Estas son sus cuerdas vocales. Se ven muy bien. La voz de Angelique es un producto de
00:17:10
su anatomía vocal única, así como de sus orígenes en Benin, África Occidental. Tengo
00:17:15
que decir que mi voz está también basada en mis idiomas, en nuestra forma de cantar
00:17:22
en Benin, en nuestra forma de cantar en África. La mayoría de nosotros, los artistas africanos,
00:17:26
empezamos cantando sin micrófono, así que aprendimos de forma natural a proyectar la
00:17:33
voz. Al tener una voz natural, puede jugar con ella como si fuese un tambor.
00:17:37
Es el universo cultural de Kitcho, quien habla a través de su voz. Son sus antepasados los
00:17:56
que hablan a través de su voz. Para mí, la voz es el espejo del alma. Las voces son
00:18:14
como las huellas dactilares, únicas. No importa dónde vivas, tu voz llevará impresa y reflejará
00:18:26
tu cultura en el idioma que hables, en tu forma de cantar. La cultura da forma a la
00:18:37
voz de otras maneras también. Las mujeres japonesas tienen las voces más agudas del
00:18:51
mundo. Pueden alcanzar un descomunal pico de 450 hercios, dos veces más alto que el
00:18:57
de la mujer europea media. Y, sin embargo, no existe diferencia en el tamaño de sus
00:19:05
cuerdas vocales. Es un despliegue de feminidad con profundas raíces en la tradición. Majo
00:19:13
Kurashima es foniatra y trabaja con profesionales en Tokio. Primero vamos a desentumecer nuestro
00:19:27
cuerpo para poder utilizar nuestra voz con más facilidad. ¿Podéis poneros todos de
00:19:34
pie, por favor? Muchos son periodistas de radio y televisión. Si tomamos, por ejemplo,
00:19:38
una sociedad como la japonesa, remontándonos hasta hace unos diez años, la voz ideal del
00:19:49
hombre y la de la mujer eran ampliamente divergentes. La voz de la mujer era tan aguda que casi
00:19:55
parecía doloroso para las mujeres tener que ajustar su voz a esos parámetros. Alguien
00:20:01
lo describió como el equivalente vocal al vendado de pies en China. Cuando eres joven,
00:20:08
tienes una voz aguda. Por eso, de una manera instintiva, los hombres prefieren las voces
00:20:17
agudas. Pero recientemente ha habido una moda inversa en Japón a favor de voces más
00:20:24
graves en la mujer. Algunas profesionales japonesas se han hecho la cirugía bucal
00:20:32
para bajar la tonalidad de su voz, aunque la mayoría han acudido a foniatras como la
00:20:39
señora Kurashima. Hay historias extraordinarias de mujeres en Japón, principalmente presentadoras,
00:20:44
pero también de otras profesiones, que ahora intentan forzar su voz en la dirección contraria.
00:20:54
Tomamos como ejemplo la voz de una oficina. Si es una voz madura y baja, transmite confianza
00:21:03
y también transmite autoridad. Pero Maho Kurashima puede estar empujando a sus estudiantes
00:21:12
contra las fuerzas de la evolución. Los científicos han descubierto que las preferencias por las
00:21:21
voces agudas en las mujeres y las graves en los hombres pueden estar relacionadas con
00:21:29
la supervivencia de nuestra especie. Estudios sobre la tribu Himba en Namibia revelaron
00:21:34
que los hombres con voces graves y las mujeres con voces agudas tienen niveles más altos
00:21:44
de hormonas reproductivas y más descendencia. No se sabe si el tono de voz sigue influyendo
00:21:49
en el éxito reproductivo en las sociedades modernas, pero cuando desafiamos las convenciones
00:22:00
vocales, las cosas se pueden descontrolar. Por fin con nosotros, se denominan a sí mismos
00:22:06
la Organización para la Liberación de Barbie, la BLO. ¿Quieres ir de compras? ¿Cómo? ¿G.I.
00:22:11
Joe quiere ir de compras? Cuando un grupo feminista clandestino violó los estereotipos
00:22:16
vocales en Estados Unidos, se desató una guerra cultural. En 1989 nació un nuevo grupo
00:22:22
guerrillero en Nueva York, el Frente para la Liberación de Barbie. Un G.I. Joe víctima
00:22:32
de una emboscada de la Organización para la Liberación de Barbie. Descubrieron que
00:22:38
las Barbies y los G.I. Joes, los que hablaban, tenían los mismos chips de voz. Así que
00:22:43
fueron a varios grandes almacenes de Nueva York. Compraron 300 Barbies y GI Joes e intercambiaron
00:22:52
sus chips de voz. Observen cómo otros dos miembros de la BLO reemplazan al menos media
00:22:59
docena de muñecas Barbie en otra tienda cercana. Y los GI Joes, cuando hablaban, decían cosas
00:23:06
como planeemos nuestro sueño de boda o nunca tendremos ropa suficiente. Y las Barbies,
00:23:13
en cambio. Decían cosas como, al ataque, venganza. Soldados, ataque. El alboroto que
00:23:22
produjo aquel intercambio fue extraordinario. La gente se sintió indignada, se sintió
00:23:32
ofendida. Hubo protestas. Habla como una chica. ¿Le va el rollo raro? A mí me parece muy
00:23:39
interesante que algo así nos perturbe tanto. Atacad, fuego directo contra el Escuadrón
00:23:49
Cobra. Es muy triste que encorsetemos a la gente en estereotipos vocales. Puede que estemos
00:23:56
atrapados en nuestros propios estereotipos vocales. Pero nadie está más aislado que
00:24:08
aquellos que han perdido la voz por completo. Al exjuez, Phil Miyamoto, le extrajeron la
00:24:15
laringe con las cuerdas vocales como consecuencia de un cáncer. Los aísla en muchos aspectos.
00:24:25
Por ejemplo, de algo tan sencillo como ir a un restaurante y mantener una conversación.
00:24:32
Di hola. No pueden hablar por teléfono. El destacado patólogo del habla, Christoph
00:24:36
Izdevsky tiene que lidiar con algo más que los problemas físicos de sus pacientes. Los
00:24:46
pacientes que se han sometido a una laringectomía han formado el club de la cuerda perdida,
00:24:56
porque literalmente está perdida. Estaba, me desperté y ya no estaba. Pierden todo
00:25:02
el mecanismo para producir sonido. Phil habla hoy a través de una electrolaringe. Genera
00:25:10
eléctricamente un zumbido que sustituye al sonido que producían sus cuerdas vocales
00:25:18
perdidas. Otras personas reaccionan a la electrolaringe como podríais esperar. Siempre preguntan
00:25:23
¿eres R2D2? Todo cambia. Todo el mecanismo que permite hablar cambia. Quieres reírte
00:25:34
a carcajadas, quieres susurrar, no puedes hacerlo. Quieres llorar con sonidos o yozar
00:25:45
y no puedes. Quieres gritar, tampoco puedes. Si me enfado, algo que no sucede a menudo,
00:25:51
no puedo decir, deja de hacer eso, deja de hacer eso. Es un doble contratiempo. Primero
00:25:58
porque no pueden producir la voz bien y segundo porque no se les escucha. Actualmente los
00:26:09
científicos están en una carrera global para replicar la voz humana. En la Universidad
00:26:18
de York, el profesor de electrónica David Howard desarrolla un sistema sintetizador
00:26:25
de voz que podría ser utilizado por personas que han perdido su capacidad de hablar. Y
00:26:30
está decidido a conseguir que suene humano. Lo más importante es la investigación. Estoy
00:26:36
intentando comprender qué es lo que hace que un sonido suene natural. Se puede beneficiar
00:26:41
la gente que ha perdido parte de su aparato fonador a causa del cáncer o cualquier otro
00:26:47
accidente. En principio se les podría devolver la voz que tenían antes de sufrir el trauma.
00:26:52
Ese sería para mí un objetivo maravilloso, ser capaz de dejar eso como legado. La mayoría
00:26:57
mayoría de los actuales sistemas electrónicos de voz están basados en voces humanas reales.
00:27:06
Así pues, replicar artificialmente la voz humana constituye un enorme desafío. Es una
00:27:11
búsqueda que se remonta a siglos atrás. A finales del siglo XVIII, un excéntrico
00:27:24
inventor australiano, Wolfgang von Kempelen, diseñó este modelo del tracto vocal humano.
00:27:31
Estos son los pulmones
00:27:37
Dentro de la caja hay una caña
00:27:42
y esa caña es la fuente de sonido
00:27:44
Los modificadores de sonido están representados
00:27:46
por esta bolsa de cuero
00:27:49
y cuando apriete
00:27:50
oiréis un sonido vocálico
00:27:52
que intentaré modificar
00:27:54
El invento de la exposición de Frisco
00:27:56
el robot parlante
00:28:02
Ha habido varios intentos hasta la edad moderna
00:28:03
de la electrónica y la informática
00:28:06
El aparato utiliza dos sonidos producidos eléctricamente. Uno representa la respiración.
00:28:08
El vocoder fue el primer aparato sintetizador de voz. Lo inventó a finales de la década
00:28:16
de 1920 el ingeniero electrónico estadounidense Homer Dudley. Una mujer intentaba manejar
00:28:23
el aparato. Y era capaz de sacar un par de frases. ¿A quién vio? ¿Te vio o te oyó?
00:28:32
Así es como se han creado hasta hoy la mayoría de las voces electrónicas. Estos botones
00:28:44
grises representan un grupo de vocales y están dispuestos de la forma clásica en la que
00:28:53
se disponen desde el siglo XIX. Se llama síntesis deformantes y utiliza frecuencias
00:28:58
fijas para reproducir electrónicamente los sonidos vocales que hacemos cuando cambiamos
00:29:05
la forma de nuestra boca. De modo que si hago la vocal I y la cambio a A y vuelvo, vuelvo,
00:29:10
Ahora hago U y A. Suena electrónico, tiene un sonido robótico. Es el tipo de sintetizador
00:29:23
que tiene Stephen Hawking con un sonido electrónico. Se basa en los mismos principios. Si me coloco
00:29:32
esto... El profesor Howard está desarrollando algo mejor. Utiliza su propio tracto vocal
00:29:38
como modelo para producir una voz de ordenador realista. Primero graba los sonidos producidos
00:29:44
por sus cuerdas vocales. Luego, mediante la imagen de una resonancia magnética de su
00:29:55
garganta y boca, hace un modelo de plástico en 3D de su propio tracto vocal. Estos son
00:30:07
mis labios. Mi laringe, que se ve en el fondo, donde está este plato redondo, está situada
00:30:16
donde se encuentran los electrodos, y los labios están situados donde están mis labios. Esta
00:30:21
la vista lateral y la vista frontal. El modelo de su tracto vocal se coloca entonces en un
00:30:26
amplificador que repite la grabación de sus cuerdas vocales. El altavoz es ahora mi laringe
00:30:35
y obtenemos esto. Todo esto resulta un tanto siniestro. Si miro el dispositivo, se me antoja
00:30:41
realmente así, porque es una parte de mí, totalmente expuesta, y resulta bastante extraño.
00:30:51
Pero lo interesante es que lo único que tenemos como instrumento es un tubo blando de goma,
00:30:57
de esta longitud y un zumbador. Con el tiempo, el profesor Howard espera utilizar estos sonidos
00:31:01
para crear una voz de ordenador con un sonido más humano, pero sabe que tiene un largo
00:31:10
camino por delante. Puedo conectar a seres humanos y medir su tono de voz así. Cuando
00:31:15
lo resintetizo todo, sigue faltando algo. Y eso, para mí, es la humanidad mágica.
00:31:27
Así me gusta denominarlo, la huella vocal, como la dactilar, lo que significa que mis oídos y cerebro saben cuándo estoy escuchando un sonido que proviene de otro ser humano y no de un ordenador.
00:31:36
En ningún lugar trabajan tanto los informáticos para reproducir la voz humana como en Japón.
00:32:06
El doctor Hideyuki Saguada ha tomado un enfoque totalmente distinto para reproducir la voz.
00:32:14
Ha creado una máquina parlante mecánica robótica que se mueve como una boca humana.
00:32:30
El robot es un modelo de un mecanismo con una voz humana.
00:32:45
Aquí hay un compresor de aire equivalente a un pulmón.
00:32:51
Este robot es capaz de recrear sonidos vocales básicos del idioma japonés. Para crear diferentes
00:32:57
sonidos, la boca tiene que estar construida de cierta manera. Tiene que poder adoptar
00:33:18
las mismas formas que una boca humana. Aunque todavía se encuentra en un estado inicial,
00:33:25
el doctor Sawada está convencido de que este modelo físico de la boca humana es superior
00:33:35
a cualquier sonido electrónico que pueda ser reproducido por un ordenador. Como solo
00:33:40
es una boca y una nariz, a algunas personas les resulta repulsivo y a otras fascinante.
00:33:47
En este tipo de investigaciones no se reciben muchos elogios, por eso cualquier reacción
00:33:53
me hace feliz. El doctor Sawada ha enseñado a su boca parlante a cantar una canción popular
00:34:02
japonesa. Y la canta bastante bien. Cuando su tecnología esté perfeccionada, su objetivo
00:34:13
final es que sea utilizada por androides. En el interior de este laboratorio robótico
00:34:29
de Tokio, los límites entre lo humano y lo no humano se confunden.
00:34:40
Andriu y Andro son dos de los androides más avanzados verbalmente del mundo. Colaboramos
00:34:45
en una investigación entre la Universidad de Osaka y otras universidades. Son los retoños
00:34:57
del ingeniero en robótica Yoshio Matsumoto. Los hemos programado. Andriu y Andro están
00:35:04
programados para que hablen como humanos. Gracias al sonido sintetizado puedo hablar
00:35:12
naturalmente. La apariencia de un robot es muy importante. Si el robot parece humano,
00:35:19
pero la voz no es humana, la impresión que produce es muy extraña. Son similares a zombis
00:35:28
o personas muertas. Tenemos un programa que permite al robot tener una voz muy parecida
00:35:37
a la humana. No creo que haga falta mucho tiempo para que podamos duplicar una voz
00:35:49
humana. Los científicos quieren conseguir que las voces de estos androides suenen reales.
00:36:02
Pero el esfuerzo por replicar una voz humana a la perfección puede que no sea tan importante.
00:36:11
¿Quieres hacerte una foto conmigo? Aquí comenzó todo. Es el lugar de nacimiento de
00:36:17
Kismet, el primer robot social con voz. Actualmente Kismet reside en una vitrina de plexiglas
00:36:29
en el Instituto Tecnológico de Massachusetts. ¡Qué robot más bonito! Eres monísimo. Aunque
00:36:38
no hablaba ningún idioma, Kismet parecía comunicarse estrictamente con sonidos. Tú
00:36:47
y yo. Kismet tiene una voz cantarina, una voz humana sin palabras, y de vez en cuando
00:36:55
emite una palabra. Pero no demasiadas. Es una especie de balbuceo incoherente. Asintiendo
00:37:03
con la cabeza, con sus pequeñas expresiones. No, no, voy a tocar eso. No, no, para. Escúchame,
00:37:15
escúchame. La gente interactúa. La gente quiere entablar relaciones. Estoy deprimida,
00:37:22
Siri. Sherry Tarkel es psicóloga del Laboratorio de Inteligencia Artificial del Instituto Tecnológico
00:37:32
de Massachusetts. Ha estudiado cómo interactúa la gente con voces robóticas. He estudiado
00:37:38
los pequeños tamagotchis y he estudiado los saibos. Por favor, abrázame, abrázame. También
00:37:45
he estudiado los furbis, porque quería ver realmente hasta dónde somos capaces de llegar
00:37:52
para obtener una respuesta. Debido a que las voces y los gestos de los robots desencadenan
00:37:57
respuestas inconscientes en nosotros, la profesora Tarkel los ha llamado botones darwinianos.
00:38:07
Acuñé el término botones darwinianos para tratar de describir cómo la robótica social
00:38:17
provoca en nosotros reacciones. Reacciones que nos hacen retroceder hasta las respuestas
00:38:23
animales más primitivas a la hora de reconocer a otras criaturas e identificarnos con ellas,
00:38:30
como son el contacto visual, la imitación de gestos y la emisión de sonidos. Y ahora
00:38:38
triste. Y la voz, sea del tipo que sea, incluso la voz más primitiva y en particular cuando
00:38:46
posee algún tipo de cadencia, es uno de esos botones. En el laboratorio de medios interactivos
00:38:54
de la Universidad de Stanford, el psicólogo Clifford Nash ha estado estudiando cómo las
00:39:06
personas interactúan con voces artificiales. Prepárese para tomar la salida de San Diego.
00:39:11
En sus experimentos coloca a grupos de estudiantes dentro de simuladores de conducción para medir cómo responden a las voces de navegación del coche.
00:39:17
Sitúese en el carril derecho.
00:39:26
Y los resultados han sido sorprendentes.
00:39:28
Hemos llevado a cabo una serie de estudios utilizando varios tipos de lo que llamamos voces sintéticas, aquellas en las que resulta obvio que no se trata de una persona real del tipo.
00:39:30
Son las 12 horas y 43 minutos. La típica voz que uno nunca confundiría con una voz humana real.
00:39:39
A tres kilómetros gire a la izquierda por Main Street
00:39:44
El cerebro no está diseñado con un interruptor de apagado y encendido
00:39:48
que distinga entre humano y no humano en lo que se refiere al habla
00:39:52
Continúe para tomar la salida de San Diego
00:39:55
Nuestro cerebro reacciona igual ante una voz tecnológica y una humana
00:39:58
Gire a la izquierda al llegar
00:40:03
Ante algo que suene vagamente como una voz humana, por muy remota que sea
00:40:05
nuestro cerebro dice, eso es una persona
00:40:10
y activa todos los mecanismos de la personalidad. Por eso, es tan importante saber cuáles
00:40:12
escogerías y cuáles de todos descartarías. El profesor Nash ha llevado su investigación
00:40:18
un paso más allá. Está realizando experimentos con un robot llamado Nao, programado para
00:40:24
jugar a supervivencia en el desierto. En el juego, un avión se estrella en el desierto
00:40:30
y el único superviviente tiene que escoger entre diversos objetos para intentar mantenerse
00:40:36
con vida. ¿Estás listo para jugar al juego supervivencia en el desierto? Puedes orientarte
00:40:41
de noche con la linterna, pero no creo que esa sea la mejor opción. La idea del estudio
00:40:46
es hacer que, mientras yo estoy hablando, Nao esté analizando mi voz y vaya cambiando
00:40:51
para parecerse más a mí. La gente no suele pensar en prepararse ante situaciones peligrosas.
00:40:57
La premisa es que cuanto más se asemeje el ritmo y el tono de Nao a la voz del superviviente,
00:41:03
más dispuesto estará éste a aceptar sus opiniones a la hora de tomar decisiones vitales.
00:41:09
La primera elección que debes hacer es la categoría de refugio, a tu izquierda. ¿Quieres
00:41:15
el lienzo o la lona? Es otro ejemplo de mirroring o imitación espejo. ¿Por qué hacemos mirroring?
00:41:20
Bueno, hay argumentos evolucionistas que dicen que es una manera de demostrar que nos preocupamos
00:41:27
por una persona y somos compatibles. En algunos estudios adaptamos la tecnología para que
00:41:31
suene más parecida al interlocutor y a la gente le gusta más. Nao, me gustaría llevarme
00:41:36
el lienzo. El lienzo se desgarra en trozos más pequeños y se utiliza para otros fines.
00:41:42
Gracias, Nao. Nao está de acuerdo conmigo, y eso está muy bien. También resulta muy
00:41:52
agradable que su voz cambie para parecerse a la mía. No podrías transportarlo todo
00:41:56
tú solo en el desierto. El profesor Nash ha descubierto que no solo nuestros cerebros
00:42:02
confunden a este robot con una persona real, sino que hemos evolucionado genéticamente
00:42:07
hasta el punto de considerarlo un semejante. Hasta un cierto nivel somos conscientes de
00:42:12
que las voces se definen por todo tipo de características, pero una de ellas es de
00:42:18
tipo genético. Así que no es absurdo usar la voz como una de las medidas para indicar
00:42:22
las similitudes o las diferencias que hay entre nosotros. En el caso de Nao, mi cerebro
00:42:27
interpreta. Si su voz se parece a la mía, es como yo. Compartimos genes. Los científicos
00:42:32
están aprovechando el poder de las voces artificiales para interactuar con los humanos.
00:42:43
Esta es la razón por la que androides como estos están empezando a ocupar el puesto
00:42:49
de acompañantes humanos en consultorios médicos y residencias de ancianos. Las personas
00:42:53
hablan con el robot con toda naturalidad. No les tienen miedo. Es más, les acarician
00:42:59
la mano y les miran a los ojos cuando hablan. Un hombre llegó a pedir a un robot que se
00:43:06
casara con él. Y cuando traigo el robot joven y guapo, las mujeres se interesan y
00:43:11
se ponen guapas. Creo que los robots serán pronto una realidad cotidiana en nuestras
00:43:22
sociedades. Si deseas tener una relación, un amigo, un compañero, si quieres hablar
00:43:33
sobre tu vida, busca a una persona. Si tienes a tu cargo personas mayores que desean contar
00:43:41
la historia de su vida, déjales que hablen. Muéstrales respeto y ofréceles la posibilidad
00:43:48
de hablar con una persona. ¿Queremos realmente hablar a un ser completamente inanimado? Contarle
00:43:54
nuestra vida? ¿Por qué a la gente le parece una buena solución? ¿Por qué les parece
00:44:02
una buena solución? A medida que nos relacionamos cada vez más con robots y voces sintéticas,
00:44:11
¿estarán ahí para ayudarnos o acabarán reemplazando el contacto humano real? Esta
00:44:22
cuestión podría quedar eclipsada a medida que entramos en una nueva era en la que la
00:44:31
propia voz humana puede quedar obsoleta. Solo el año pasado se enviaron más de seis
00:44:35
billones de mensajes de texto en todo el mundo. Hoy, un adolescente estadounidense recibe
00:44:43
de promedio más de 1700 mensajes al mes. Y en Japón, el 85% de los consumidores afirma
00:44:49
que prefieren comunicarse con un ordenador más que con una persona. Todos los operadores
00:44:57
están ocupados. Pulse la tecla almohadilla para acceder al menú. Cuando conocemos a
00:45:02
una persona, la asociamos inmediatamente a una voz. Es un instrumento realmente potente.
00:45:07
Sin embargo, en Facebook estas señales desaparecen. Recibimos un aluvión de datos, de nombres.
00:45:13
Es tanta la información que nos cuesta hacer un seguimiento de todas las personas. Algunas
00:45:19
nunca llegamos a conocerlas. ¿Pero importa realmente? Bueno, para mí tiene una gran
00:45:23
importancia y creo que también la tiene para la sociedad. Por lo que sabemos, todas las
00:45:30
sociedades humanas han atribuido una enorme importancia a esas señales emocionales. Ahora
00:45:36
bien, los cambios suceden, las revoluciones se producen. Hoy la gente casi prefiere comunicarse
00:45:41
por escrito antes que hablar. Y cuando les pregunto cuál es el problema, te contestan.
00:45:49
Te voy a decir el problema que tiene una conversación. Requiere tiempo y no puedes
00:45:55
controlar lo que vas a decir. Si no prestamos una atención constante al rostro de nuestro
00:46:00
interlocutor al tiempo que escuchamos su voz, ¿perdemos esa capacidad? Es un hecho preocupante.
00:46:06
Si me envían información y yo no me hago eco de ella, mi interlocutor acabará desistiendo.
00:46:14
De esa forma entramos en una espiral descendente donde este aparato increíble, la voz humana,
00:46:20
diseñada para producir toda esta rica información y nuestro cerebro diseñado también para consumir
00:46:26
toda esta rica información dejan de tener importancia. Esa perspectiva es aterradora
00:46:32
para mí. La voz humana. Dos pequeños músculos que se ponen en movimiento por el flujo del
00:46:38
aire. Oscilan y son increíblemente hermosos. El vehículo que nos permite expresar nuestras
00:46:53
emociones más profundas y comprender los sentimientos de los demás. Es el sello que
00:47:03
nos distingue como especie. Pero a medida que los sistemas informáticos aprenden a
00:47:11
pulsar nuestros botones emocionales más primitivos, ¿de qué modo influirán en nuestra forma
00:47:22
de convivir juntos y relacionarnos? ¿Olvidaremos cómo expresar la ira, el respeto o el amor
00:47:29
mediante la voz humana? ¿Y cuál será su impacto sobre las voces de las generaciones
00:47:40
futuras? La voz ya no es un atributo exclusivo de los seres humanos, a pesar de que hemos
00:47:47
evolucionado con esa asunción. Y nuestro cerebro sigue funcionando con esa asunción.
00:47:54
El listón de lo que representa la voz humana ha caído muy bajo. Y la robótica lo celebra
00:48:03
como un gran logro. Dios mío, qué fácil es recrear la voz humana. ¡Qué maravilla!
00:48:09
Un robot no tiene por qué ser sofisticado. Y yo me digo, ¿para qué? ¿Para engañarnos
00:48:13
a nosotros mismos más fácilmente? ¿Pueden hacerlo tan bien como un ser humano? No. ¿Serán
00:48:19
capaces? Sin duda. ¿Tendrá implicaciones en nuestra forma de relacionarnos? Es una
00:48:30
pregunta difícil de responder. Un ordenador, ya sea un robot o un androide, nunca reemplazará
00:48:35
la voz humana. Nunca. La voz humana, cuando habla, crea algo nuevo a cada instante. No
00:48:44
podemos decir lo mismo dos veces. Porque no somos copias, somos los originales.
00:48:53
- Autor/es:
- RTVE - Documenta2
- Subido por:
- Francisco J. M.
- Licencia:
- Reconocimiento - No comercial - Compartir igual
- Visualizaciones:
- 92
- Fecha:
- 21 de mayo de 2017 - 20:52
- Visibilidad:
- URL
- Enlace Relacionado:
- http://www.rtve.es/alacarta/videos/documenta2/documenta2-misterios-voz-humana/3119801/
- Centro:
- IES ALPAJÉS
- Duración:
- 49′ 09″
- Relación de aspecto:
- 1.78:1
- Resolución:
- 1024x576 píxeles
- Tamaño:
- 561.25 MBytes