1
00:00:01,970 --> 00:00:15,359
La voz humana. Una maravilla de la anatomía. La firma de nuestra identidad. La voz es el

2
00:00:15,359 --> 00:00:23,620
espejo del alma. Las voces son como las huellas dactilares, únicas. Es la clave evolutiva

3
00:00:23,620 --> 00:00:30,480
para la supervivencia de nuestra especie. Existe ese hilo que se remonta hasta nuestros

4
00:00:30,480 --> 00:00:39,359
antepasados primates. Con nuestra voz establecemos contacto con el mundo exterior. Elegimos a

5
00:00:39,359 --> 00:00:44,880
nuestra pareja sentimental, a nuestros amigos y a nuestros líderes y expresamos nuestras

6
00:00:44,880 --> 00:00:54,159
emociones más profundas. Expreso mis sentimientos. Vivo. Hoy los científicos están en una carrera

7
00:00:54,159 --> 00:01:01,060
para crear nuevas tecnologías sin voz y voces artificiales como si fueran reales. Demostración

8
00:01:01,060 --> 00:01:06,400
listo. Ante cualquier cosa que suene remotamente como una voz humana, nuestro cerebro dice

9
00:01:06,400 --> 00:01:13,439
eso es una persona. Buenas tardes. ¿Estamos en el amanecer de una nueva era en la que

10
00:01:13,439 --> 00:01:20,939
nos comunicamos más con robots y ordenadores que con humanos? ¿Queremos de verdad hablar

11
00:01:20,939 --> 00:01:34,209
a un ser completamente inanimado? ¿Contarle nuestra vida? Misterios de la voz humana.

12
00:01:34,209 --> 00:01:50,620
E incluso antes de nacer, reconocemos la voz humana. Mientras se encuentra todavía en

13
00:01:50,620 --> 00:01:55,819
el útero, el feto responde al tono, al ritmo y a la entonación de la voz de su madre,

14
00:01:56,200 --> 00:02:07,400
que resuena a través de su cuerpo. Cuando oye su voz, su ritmo cardíaco aumenta y

15
00:02:07,400 --> 00:02:19,180
disminuye ante la voz de un extraño. El primer llanto de un recién nacido es un reflejo

16
00:02:19,180 --> 00:02:26,939
para despejar sus vías respiratorias y respirar. Pero pronto la emergente voz humana tendrá

17
00:02:26,939 --> 00:02:35,620
un variado repertorio de gritos para comunicar hambre, dolor, ira y miedo. La capacidad de

18
00:02:35,620 --> 00:02:40,219
un recién nacido para emitir sonidos está limitada por la forma de su tracto vocal.

19
00:02:43,919 --> 00:02:49,259
Pero a los tres meses comienza una transformación que le permite producir una amplia variedad

20
00:02:49,259 --> 00:03:02,069
de nuevos sonidos. ¿Cantamos una canción diferente? Es sorprendente. En los primeros

21
00:03:02,069 --> 00:03:07,870
cuatro años, la forma cambiante del tracto vocal de un bebé repetirá la historia entera

22
00:03:07,870 --> 00:03:22,240
de la evolución humana. Nuestra voz ha tardado millones de años en evolucionar. Nuestros

23
00:03:22,240 --> 00:03:27,240
antepasados primates carecían de lenguaje y solo podían producir una gama limitada

24
00:03:27,240 --> 00:03:33,719
de sonidos, pero sus voces realizaban otra función vital, la comunicación de las emociones.

25
00:03:34,460 --> 00:03:40,740
En especies sin un lenguaje léxico, el contenido emocional podría ser el elemento más importante

26
00:03:40,740 --> 00:03:46,060
de la interacción, porque esencialmente cada uno tiene que comprender el estado emocional

27
00:03:46,060 --> 00:03:54,360
del otro e intentar crear una relación interindividual sin palabras. El lenguaje corporal y la vocalización

28
00:03:54,360 --> 00:03:58,879
tienen que haber estado estrechamente relacionados, volviéndose más eficientes a la hora de

29
00:03:58,879 --> 00:04:05,460
comunicar aprobación, placer, desaprobación o disgusto. Cuando nuestros parientes prehumanos

30
00:04:05,460 --> 00:04:11,599
salieron de los bosques y comenzaron a caminar erguidos, se produjeron unos cambios críticos

31
00:04:11,599 --> 00:04:18,139
en su anatomía que mejoraron su capacidad para emitir sonidos. La forma de su cabeza

32
00:04:18,139 --> 00:04:25,980
se transformó, su cara se aplanó, su lengua se desplazó hacia atrás y la laringe, que

33
00:04:25,980 --> 00:04:31,639
contiene las cuerdas vocales, descendió, abriendo un tracto vocal más grande y cerrado,

34
00:04:32,079 --> 00:04:39,680
capaz de producir una profusión de nuevos sonidos. Unidos al rápido desarrollo del

35
00:04:39,680 --> 00:04:45,959
cerebro humano, estos cambios físicos permitieron a nuestra especie generar una compleja variedad

36
00:04:45,959 --> 00:04:57,980
de sonidos necesaria para el lenguaje. Sin embargo, nuestro cerebro conservó su capacidad

37
00:04:57,980 --> 00:05:06,529
para descifrar mensajes profundos y primordiales. Y la manera en que nuestro cerebro procesa

38
00:05:06,529 --> 00:05:11,850
estos mensajes apenas ha cambiado a lo largo de toda la historia de la evolución humana.

39
00:05:15,899 --> 00:05:22,480
En el interior de este escáner de resonancia magnética, en la Universidad College de Londres,

40
00:05:23,319 --> 00:05:28,459
la profesora Sophie Scott está investigando cómo nuestro cerebro procesa los sonidos

41
00:05:28,459 --> 00:05:33,899
producidos por la voz humana. El hemisferio izquierdo del cerebro se ocupa de la parte

42
00:05:33,899 --> 00:05:38,300
lingüística de la voz, y el derecho, aunque sea un poco exagerado decirlo, de casi todo

43
00:05:38,300 --> 00:05:47,120
lo demás. Se ocupa de quién es la persona que habla, de su estado emocional. Y en particular,

44
00:05:47,620 --> 00:05:54,000
le gusta la prosodia, la melodía. Para identificar con precisión la región del hemisferio derecho

45
00:05:54,000 --> 00:05:59,180
del cerebro que responde a las emociones en la voz más que al lenguaje, los sujetos del

46
00:05:59,180 --> 00:06:06,720
experimento escucharon voces sin palabras. Si nos cuentan un chiste, nos reímos. Si

47
00:06:06,720 --> 00:06:14,810
nos asustamos, seguramente gritaremos. Parecen gritos de animales, más que un lenguaje

48
00:06:14,810 --> 00:06:20,529
humano. La investigación de la profesora Scott revela que la parte del cerebro que

49
00:06:20,529 --> 00:06:26,149
responde a los sonidos emocionales se encuentra en la misma región del lóbulo temporal que

50
00:06:26,149 --> 00:06:31,689
en nuestros antepasados primates. Y en ambas especies, la habilidad para detectar estos

51
00:06:31,689 --> 00:06:36,730
sonidos es clave para la supervivencia. Es importante saber si algo sabe mal sin tener

52
00:06:36,730 --> 00:06:44,910
que probarlo. Poder evaluar si alguien está enfadado con nosotros y supone una amenaza.

53
00:06:48,009 --> 00:06:56,370
Poder valorar si alguien está asustado. Y hay un sonido particularmente similar entre

54
00:06:56,370 --> 00:07:05,709
ambas especies. La manera de reírnos es casi exacta a como ríen los chimpancés. Nosotros

55
00:07:05,709 --> 00:07:14,089
hacemos. Los chimpancés hacen... Pero su risa tiene un sonido fantástico. Y ese sonido

56
00:07:14,089 --> 00:07:22,959
se reconoce como una carcajada. Son muy similares. Sigue existiendo ese hilo que se remonta hasta

57
00:07:22,959 --> 00:07:28,800
nuestros antepasados primates. La comunicación tonal y emocional de nuestro estado anímico

58
00:07:28,800 --> 00:07:34,019
es muy importante en las relaciones entre individuos. Somos mucho más similares a nuestros

59
00:07:34,019 --> 00:07:41,379
ancestros homínidos de lo que la gente imagina. Uno de los primeros libros de Darwin fue la

60
00:07:41,379 --> 00:07:46,259
expresión de las emociones en animales y humanos, sobre la teoría de que ser capaz

61
00:07:46,259 --> 00:07:51,920
de manifestar las emociones es muy importante para las relaciones sociales, de manera que

62
00:07:51,920 --> 00:07:59,019
la parte emocional de la voz evoluciona por ese motivo. Que está diseñada para comunicar,

63
00:07:59,019 --> 00:08:06,399
sonar y para que el otro sienta lo que sentimos nosotros. Es esa entonación de la voz lo

64
00:08:06,399 --> 00:08:11,579
que indica que alguien no está contento, está muy feliz o enamorado o a punto de casarse

65
00:08:11,579 --> 00:08:17,420
o enojado. Si no pudieras verme, ¿podría saber por mi voz la edad que tengo, de dónde

66
00:08:17,420 --> 00:08:24,199
procedo? ¿Podría saber si estoy de mal humor, si estoy enferma? La voz es una traducción

67
00:08:24,199 --> 00:08:31,040
para los demás de nuestra personalidad. Si nos preguntan, ¿cómo estás? Y respondemos,

68
00:08:31,160 --> 00:08:35,940
bien, gracias. Y nos contestan, no, creo que no estás bien, nuestra voz nos ha traicionado.

69
00:08:38,629 --> 00:08:44,389
Puede que llevemos la huella de nuestros antepasados primates, pero la evolución nos ha dotado

70
00:08:44,389 --> 00:08:52,610
con una voz única y exclusiva de nuestra especie. Somos unos instrumentos vocales asombrosos.

71
00:08:53,370 --> 00:08:59,330
Dos terceras partes de nuestro cuerpo, miles de millones de señales eléctricas de nuestro cerebro

72
00:08:59,330 --> 00:09:03,450
y cientos de músculos entran en acción cuando emitimos sonidos.

73
00:09:03,970 --> 00:09:13,299
Cuando expelemos aire de nuestros pulmones, este se transforma en sonido gracias a dos minúsculas cuerdas vocales

74
00:09:13,299 --> 00:09:16,139
que pueden vibrar hasta mil veces por segundo.

75
00:09:18,980 --> 00:09:24,639
Las frecuencias generadas por nuestras cuerdas vocales pasan por la boca, que les da forma,

76
00:09:24,639 --> 00:09:32,159
y las convierte en más de 300 sonidos diferentes, necesarios para el lenguaje hablado. Hola,

77
00:09:32,460 --> 00:09:40,899
¿cómo estás? ¿Eres una niña buena? ¿A que sí? Eres una niña buena. La psicóloga

78
00:09:40,899 --> 00:09:48,419
Christine Kitamura es una experta en el lenguaje infantil. Este es el diálogo no verbal entre

79
00:09:48,419 --> 00:09:54,019
madres y bebés que se cree juega un papel en el desarrollo de las habilidades y el lenguaje

80
00:09:54,019 --> 00:10:00,860
social. El bebé no entiende las palabras de su madre, todo se basa en el tono de su

81
00:10:00,860 --> 00:10:07,220
voz. Mami, ¿puedes aplaudir? ¿Dónde está tu sonrisa? Es increíblemente primitivo.

82
00:10:07,700 --> 00:10:12,620
Puedes sentir ese vínculo, que se remonta a una forma de comunicarse en la que se utilizaban

83
00:10:12,620 --> 00:10:21,250
las emociones. A esta interacción universal entre madre y bebé, que se da en casi todas

84
00:10:21,250 --> 00:10:30,029
las culturas, los lingüistas la llaman habla dirigida al bebé. Es muy exagerada. Tiene

85
00:10:30,029 --> 00:10:41,750
un tono más alto. Tiene contornos de entonación exagerados. Y mantiene a la madre en sintonía

86
00:10:41,750 --> 00:10:50,549
con las emociones del bebé y sus estados de excitación. El habla dirigida al bebé

87
00:10:50,549 --> 00:11:02,019
es como música. Es el fertilizante de todo lo que viene después. Para el lenguaje. ¿Estás

88
00:11:02,019 --> 00:11:10,350
cansadita? Para su relación con su madre y con todos los demás seres humanos. De ahí

89
00:11:10,350 --> 00:11:17,549
es de donde proviene todo. Pero a medida que crecemos y nos dicen cómo debemos comportarnos,

90
00:11:17,549 --> 00:11:30,899
aprendemos a esconder las emociones. La foniatra Isobel Kirk hace ejercicios vocales clásicos

91
00:11:30,899 --> 00:11:39,340
para liberar la voz humana, como hablar con la lengua fuera. Los actores se supone que

92
00:11:39,340 --> 00:11:44,879
deben liberar las tensiones físicas y mentales que inhiben su habilidad para expresar emociones.

93
00:11:48,950 --> 00:11:53,549
Lo maravilloso es que es como si tuvieras un aparato ortopédico en la boca y te lo

94
00:11:53,549 --> 00:12:00,570
quitaras. La boca dice, oh, muchas gracias. Sí, mi paladar quiere elevarse cuando bostezo.

95
00:12:01,409 --> 00:12:12,690
Al fin libre. Isobel trabaja con un grupo de actores que ensaya un musical sobre los

96
00:12:12,690 --> 00:12:18,110
secretos y los demonios más profundos del hombre. Su reto es conseguir que estos actores

97
00:12:18,110 --> 00:12:25,210
liberen lo que tienen dentro. La gente se autocensura porque teme convertirse en un

98
00:12:25,210 --> 00:12:33,029
bebé de dos años otra vez. Si eliminan sus impulsos censores, serán como un perro. Y

99
00:12:33,029 --> 00:12:44,669
lo que les pase por dentro, saldrá. Tensamos los músculos de nuestro cuerpo, especialmente

100
00:12:44,669 --> 00:12:49,850
alrededor de la caja torácica. En cualquier parte de nuestro cuerpo podemos sentir emociones,

101
00:12:50,129 --> 00:12:55,570
Y somos capaces de reprimirlas. Es así de simple. Cuando decimos que sonreímos y aguantamos,

102
00:12:55,690 --> 00:13:00,389
apretamos los dientes, nos mordemos la lengua o expresiones así, nos tragamos las palabras,

103
00:13:00,590 --> 00:13:05,590
nos tragamos la lengua. El lenguaje está lleno de expresiones que tienen una manifestación

104
00:13:05,590 --> 00:13:14,289
física. Nuestras voces y nuestras emociones son lo mismo.

105
00:13:20,129 --> 00:13:33,820
Los grandes oradores saben también que la capacidad de nuestra voz para expresar emociones

106
00:13:33,820 --> 00:13:41,980
tiene un efecto muy poderoso sobre los demás. La doctora Branca Sey-Pollerman, psicóloga,

107
00:13:41,980 --> 00:13:48,639
está interesada en las neuronas espejo. Los neurocientíficos las han estudiado en

108
00:13:48,639 --> 00:14:04,879
primates, aves y humanos. Polerman afirma que desempeñan un papel importante en la

109
00:14:04,879 --> 00:14:10,840
manera en que las voces de los líderes desatan emociones en grupos grandes. Las neuronas

110
00:14:10,840 --> 00:14:16,419
espejo son las neuronas que se activan cuando vemos o cuando oímos a los líderes.

111
00:14:18,639 --> 00:14:26,120
nuestras neuronas espejo están activadas. Y hasta cierto punto, sentimos como si nosotros

112
00:14:26,120 --> 00:14:37,860
mismos estuviéramos pronunciando esas palabras. Según la doctora Pollerman, uno de los factores

113
00:14:37,860 --> 00:14:46,090
que activan las neuronas espejo es la calidad musical de la voz del orador. Y se sabe que

114
00:14:46,090 --> 00:14:53,950
en la música, el crescendo, ya sea en el tono, en el volumen o en el ritmo, provoca

115
00:14:53,950 --> 00:15:04,529
reacciones físicas como temblores y escalofríos. Obama, por ejemplo, utiliza más el crescendo

116
00:15:04,529 --> 00:15:10,690
en el volumen que en el tono. Con una parte del discurso de aceptación del presidente

117
00:15:10,690 --> 00:15:20,169
Obama en 2008, la doctora Pollerman revela cómo las voces de la persuasión son esencialmente

118
00:15:20,169 --> 00:15:37,149
musicales, transformándolas en instrumentos. El objetivo de un discurso es desatar las

119
00:15:37,149 --> 00:15:42,250
emociones de la gente. Cuando se acompaña de tono, volumen y crescendo, se convierte

120
00:15:42,250 --> 00:16:01,039
en una forma muy poderosa de influir en los sentimientos. La voz humana es un poderoso

121
00:16:01,039 --> 00:16:06,659
instrumento musical que no solo desata emociones, sino que revela quiénes somos y de dónde

122
00:16:06,659 --> 00:16:16,000
venimos. La cantante africana Angelique Kidjo ha puesto su voz en manos del doctor Jan Abitbol,

123
00:16:16,440 --> 00:16:24,480
otolaringólogo de renombre mundial. Para un cantante, la voz es su vida. Si le hubiéramos

124
00:16:24,480 --> 00:16:29,639
preguntado a Yehudi Menuhin qué le gustaría ser, estoy seguro de que habría contestado

125
00:16:29,639 --> 00:16:37,059
un Stradivarius. Pero la diferencia es que en el caso de la cantante, el Stradivarius

126
00:16:37,059 --> 00:16:42,620
está aquí. La forma en que Kidjo actúa desde los tres años se parece a la actuación

127
00:16:42,620 --> 00:16:48,440
de un deportista. Es una armonía entre su respiración abdominal, su respiración torácica,

128
00:16:48,440 --> 00:16:54,080
la musculación de sus cuerdas vocales y la ubicación de su cámara de resonancia. Esto

129
00:16:54,080 --> 00:16:59,519
es el fibroscopio, que nos permite mirar en todas las direcciones. ¿Quieres que cante

130
00:16:59,519 --> 00:17:05,000
la misma canción? Si puedes. El doctor Abitbol es pionero en el uso del fibroscopio para

131
00:17:05,000 --> 00:17:09,400
investigar las cuerdas vocales de algunos de los cantantes más importantes del mundo.

132
00:17:10,000 --> 00:17:15,960
Estas son sus cuerdas vocales. Se ven muy bien. La voz de Angelique es un producto de

133
00:17:15,960 --> 00:17:22,259
su anatomía vocal única, así como de sus orígenes en Benin, África Occidental. Tengo

134
00:17:22,259 --> 00:17:26,759
que decir que mi voz está también basada en mis idiomas, en nuestra forma de cantar

135
00:17:26,759 --> 00:17:32,799
en Benin, en nuestra forma de cantar en África. La mayoría de nosotros, los artistas africanos,

136
00:17:33,140 --> 00:17:37,559
empezamos cantando sin micrófono, así que aprendimos de forma natural a proyectar la

137
00:17:37,559 --> 00:17:52,559
voz. Al tener una voz natural, puede jugar con ella como si fuese un tambor.

138
00:17:56,759 --> 00:18:14,680
Es el universo cultural de Kitcho, quien habla a través de su voz. Son sus antepasados los

139
00:18:14,680 --> 00:18:26,359
que hablan a través de su voz. Para mí, la voz es el espejo del alma. Las voces son

140
00:18:26,359 --> 00:18:37,559
como las huellas dactilares, únicas. No importa dónde vivas, tu voz llevará impresa y reflejará

141
00:18:37,559 --> 00:18:51,289
tu cultura en el idioma que hables, en tu forma de cantar. La cultura da forma a la

142
00:18:51,289 --> 00:18:57,549
voz de otras maneras también. Las mujeres japonesas tienen las voces más agudas del

143
00:18:57,549 --> 00:19:05,450
mundo. Pueden alcanzar un descomunal pico de 450 hercios, dos veces más alto que el

144
00:19:05,450 --> 00:19:13,970
de la mujer europea media. Y, sin embargo, no existe diferencia en el tamaño de sus

145
00:19:13,970 --> 00:19:27,440
cuerdas vocales. Es un despliegue de feminidad con profundas raíces en la tradición. Majo

146
00:19:27,440 --> 00:19:34,519
Kurashima es foniatra y trabaja con profesionales en Tokio. Primero vamos a desentumecer nuestro

147
00:19:34,519 --> 00:19:38,920
cuerpo para poder utilizar nuestra voz con más facilidad. ¿Podéis poneros todos de

148
00:19:38,920 --> 00:19:49,000
pie, por favor? Muchos son periodistas de radio y televisión. Si tomamos, por ejemplo,

149
00:19:49,140 --> 00:19:55,299
una sociedad como la japonesa, remontándonos hasta hace unos diez años, la voz ideal del

150
00:19:55,299 --> 00:20:01,559
hombre y la de la mujer eran ampliamente divergentes. La voz de la mujer era tan aguda que casi

151
00:20:01,559 --> 00:20:08,859
parecía doloroso para las mujeres tener que ajustar su voz a esos parámetros. Alguien

152
00:20:08,859 --> 00:20:17,559
lo describió como el equivalente vocal al vendado de pies en China. Cuando eres joven,

153
00:20:17,980 --> 00:20:24,279
tienes una voz aguda. Por eso, de una manera instintiva, los hombres prefieren las voces

154
00:20:24,279 --> 00:20:32,579
agudas. Pero recientemente ha habido una moda inversa en Japón a favor de voces más

155
00:20:32,579 --> 00:20:39,700
graves en la mujer. Algunas profesionales japonesas se han hecho la cirugía bucal

156
00:20:39,700 --> 00:20:44,539
para bajar la tonalidad de su voz, aunque la mayoría han acudido a foniatras como la

157
00:20:44,539 --> 00:20:54,140
señora Kurashima. Hay historias extraordinarias de mujeres en Japón, principalmente presentadoras,

158
00:20:54,279 --> 00:21:00,400
pero también de otras profesiones, que ahora intentan forzar su voz en la dirección contraria.

159
00:21:03,789 --> 00:21:12,190
Tomamos como ejemplo la voz de una oficina. Si es una voz madura y baja, transmite confianza

160
00:21:12,190 --> 00:21:21,890
y también transmite autoridad. Pero Maho Kurashima puede estar empujando a sus estudiantes

161
00:21:21,890 --> 00:21:29,369
contra las fuerzas de la evolución. Los científicos han descubierto que las preferencias por las

162
00:21:29,369 --> 00:21:34,450
voces agudas en las mujeres y las graves en los hombres pueden estar relacionadas con

163
00:21:34,450 --> 00:21:44,329
la supervivencia de nuestra especie. Estudios sobre la tribu Himba en Namibia revelaron

164
00:21:44,329 --> 00:21:49,769
que los hombres con voces graves y las mujeres con voces agudas tienen niveles más altos

165
00:21:49,769 --> 00:22:00,539
de hormonas reproductivas y más descendencia. No se sabe si el tono de voz sigue influyendo

166
00:22:00,539 --> 00:22:06,180
en el éxito reproductivo en las sociedades modernas, pero cuando desafiamos las convenciones

167
00:22:06,180 --> 00:22:11,660
vocales, las cosas se pueden descontrolar. Por fin con nosotros, se denominan a sí mismos

168
00:22:11,660 --> 00:22:16,819
la Organización para la Liberación de Barbie, la BLO. ¿Quieres ir de compras? ¿Cómo? ¿G.I.

169
00:22:16,819 --> 00:22:22,720
Joe quiere ir de compras? Cuando un grupo feminista clandestino violó los estereotipos

170
00:22:22,720 --> 00:22:32,789
vocales en Estados Unidos, se desató una guerra cultural. En 1989 nació un nuevo grupo

171
00:22:32,789 --> 00:22:38,849
guerrillero en Nueva York, el Frente para la Liberación de Barbie. Un G.I. Joe víctima

172
00:22:38,849 --> 00:22:43,829
de una emboscada de la Organización para la Liberación de Barbie. Descubrieron que

173
00:22:43,829 --> 00:22:52,410
las Barbies y los G.I. Joes, los que hablaban, tenían los mismos chips de voz. Así que

174
00:22:52,410 --> 00:22:59,450
fueron a varios grandes almacenes de Nueva York. Compraron 300 Barbies y GI Joes e intercambiaron

175
00:22:59,450 --> 00:23:06,509
sus chips de voz. Observen cómo otros dos miembros de la BLO reemplazan al menos media

176
00:23:06,509 --> 00:23:13,109
docena de muñecas Barbie en otra tienda cercana. Y los GI Joes, cuando hablaban, decían cosas

177
00:23:13,109 --> 00:23:22,980
como planeemos nuestro sueño de boda o nunca tendremos ropa suficiente. Y las Barbies,

178
00:23:22,980 --> 00:23:32,099
en cambio. Decían cosas como, al ataque, venganza. Soldados, ataque. El alboroto que

179
00:23:32,099 --> 00:23:39,960
produjo aquel intercambio fue extraordinario. La gente se sintió indignada, se sintió

180
00:23:39,960 --> 00:23:49,579
ofendida. Hubo protestas. Habla como una chica. ¿Le va el rollo raro? A mí me parece muy

181
00:23:49,579 --> 00:23:56,259
interesante que algo así nos perturbe tanto. Atacad, fuego directo contra el Escuadrón

182
00:23:56,259 --> 00:24:08,680
Cobra. Es muy triste que encorsetemos a la gente en estereotipos vocales. Puede que estemos

183
00:24:08,680 --> 00:24:15,819
atrapados en nuestros propios estereotipos vocales. Pero nadie está más aislado que

184
00:24:15,819 --> 00:24:25,480
aquellos que han perdido la voz por completo. Al exjuez, Phil Miyamoto, le extrajeron la

185
00:24:25,480 --> 00:24:31,980
laringe con las cuerdas vocales como consecuencia de un cáncer. Los aísla en muchos aspectos.

186
00:24:32,299 --> 00:24:36,640
Por ejemplo, de algo tan sencillo como ir a un restaurante y mantener una conversación.

187
00:24:36,640 --> 00:24:46,799
Di hola. No pueden hablar por teléfono. El destacado patólogo del habla, Christoph

188
00:24:46,799 --> 00:24:56,200
Izdevsky tiene que lidiar con algo más que los problemas físicos de sus pacientes. Los

189
00:24:56,200 --> 00:25:01,400
pacientes que se han sometido a una laringectomía han formado el club de la cuerda perdida,

190
00:25:02,140 --> 00:25:10,359
porque literalmente está perdida. Estaba, me desperté y ya no estaba. Pierden todo

191
00:25:10,359 --> 00:25:18,660
el mecanismo para producir sonido. Phil habla hoy a través de una electrolaringe. Genera

192
00:25:18,660 --> 00:25:23,400
eléctricamente un zumbido que sustituye al sonido que producían sus cuerdas vocales

193
00:25:23,400 --> 00:25:34,519
perdidas. Otras personas reaccionan a la electrolaringe como podríais esperar. Siempre preguntan

194
00:25:34,519 --> 00:25:45,960
¿eres R2D2? Todo cambia. Todo el mecanismo que permite hablar cambia. Quieres reírte

195
00:25:45,960 --> 00:25:51,500
a carcajadas, quieres susurrar, no puedes hacerlo. Quieres llorar con sonidos o yozar

196
00:25:51,500 --> 00:25:57,900
y no puedes. Quieres gritar, tampoco puedes. Si me enfado, algo que no sucede a menudo,

197
00:25:58,400 --> 00:26:09,589
no puedo decir, deja de hacer eso, deja de hacer eso. Es un doble contratiempo. Primero

198
00:26:09,589 --> 00:26:18,799
porque no pueden producir la voz bien y segundo porque no se les escucha. Actualmente los

199
00:26:18,799 --> 00:26:25,119
científicos están en una carrera global para replicar la voz humana. En la Universidad

200
00:26:25,119 --> 00:26:30,519
de York, el profesor de electrónica David Howard desarrolla un sistema sintetizador

201
00:26:30,519 --> 00:26:36,220
de voz que podría ser utilizado por personas que han perdido su capacidad de hablar. Y

202
00:26:36,220 --> 00:26:41,660
está decidido a conseguir que suene humano. Lo más importante es la investigación. Estoy

203
00:26:41,660 --> 00:26:47,779
intentando comprender qué es lo que hace que un sonido suene natural. Se puede beneficiar

204
00:26:47,779 --> 00:26:52,039
la gente que ha perdido parte de su aparato fonador a causa del cáncer o cualquier otro

205
00:26:52,039 --> 00:26:56,980
accidente. En principio se les podría devolver la voz que tenían antes de sufrir el trauma.

206
00:26:57,940 --> 00:27:06,839
Ese sería para mí un objetivo maravilloso, ser capaz de dejar eso como legado. La mayoría

207
00:27:06,839 --> 00:27:11,980
mayoría de los actuales sistemas electrónicos de voz están basados en voces humanas reales.

208
00:27:11,980 --> 00:27:24,299
Así pues, replicar artificialmente la voz humana constituye un enorme desafío. Es una

209
00:27:24,299 --> 00:27:31,720
búsqueda que se remonta a siglos atrás. A finales del siglo XVIII, un excéntrico

210
00:27:31,720 --> 00:27:37,799
inventor australiano, Wolfgang von Kempelen, diseñó este modelo del tracto vocal humano.

211
00:27:37,799 --> 00:27:42,519
Estos son los pulmones

212
00:27:42,519 --> 00:27:44,359
Dentro de la caja hay una caña

213
00:27:44,359 --> 00:27:46,099
y esa caña es la fuente de sonido

214
00:27:46,099 --> 00:27:49,000
Los modificadores de sonido están representados

215
00:27:49,000 --> 00:27:50,460
por esta bolsa de cuero

216
00:27:50,460 --> 00:27:52,220
y cuando apriete

217
00:27:52,220 --> 00:27:54,380
oiréis un sonido vocálico

218
00:27:54,380 --> 00:27:56,140
que intentaré modificar

219
00:27:56,140 --> 00:28:02,140
El invento de la exposición de Frisco

220
00:28:02,140 --> 00:28:03,339
el robot parlante

221
00:28:03,339 --> 00:28:06,619
Ha habido varios intentos hasta la edad moderna

222
00:28:06,619 --> 00:28:08,480
de la electrónica y la informática

223
00:28:08,480 --> 00:28:14,180
El aparato utiliza dos sonidos producidos eléctricamente. Uno representa la respiración.

224
00:28:16,559 --> 00:28:23,259
El vocoder fue el primer aparato sintetizador de voz. Lo inventó a finales de la década

225
00:28:23,259 --> 00:28:32,519
de 1920 el ingeniero electrónico estadounidense Homer Dudley. Una mujer intentaba manejar

226
00:28:32,519 --> 00:28:42,680
el aparato. Y era capaz de sacar un par de frases. ¿A quién vio? ¿Te vio o te oyó?

227
00:28:44,740 --> 00:28:53,200
Así es como se han creado hasta hoy la mayoría de las voces electrónicas. Estos botones

228
00:28:53,200 --> 00:28:58,140
grises representan un grupo de vocales y están dispuestos de la forma clásica en la que

229
00:28:58,140 --> 00:29:05,539
se disponen desde el siglo XIX. Se llama síntesis deformantes y utiliza frecuencias

230
00:29:05,539 --> 00:29:10,640
fijas para reproducir electrónicamente los sonidos vocales que hacemos cuando cambiamos

231
00:29:10,640 --> 00:29:23,220
la forma de nuestra boca. De modo que si hago la vocal I y la cambio a A y vuelvo, vuelvo,

232
00:29:23,220 --> 00:29:32,339
Ahora hago U y A. Suena electrónico, tiene un sonido robótico. Es el tipo de sintetizador

233
00:29:32,339 --> 00:29:38,059
que tiene Stephen Hawking con un sonido electrónico. Se basa en los mismos principios. Si me coloco

234
00:29:38,059 --> 00:29:44,759
esto... El profesor Howard está desarrollando algo mejor. Utiliza su propio tracto vocal

235
00:29:44,759 --> 00:29:55,930
como modelo para producir una voz de ordenador realista. Primero graba los sonidos producidos

236
00:29:55,930 --> 00:30:07,910
por sus cuerdas vocales. Luego, mediante la imagen de una resonancia magnética de su

237
00:30:07,910 --> 00:30:16,230
garganta y boca, hace un modelo de plástico en 3D de su propio tracto vocal. Estos son

238
00:30:16,230 --> 00:30:21,809
mis labios. Mi laringe, que se ve en el fondo, donde está este plato redondo, está situada

239
00:30:21,809 --> 00:30:26,970
donde se encuentran los electrodos, y los labios están situados donde están mis labios. Esta

240
00:30:26,970 --> 00:30:35,809
la vista lateral y la vista frontal. El modelo de su tracto vocal se coloca entonces en un

241
00:30:35,809 --> 00:30:41,150
amplificador que repite la grabación de sus cuerdas vocales. El altavoz es ahora mi laringe

242
00:30:41,150 --> 00:30:51,339
y obtenemos esto. Todo esto resulta un tanto siniestro. Si miro el dispositivo, se me antoja

243
00:30:51,339 --> 00:30:56,539
realmente así, porque es una parte de mí, totalmente expuesta, y resulta bastante extraño.

244
00:30:57,039 --> 00:31:01,500
Pero lo interesante es que lo único que tenemos como instrumento es un tubo blando de goma,

245
00:31:01,500 --> 00:31:10,319
de esta longitud y un zumbador. Con el tiempo, el profesor Howard espera utilizar estos sonidos

246
00:31:10,319 --> 00:31:15,559
para crear una voz de ordenador con un sonido más humano, pero sabe que tiene un largo

247
00:31:15,559 --> 00:31:27,619
camino por delante. Puedo conectar a seres humanos y medir su tono de voz así. Cuando

248
00:31:27,619 --> 00:31:36,759
lo resintetizo todo, sigue faltando algo. Y eso, para mí, es la humanidad mágica.

249
00:31:36,759 --> 00:31:47,759
Así me gusta denominarlo, la huella vocal, como la dactilar, lo que significa que mis oídos y cerebro saben cuándo estoy escuchando un sonido que proviene de otro ser humano y no de un ordenador.

250
00:32:06,509 --> 00:32:12,650
En ningún lugar trabajan tanto los informáticos para reproducir la voz humana como en Japón.

251
00:32:14,849 --> 00:32:29,759
El doctor Hideyuki Saguada ha tomado un enfoque totalmente distinto para reproducir la voz.

252
00:32:30,259 --> 00:32:40,019
Ha creado una máquina parlante mecánica robótica que se mueve como una boca humana.

253
00:32:45,700 --> 00:32:50,019
El robot es un modelo de un mecanismo con una voz humana.

254
00:32:51,759 --> 00:32:56,980
Aquí hay un compresor de aire equivalente a un pulmón.

255
00:32:57,779 --> 00:33:18,630
Este robot es capaz de recrear sonidos vocales básicos del idioma japonés. Para crear diferentes

256
00:33:18,630 --> 00:33:25,230
sonidos, la boca tiene que estar construida de cierta manera. Tiene que poder adoptar

257
00:33:25,230 --> 00:33:35,529
las mismas formas que una boca humana. Aunque todavía se encuentra en un estado inicial,

258
00:33:35,529 --> 00:33:40,869
el doctor Sawada está convencido de que este modelo físico de la boca humana es superior

259
00:33:40,869 --> 00:33:47,069
a cualquier sonido electrónico que pueda ser reproducido por un ordenador. Como solo

260
00:33:47,069 --> 00:33:51,890
es una boca y una nariz, a algunas personas les resulta repulsivo y a otras fascinante.

261
00:33:53,630 --> 00:34:02,779
En este tipo de investigaciones no se reciben muchos elogios, por eso cualquier reacción

262
00:34:02,779 --> 00:34:13,650
me hace feliz. El doctor Sawada ha enseñado a su boca parlante a cantar una canción popular

263
00:34:13,650 --> 00:34:29,050
japonesa. Y la canta bastante bien. Cuando su tecnología esté perfeccionada, su objetivo

264
00:34:29,050 --> 00:34:40,699
final es que sea utilizada por androides. En el interior de este laboratorio robótico

265
00:34:40,699 --> 00:34:45,099
de Tokio, los límites entre lo humano y lo no humano se confunden.

266
00:34:45,099 --> 00:34:57,179
Andriu y Andro son dos de los androides más avanzados verbalmente del mundo. Colaboramos

267
00:34:57,179 --> 00:35:04,500
en una investigación entre la Universidad de Osaka y otras universidades. Son los retoños

268
00:35:04,500 --> 00:35:12,940
del ingeniero en robótica Yoshio Matsumoto. Los hemos programado. Andriu y Andro están

269
00:35:12,940 --> 00:35:19,219
programados para que hablen como humanos. Gracias al sonido sintetizado puedo hablar

270
00:35:19,219 --> 00:35:28,519
naturalmente. La apariencia de un robot es muy importante. Si el robot parece humano,

271
00:35:28,519 --> 00:35:37,900
pero la voz no es humana, la impresión que produce es muy extraña. Son similares a zombis

272
00:35:37,900 --> 00:35:49,780
o personas muertas. Tenemos un programa que permite al robot tener una voz muy parecida

273
00:35:49,780 --> 00:36:02,260
a la humana. No creo que haga falta mucho tiempo para que podamos duplicar una voz

274
00:36:02,260 --> 00:36:10,119
humana. Los científicos quieren conseguir que las voces de estos androides suenen reales.

275
00:36:11,239 --> 00:36:16,320
Pero el esfuerzo por replicar una voz humana a la perfección puede que no sea tan importante.

276
00:36:17,119 --> 00:36:29,119
¿Quieres hacerte una foto conmigo? Aquí comenzó todo. Es el lugar de nacimiento de

277
00:36:29,119 --> 00:36:38,250
Kismet, el primer robot social con voz. Actualmente Kismet reside en una vitrina de plexiglas

278
00:36:38,250 --> 00:36:47,690
en el Instituto Tecnológico de Massachusetts. ¡Qué robot más bonito! Eres monísimo. Aunque

279
00:36:47,690 --> 00:36:55,349
no hablaba ningún idioma, Kismet parecía comunicarse estrictamente con sonidos. Tú

280
00:36:55,349 --> 00:37:03,750
y yo. Kismet tiene una voz cantarina, una voz humana sin palabras, y de vez en cuando

281
00:37:03,750 --> 00:37:15,429
emite una palabra. Pero no demasiadas. Es una especie de balbuceo incoherente. Asintiendo

282
00:37:15,429 --> 00:37:22,630
con la cabeza, con sus pequeñas expresiones. No, no, voy a tocar eso. No, no, para. Escúchame,

283
00:37:22,789 --> 00:37:32,070
escúchame. La gente interactúa. La gente quiere entablar relaciones. Estoy deprimida,

284
00:37:32,070 --> 00:37:38,630
Siri. Sherry Tarkel es psicóloga del Laboratorio de Inteligencia Artificial del Instituto Tecnológico

285
00:37:38,630 --> 00:37:45,190
de Massachusetts. Ha estudiado cómo interactúa la gente con voces robóticas. He estudiado

286
00:37:45,190 --> 00:37:52,969
los pequeños tamagotchis y he estudiado los saibos. Por favor, abrázame, abrázame. También

287
00:37:52,969 --> 00:37:57,869
he estudiado los furbis, porque quería ver realmente hasta dónde somos capaces de llegar

288
00:37:57,869 --> 00:38:07,329
para obtener una respuesta. Debido a que las voces y los gestos de los robots desencadenan

289
00:38:07,329 --> 00:38:13,530
respuestas inconscientes en nosotros, la profesora Tarkel los ha llamado botones darwinianos.

290
00:38:17,530 --> 00:38:23,329
Acuñé el término botones darwinianos para tratar de describir cómo la robótica social

291
00:38:23,329 --> 00:38:30,690
provoca en nosotros reacciones. Reacciones que nos hacen retroceder hasta las respuestas

292
00:38:30,690 --> 00:38:37,329
animales más primitivas a la hora de reconocer a otras criaturas e identificarnos con ellas,

293
00:38:38,329 --> 00:38:46,869
como son el contacto visual, la imitación de gestos y la emisión de sonidos. Y ahora

294
00:38:46,869 --> 00:38:54,570
triste. Y la voz, sea del tipo que sea, incluso la voz más primitiva y en particular cuando

295
00:38:54,570 --> 00:39:06,570
posee algún tipo de cadencia, es uno de esos botones. En el laboratorio de medios interactivos

296
00:39:06,570 --> 00:39:11,889
de la Universidad de Stanford, el psicólogo Clifford Nash ha estado estudiando cómo las

297
00:39:11,889 --> 00:39:17,070
personas interactúan con voces artificiales. Prepárese para tomar la salida de San Diego.

298
00:39:17,070 --> 00:39:25,630
En sus experimentos coloca a grupos de estudiantes dentro de simuladores de conducción para medir cómo responden a las voces de navegación del coche.

299
00:39:26,010 --> 00:39:27,429
Sitúese en el carril derecho.

300
00:39:28,130 --> 00:39:30,329
Y los resultados han sido sorprendentes.

301
00:39:30,409 --> 00:39:38,650
Hemos llevado a cabo una serie de estudios utilizando varios tipos de lo que llamamos voces sintéticas, aquellas en las que resulta obvio que no se trata de una persona real del tipo.

302
00:39:39,010 --> 00:39:44,469
Son las 12 horas y 43 minutos. La típica voz que uno nunca confundiría con una voz humana real.

303
00:39:44,469 --> 00:39:48,190
A tres kilómetros gire a la izquierda por Main Street

304
00:39:48,190 --> 00:39:52,090
El cerebro no está diseñado con un interruptor de apagado y encendido

305
00:39:52,090 --> 00:39:55,510
que distinga entre humano y no humano en lo que se refiere al habla

306
00:39:55,510 --> 00:39:58,469
Continúe para tomar la salida de San Diego

307
00:39:58,469 --> 00:40:03,789
Nuestro cerebro reacciona igual ante una voz tecnológica y una humana

308
00:40:03,789 --> 00:40:05,389
Gire a la izquierda al llegar

309
00:40:05,389 --> 00:40:10,110
Ante algo que suene vagamente como una voz humana, por muy remota que sea

310
00:40:10,110 --> 00:40:12,489
nuestro cerebro dice, eso es una persona

311
00:40:12,489 --> 00:40:18,530
y activa todos los mecanismos de la personalidad. Por eso, es tan importante saber cuáles

312
00:40:18,530 --> 00:40:24,349
escogerías y cuáles de todos descartarías. El profesor Nash ha llevado su investigación

313
00:40:24,349 --> 00:40:30,849
un paso más allá. Está realizando experimentos con un robot llamado Nao, programado para

314
00:40:30,849 --> 00:40:36,269
jugar a supervivencia en el desierto. En el juego, un avión se estrella en el desierto

315
00:40:36,269 --> 00:40:41,250
y el único superviviente tiene que escoger entre diversos objetos para intentar mantenerse

316
00:40:41,250 --> 00:40:46,610
con vida. ¿Estás listo para jugar al juego supervivencia en el desierto? Puedes orientarte

317
00:40:46,610 --> 00:40:51,909
de noche con la linterna, pero no creo que esa sea la mejor opción. La idea del estudio

318
00:40:51,909 --> 00:40:57,130
es hacer que, mientras yo estoy hablando, Nao esté analizando mi voz y vaya cambiando

319
00:40:57,130 --> 00:41:02,750
para parecerse más a mí. La gente no suele pensar en prepararse ante situaciones peligrosas.

320
00:41:03,429 --> 00:41:09,309
La premisa es que cuanto más se asemeje el ritmo y el tono de Nao a la voz del superviviente,

321
00:41:09,309 --> 00:41:15,030
más dispuesto estará éste a aceptar sus opiniones a la hora de tomar decisiones vitales.

322
00:41:15,210 --> 00:41:20,150
La primera elección que debes hacer es la categoría de refugio, a tu izquierda. ¿Quieres

323
00:41:20,150 --> 00:41:27,050
el lienzo o la lona? Es otro ejemplo de mirroring o imitación espejo. ¿Por qué hacemos mirroring?

324
00:41:27,429 --> 00:41:31,750
Bueno, hay argumentos evolucionistas que dicen que es una manera de demostrar que nos preocupamos

325
00:41:31,750 --> 00:41:36,769
por una persona y somos compatibles. En algunos estudios adaptamos la tecnología para que

326
00:41:36,769 --> 00:41:42,409
suene más parecida al interlocutor y a la gente le gusta más. Nao, me gustaría llevarme

327
00:41:42,409 --> 00:41:50,300
el lienzo. El lienzo se desgarra en trozos más pequeños y se utiliza para otros fines.

328
00:41:52,119 --> 00:41:56,739
Gracias, Nao. Nao está de acuerdo conmigo, y eso está muy bien. También resulta muy

329
00:41:56,739 --> 00:42:02,199
agradable que su voz cambie para parecerse a la mía. No podrías transportarlo todo

330
00:42:02,199 --> 00:42:07,619
tú solo en el desierto. El profesor Nash ha descubierto que no solo nuestros cerebros

331
00:42:07,619 --> 00:42:12,820
confunden a este robot con una persona real, sino que hemos evolucionado genéticamente

332
00:42:12,820 --> 00:42:18,579
hasta el punto de considerarlo un semejante. Hasta un cierto nivel somos conscientes de

333
00:42:18,579 --> 00:42:22,500
que las voces se definen por todo tipo de características, pero una de ellas es de

334
00:42:22,500 --> 00:42:27,019
tipo genético. Así que no es absurdo usar la voz como una de las medidas para indicar

335
00:42:27,019 --> 00:42:32,619
las similitudes o las diferencias que hay entre nosotros. En el caso de Nao, mi cerebro

336
00:42:32,619 --> 00:42:43,679
interpreta. Si su voz se parece a la mía, es como yo. Compartimos genes. Los científicos

337
00:42:43,679 --> 00:42:48,280
están aprovechando el poder de las voces artificiales para interactuar con los humanos.

338
00:42:49,059 --> 00:42:53,539
Esta es la razón por la que androides como estos están empezando a ocupar el puesto

339
00:42:53,539 --> 00:42:59,920
de acompañantes humanos en consultorios médicos y residencias de ancianos. Las personas

340
00:42:59,920 --> 00:43:06,099
hablan con el robot con toda naturalidad. No les tienen miedo. Es más, les acarician

341
00:43:06,099 --> 00:43:11,820
la mano y les miran a los ojos cuando hablan. Un hombre llegó a pedir a un robot que se

342
00:43:11,820 --> 00:43:22,260
casara con él. Y cuando traigo el robot joven y guapo, las mujeres se interesan y

343
00:43:22,260 --> 00:43:33,090
se ponen guapas. Creo que los robots serán pronto una realidad cotidiana en nuestras

344
00:43:33,090 --> 00:43:41,769
sociedades. Si deseas tener una relación, un amigo, un compañero, si quieres hablar

345
00:43:41,769 --> 00:43:48,849
sobre tu vida, busca a una persona. Si tienes a tu cargo personas mayores que desean contar

346
00:43:48,849 --> 00:43:54,550
la historia de su vida, déjales que hablen. Muéstrales respeto y ofréceles la posibilidad

347
00:43:54,550 --> 00:44:02,989
de hablar con una persona. ¿Queremos realmente hablar a un ser completamente inanimado? Contarle

348
00:44:02,989 --> 00:44:11,489
nuestra vida? ¿Por qué a la gente le parece una buena solución? ¿Por qué les parece

349
00:44:11,489 --> 00:44:21,119
una buena solución? A medida que nos relacionamos cada vez más con robots y voces sintéticas,

350
00:44:22,659 --> 00:44:31,090
¿estarán ahí para ayudarnos o acabarán reemplazando el contacto humano real? Esta

351
00:44:31,090 --> 00:44:35,949
cuestión podría quedar eclipsada a medida que entramos en una nueva era en la que la

352
00:44:35,949 --> 00:44:43,630
propia voz humana puede quedar obsoleta. Solo el año pasado se enviaron más de seis

353
00:44:43,630 --> 00:44:49,809
billones de mensajes de texto en todo el mundo. Hoy, un adolescente estadounidense recibe

354
00:44:49,809 --> 00:44:57,510
de promedio más de 1700 mensajes al mes. Y en Japón, el 85% de los consumidores afirma

355
00:44:57,510 --> 00:45:02,570
que prefieren comunicarse con un ordenador más que con una persona. Todos los operadores

356
00:45:02,570 --> 00:45:07,909
están ocupados. Pulse la tecla almohadilla para acceder al menú. Cuando conocemos a

357
00:45:07,909 --> 00:45:13,030
una persona, la asociamos inmediatamente a una voz. Es un instrumento realmente potente.

358
00:45:13,730 --> 00:45:18,909
Sin embargo, en Facebook estas señales desaparecen. Recibimos un aluvión de datos, de nombres.

359
00:45:19,510 --> 00:45:23,949
Es tanta la información que nos cuesta hacer un seguimiento de todas las personas. Algunas

360
00:45:23,949 --> 00:45:30,730
nunca llegamos a conocerlas. ¿Pero importa realmente? Bueno, para mí tiene una gran

361
00:45:30,730 --> 00:45:36,389
importancia y creo que también la tiene para la sociedad. Por lo que sabemos, todas las

362
00:45:36,389 --> 00:45:41,650
sociedades humanas han atribuido una enorme importancia a esas señales emocionales. Ahora

363
00:45:41,650 --> 00:45:49,750
bien, los cambios suceden, las revoluciones se producen. Hoy la gente casi prefiere comunicarse

364
00:45:49,750 --> 00:45:54,550
por escrito antes que hablar. Y cuando les pregunto cuál es el problema, te contestan.

365
00:45:55,170 --> 00:46:00,090
Te voy a decir el problema que tiene una conversación. Requiere tiempo y no puedes

366
00:46:00,090 --> 00:46:06,429
controlar lo que vas a decir. Si no prestamos una atención constante al rostro de nuestro

367
00:46:06,429 --> 00:46:14,269
interlocutor al tiempo que escuchamos su voz, ¿perdemos esa capacidad? Es un hecho preocupante.

368
00:46:14,989 --> 00:46:20,590
Si me envían información y yo no me hago eco de ella, mi interlocutor acabará desistiendo.

369
00:46:20,590 --> 00:46:26,090
De esa forma entramos en una espiral descendente donde este aparato increíble, la voz humana,

370
00:46:26,090 --> 00:46:32,070
diseñada para producir toda esta rica información y nuestro cerebro diseñado también para consumir

371
00:46:32,070 --> 00:46:38,050
toda esta rica información dejan de tener importancia. Esa perspectiva es aterradora

372
00:46:38,050 --> 00:46:53,820
para mí. La voz humana. Dos pequeños músculos que se ponen en movimiento por el flujo del

373
00:46:53,820 --> 00:47:03,360
aire. Oscilan y son increíblemente hermosos. El vehículo que nos permite expresar nuestras

374
00:47:03,360 --> 00:47:11,199
emociones más profundas y comprender los sentimientos de los demás. Es el sello que

375
00:47:11,199 --> 00:47:22,130
nos distingue como especie. Pero a medida que los sistemas informáticos aprenden a

376
00:47:22,130 --> 00:47:29,409
pulsar nuestros botones emocionales más primitivos, ¿de qué modo influirán en nuestra forma

377
00:47:29,409 --> 00:47:40,929
de convivir juntos y relacionarnos? ¿Olvidaremos cómo expresar la ira, el respeto o el amor

378
00:47:40,929 --> 00:47:47,349
mediante la voz humana? ¿Y cuál será su impacto sobre las voces de las generaciones

379
00:47:47,349 --> 00:47:54,489
futuras? La voz ya no es un atributo exclusivo de los seres humanos, a pesar de que hemos

380
00:47:54,489 --> 00:48:01,090
evolucionado con esa asunción. Y nuestro cerebro sigue funcionando con esa asunción.

381
00:48:03,989 --> 00:48:09,110
El listón de lo que representa la voz humana ha caído muy bajo. Y la robótica lo celebra

382
00:48:09,110 --> 00:48:13,389
como un gran logro. Dios mío, qué fácil es recrear la voz humana. ¡Qué maravilla!

383
00:48:13,869 --> 00:48:19,190
Un robot no tiene por qué ser sofisticado. Y yo me digo, ¿para qué? ¿Para engañarnos

384
00:48:19,190 --> 00:48:30,210
a nosotros mismos más fácilmente? ¿Pueden hacerlo tan bien como un ser humano? No. ¿Serán

385
00:48:30,210 --> 00:48:35,750
capaces? Sin duda. ¿Tendrá implicaciones en nuestra forma de relacionarnos? Es una

386
00:48:35,750 --> 00:48:44,550
pregunta difícil de responder. Un ordenador, ya sea un robot o un androide, nunca reemplazará

387
00:48:44,550 --> 00:48:53,429
la voz humana. Nunca. La voz humana, cuando habla, crea algo nuevo a cada instante. No

388
00:48:53,429 --> 00:48:59,210
podemos decir lo mismo dos veces. Porque no somos copias, somos los originales.