1
00:00:00,370 --> 00:00:04,730
Buenas, pues yo soy Andrew Kovach y él es Tenka Iso

2
00:00:04,730 --> 00:00:07,969
y vamos a hacer nuestra presentación acerca de nuestro trabajo de fin de grado

3
00:00:07,969 --> 00:00:09,650
Policablot

4
00:00:09,650 --> 00:00:15,439
El contenido que vamos a dar en esta presentación es una pequeña introducción

5
00:00:15,439 --> 00:00:19,339
acerca de nuestro proyecto, cómo funciona todo el proceso de traducción

6
00:00:19,339 --> 00:00:21,679
que es el más importante dentro de nuestro proyecto

7
00:00:21,679 --> 00:00:24,679
que va desde cliente a API a procesador

8
00:00:24,679 --> 00:00:26,600
el procesador es lo que traduce el vídeo

9
00:00:26,600 --> 00:00:30,699
y cómo traducir los vídeos desde un cliente de Android

10
00:00:30,699 --> 00:00:32,679
y cómo traduce el vídeo desde un cliente de web.

11
00:00:36,259 --> 00:00:37,280
Bueno, pues la introducción.

12
00:00:38,039 --> 00:00:38,939
¿En qué consiste?

13
00:00:39,219 --> 00:00:44,119
Pues el proyecto consiste en un servicio de traducción de vídeos hecho con IA

14
00:00:44,119 --> 00:00:50,340
para todas aquellas personas que necesitan traducir sus vídeos de una manera más simple,

15
00:00:50,500 --> 00:00:54,740
no como algunos otros servicios como vid.io,

16
00:00:55,100 --> 00:00:59,700
que lo que tienes que hacer es subir tu vídeo, es un editor de vídeo online más que otra cosa,

17
00:00:59,700 --> 00:01:01,539
pero no es como subir tu vídeo

18
00:01:01,539 --> 00:01:05,060
y editar los subtítulos

19
00:01:05,060 --> 00:01:05,680
sino es más

20
00:01:05,680 --> 00:01:08,140
subir el vídeo y te hace los subtítulos solo

21
00:01:08,140 --> 00:01:10,719
es muy simple, el proceso está hecho para ser simple

22
00:01:10,719 --> 00:01:12,540
y está hecho

23
00:01:12,540 --> 00:01:14,359
para que cualquier persona pueda traducir vídeos

24
00:01:14,359 --> 00:01:16,340
¿y sobre qué usan?

25
00:01:16,439 --> 00:01:18,359
pues Backend está desarrollando

26
00:01:18,359 --> 00:01:20,239
con Byton y como parte de

27
00:01:20,239 --> 00:01:22,219
APIs hemos decidido

28
00:01:22,219 --> 00:01:24,340
con Flash y como parte del proceso

29
00:01:24,340 --> 00:01:26,180
o sea la parte que procesa el vídeo y tal

30
00:01:26,180 --> 00:01:28,340
pues hay tres librerías más importantes

31
00:01:28,340 --> 00:01:57,780
Una sería MoVPY, que consigue hacer ediciones de vídeo y audio, y Wister, que es la IA del OpenAI, que trabaja para convertir el audio a texto, y una API de DPL para hacer traducción, y luego tenemos un cliente de Android y luego otra de un cliente web hecha con React, y como base de datos hemos utilizado MongoDB, y también hemos implementado toda la parte de Docker, AWS y eso.

32
00:01:59,340 --> 00:02:01,540
Luego, ¿con qué objetivos hemos hecho este proyecto?

33
00:02:02,019 --> 00:02:07,900
Pues los dos objetivos principales para cumplir este proyecto fueron el implementar APIs de IA,

34
00:02:08,400 --> 00:02:13,280
ya sea con API DeepL o con Whisper o con cualquier otra,

35
00:02:13,400 --> 00:02:16,539
pero poder implementar una IA que nos sirva para poder traducir los vídeos.

36
00:02:17,759 --> 00:02:24,060
Y luego también la práctica de uso de servicios como de Backend Tracer Service o de Cloud,

37
00:02:24,060 --> 00:02:30,580
como sería Firebase, que es un backend as a service, o de Cloud, que sería AWS con el tema de instancias y todo este tipo de cosas.

38
00:02:32,400 --> 00:02:36,580
Pues, ¿cómo funciona la traducción en corto, así en sencillito?

39
00:02:37,020 --> 00:02:40,439
Pues tenemos los clientes, la API y el procesador, que es el video procesador.

40
00:02:41,020 --> 00:02:46,939
Pues los clientes preguntarán a la API si puede subir un video, si la API dice que sí, pues se subirá el video

41
00:02:46,939 --> 00:02:48,639
y se llamará la API para su traducción.

42
00:02:48,639 --> 00:02:55,740
La API guardará la traducción de un proceso en la base de datos y lanzará al procesor desde otro hilo distinto

43
00:02:55,740 --> 00:03:02,599
y cuando se termine ese hilo de traducir, actualizará la base de datos en función de si la traducción ha sido correcta o no.

44
00:03:03,620 --> 00:03:08,000
Y el procesador empleará todo el procesamiento, simplemente.

45
00:03:11,210 --> 00:03:16,550
Los clientes. Tenemos cuatro etapas principales para el tema de clientes.

46
00:03:16,550 --> 00:03:18,389
pues tenemos el pre-request

47
00:03:18,389 --> 00:03:20,129
que es como yo llamo

48
00:03:20,129 --> 00:03:22,250
el proceso de subir un vídeo que no tenga

49
00:03:22,250 --> 00:03:24,349
subtitulado, que no tiene nada

50
00:03:24,349 --> 00:03:26,469
básicamente, el subir el vídeo

51
00:03:26,469 --> 00:03:28,689
como tal a Firebase, el upload request

52
00:03:28,689 --> 00:03:30,629
y la espera del cliente

53
00:03:30,629 --> 00:03:32,449
pues digamos que yo

54
00:03:32,449 --> 00:03:34,110
Andrew, quiero subir un vídeo

55
00:03:34,110 --> 00:03:36,409
a mi servicio, pues primero voy a tener

56
00:03:36,409 --> 00:03:38,490
que subir el vídeo diciéndole, vale, quiero subir

57
00:03:38,490 --> 00:03:40,409
este vídeo con este título, con este idioma

58
00:03:40,409 --> 00:03:42,270
original y con este idioma objetivo

59
00:03:42,270 --> 00:03:44,530
y la API va a decir

60
00:03:44,530 --> 00:03:46,370
pues vale, ok, pues

61
00:03:46,370 --> 00:03:50,310
el vídeo está apto o no. Si el vídeo es apto, pues me va a devolver una ruta dentro

62
00:03:50,310 --> 00:03:54,590
de Firebase, que es donde el cliente va a tener que guardar el vídeo. Lo subirá en

63
00:03:54,590 --> 00:04:01,370
esa ruta de Firebase y ahora el cliente hará una segunda pregunta, que lo querrá traducir.

64
00:04:01,909 --> 00:04:06,330
Cuando lo vaya a traducir, lo que va a decirle es, quiero traducir este vídeo con este ID

65
00:04:06,330 --> 00:04:14,590
a X idioma que me permita. Pues la app dirá que sí o que no y si es que sí, pues pondrá

66
00:04:14,590 --> 00:04:16,290
todo el trabajo de proceso

67
00:04:16,290 --> 00:04:18,949
del hilo distinto donde traduce el vídeo

68
00:04:18,949 --> 00:04:21,170
y le dirá que el vídeo está en proceso

69
00:04:21,170 --> 00:04:22,870
no le dirá que está correctamente traducido

70
00:04:22,870 --> 00:04:24,490
o que no, solo pondrá que está en proceso

71
00:04:24,490 --> 00:04:26,269
porque el proceso dura mucho tiempo

72
00:04:26,269 --> 00:04:28,970
y el usuario tendrá que

73
00:04:28,970 --> 00:04:29,550
esperar

74
00:04:29,550 --> 00:04:35,449
en la parte de API pues hemos utilizado

75
00:04:35,449 --> 00:04:36,589
Flask

76
00:04:36,589 --> 00:04:38,910
RESTX y para la persistencia Mongo

77
00:04:38,910 --> 00:04:41,089
Mongo porque es el

78
00:04:41,089 --> 00:04:42,730
MongoDB

79
00:04:42,730 --> 00:04:45,050
hemos utilizado porque es hacer una estructura de datos

80
00:04:45,050 --> 00:04:45,670
más fácil

81
00:04:45,670 --> 00:04:47,629
o sea más simple

82
00:04:47,629 --> 00:04:50,589
lo hemos querido meter dentro de

83
00:04:50,589 --> 00:04:53,129
así que uno vaya dentro de otro

84
00:04:53,129 --> 00:04:54,970
así es mucho más fácil buscar los vídeos

85
00:04:54,970 --> 00:04:56,050
las traducciones dentro de un vídeo

86
00:04:56,050 --> 00:04:58,810
y mucho más fácil buscar todos los vídeos

87
00:04:58,810 --> 00:04:59,769
dentro de los usuarios

88
00:04:59,769 --> 00:05:01,069
nos quitamos todos los problemas

89
00:05:01,069 --> 00:05:02,089
que nos daría la normalización

90
00:05:02,089 --> 00:05:05,209
y luego pues hemos usado Flask

91
00:05:05,209 --> 00:05:06,730
y una librería muy importante de Flask

92
00:05:06,730 --> 00:05:07,470
que sería RestX

93
00:05:07,470 --> 00:05:10,550
que Flask es para todo el tema de manejos

94
00:05:10,550 --> 00:05:13,370
de peticiones y todo esto

95
00:05:13,370 --> 00:05:14,829
pero es muy modular

96
00:05:14,829 --> 00:05:17,290
viene con nada, viene vacío, es básicamente express

97
00:05:17,290 --> 00:05:19,250
el equivalente, así que

98
00:05:19,250 --> 00:05:21,170
lo que vamos a implementar es esta línea

99
00:05:21,170 --> 00:05:23,110
de RESTX que nos trae

100
00:05:23,110 --> 00:05:25,089
un montón de temas de recursos

101
00:05:25,089 --> 00:05:26,649
de espacios de nombre

102
00:05:26,649 --> 00:05:29,449
que son por resumir controladores

103
00:05:29,449 --> 00:05:31,170
por así decirlo, y un montón

104
00:05:31,170 --> 00:05:32,910
de cosas para poder organizar bien más

105
00:05:32,910 --> 00:05:34,209
la arquitectura de una API

106
00:05:34,209 --> 00:05:36,649
bueno, pues la API tiene

107
00:05:36,649 --> 00:05:38,529
cuatro fases en el proceso de subir un vídeo

108
00:05:38,529 --> 00:05:40,589
el upload request que viene de antes

109
00:05:40,589 --> 00:05:43,170
la descarga del vídeo, la traducción

110
00:05:43,170 --> 00:05:45,069
y la respuesta, pues el upload request

111
00:05:45,069 --> 00:05:46,149
pues como he dicho antes

112
00:05:46,149 --> 00:05:49,250
el cliente va a decirle

113
00:05:49,250 --> 00:05:50,089
que quiere subir un vídeo

114
00:05:50,089 --> 00:05:52,970
el cliente

115
00:05:52,970 --> 00:05:55,310
y lo que va a hacer la API es buscar ese vídeo

116
00:05:55,310 --> 00:05:56,750
y si ese vídeo existe

117
00:05:56,750 --> 00:05:59,149
busca el vídeo en seco, el que no tiene

118
00:05:59,149 --> 00:06:00,730
subtítulos, se lo descarga

119
00:06:00,730 --> 00:06:03,329
y se lo descarga dentro de una carpeta temporal

120
00:06:03,329 --> 00:06:05,209
dentro de nuestra API tendremos una carpeta

121
00:06:05,209 --> 00:06:07,370
que es tmp y un id muy largo

122
00:06:07,370 --> 00:06:09,269
el idioma original y el idioma

123
00:06:09,269 --> 00:06:11,230
objetivo y dentro de esa carpeta

124
00:06:11,230 --> 00:06:12,370
se descargará

125
00:06:12,370 --> 00:06:14,149
el archivo de vídeo

126
00:06:14,149 --> 00:06:16,149
el que no tiene nada

127
00:06:16,149 --> 00:06:18,730
luego esa ruta de carpeta

128
00:06:18,730 --> 00:06:20,569
y ese archivo se le pasará al procesador

129
00:06:20,569 --> 00:06:21,889
y se le mandará el proceso

130
00:06:21,889 --> 00:06:24,829
se le mandará una respuesta al cliente

131
00:06:24,829 --> 00:06:25,810
para que no tenga timeouts

132
00:06:25,810 --> 00:06:30,240
pues en siguiente

133
00:06:30,240 --> 00:06:32,480
entramos a la parte

134
00:06:32,480 --> 00:06:35,980
pues en resumen también se puede

135
00:06:35,980 --> 00:06:36,980
dividir en cuatro

136
00:06:36,980 --> 00:06:39,120
partes, nos gustan cuatro

137
00:06:39,120 --> 00:06:41,939
bueno, primero se trabaja

138
00:06:41,939 --> 00:06:43,379
de separar el

139
00:06:43,379 --> 00:06:49,139
coger el vídeo que hemos descargado del proceso anterior, separar el vídeo, o sea, sacamos su audio como .wav

140
00:06:49,139 --> 00:06:55,540
y luego convertimos a texto con Whisper y traducirlo y ir guardando en un fichero Json.

141
00:06:56,199 --> 00:07:01,259
Y luego, cuando termina este proceso, convertir a Json a un fichero de subtítulo .srt.

142
00:07:01,680 --> 00:07:03,879
Al final sería fusionar este subtítulo con el vídeo.

143
00:07:05,879 --> 00:07:09,319
Y luego explicamos más detalles de cada parte.

144
00:07:09,319 --> 00:07:11,459
primero

145
00:07:11,459 --> 00:07:13,759
separar el vídeo y audio

146
00:07:13,759 --> 00:07:16,079
lo que hace es dos procesos

147
00:07:16,079 --> 00:07:17,699
una de separar el audio

148
00:07:17,699 --> 00:07:19,040
con Mobi2i

149
00:07:19,040 --> 00:07:21,819
que coge el vídeo

150
00:07:21,819 --> 00:07:25,180
y intenta sacar el audio

151
00:07:25,180 --> 00:07:26,800
y segundo

152
00:07:26,800 --> 00:07:28,720
que va a intentar reducir el ruido

153
00:07:28,720 --> 00:07:30,860
de ese audio

154
00:07:30,860 --> 00:07:33,100
y guardar

155
00:07:33,100 --> 00:07:34,459
en otra llamando

156
00:07:34,459 --> 00:07:36,740
a audio reducido

157
00:07:36,740 --> 00:07:43,959
y después de sacado el audio

158
00:07:43,959 --> 00:07:45,420
llegamos a convertir

159
00:07:45,420 --> 00:07:48,040
el texto y traducir

160
00:07:48,040 --> 00:07:49,639
pues aquí

161
00:07:49,639 --> 00:07:52,259
se trabaja con varias cosas

162
00:07:52,259 --> 00:07:53,879
primero, dividir

163
00:07:53,879 --> 00:07:54,519
el chunks

164
00:07:54,519 --> 00:07:58,019
lo llamo como un trozo de vídeo

165
00:07:58,019 --> 00:08:00,220
para repartir

166
00:08:00,220 --> 00:08:01,379
el trabajo, para luego

167
00:08:01,379 --> 00:08:02,920
el trabajo en paralelo

168
00:08:02,920 --> 00:08:04,680
en forma asíncrona

169
00:08:04,680 --> 00:08:06,139
y luego

170
00:08:06,139 --> 00:08:09,079
con chunks que se ha dividido

171
00:08:09,079 --> 00:08:15,019
pues pasamos a concurrent future que he usado para esta librería para trabajar el paralelo y

172
00:08:15,019 --> 00:08:21,240
aquí te va mostrando, esto es consola de nuestra API que va mostrando que dice que va a ejecutar

173
00:08:21,240 --> 00:08:28,220
por ejemplo tres procesos paralelos y cada proceso pues que es que se va a ir transcribiendo con

174
00:08:28,220 --> 00:08:35,240
Whisper, un proceso de transcribir realmente que tiene dos inteligentes artificiales, una es Whisper

175
00:08:35,240 --> 00:08:43,740
que convierte ese audio a texto y la otra es el buy and not speak diarization, eso es

176
00:08:43,740 --> 00:08:51,639
para anotar el hablante, para anotarlo al speaker y con la lista que hemos sacado con

177
00:08:51,639 --> 00:08:58,980
estas dos, al final sacamos un resultado final y con este resultado final pasamos a traducir

178
00:08:58,980 --> 00:09:09,909
y ir guardando en JSON. Después de haber terminado todos los procesos de IRO, que tiene

179
00:09:09,909 --> 00:09:15,830
un fichero JSON así guardado, eso va a ser un formato de ejemplo que tiene texto, texto

180
00:09:15,830 --> 00:09:21,590
traducido, tiempo de inicio, tiempo de final y quién está hablando. Y luego convertimos

181
00:09:21,590 --> 00:09:32,809
esta JSO a un fichero SRT que va a ser formado así. Y al final cogemos ese fichero SRT y

182
00:09:32,809 --> 00:09:41,289
fusionamos, o sea, juntamos con el vídeo y obtenemos el resultado final de un vídeo

183
00:09:41,289 --> 00:09:47,470
traducido, o sea, con subtítulo traducido añadido. Y bueno, pues ahora vamos a mostrar

184
00:09:47,470 --> 00:09:51,269
¿Cómo se traduce un vídeo? ¿Desde un cliente Android o un cliente web?

185
00:09:53,009 --> 00:09:56,129
Pues desde un cliente Android

186
00:09:56,129 --> 00:09:59,250
Dime

187
00:09:59,250 --> 00:10:04,210
Ah sí, se olvidó añadir que una vez que termine el proceso de traducción

188
00:10:04,210 --> 00:10:05,309
Y se suba todo a Firebase

189
00:10:05,309 --> 00:10:06,649
Bueno, sería el de eso

190
00:10:06,649 --> 00:10:09,070
En parte de audio, se me ha olvidado

191
00:10:09,070 --> 00:10:13,509
Bueno, un hombre famoso, americano

192
00:10:13,509 --> 00:10:18,289
Eso es un audio así, separado, original

193
00:10:18,289 --> 00:10:19,590
no ha reducido el ruido

194
00:10:19,590 --> 00:10:24,769
que tiene como un poco

195
00:10:24,769 --> 00:10:26,029
el ruido de las brillas ahí y tal

196
00:10:26,029 --> 00:10:34,879
aquí es como más

197
00:10:34,879 --> 00:10:36,519
queda más limpio, se ha quitado

198
00:10:36,519 --> 00:10:38,820
el sonido ese de riendo o tal

199
00:10:38,820 --> 00:10:42,600
y ya está

200
00:10:42,600 --> 00:10:44,899
ah sí, y cabe recalcar que una vez que termina

201
00:10:44,899 --> 00:10:46,919
de hacer todo este proceso de traducción

202
00:10:46,919 --> 00:10:48,600
y subirlo a Firebase, este vídeo final

203
00:10:48,600 --> 00:10:50,960
todos los contenidos dentro de esa

204
00:10:50,960 --> 00:10:57,559
carpeta temporal se borran. Se borra absolutamente todo. Así que lo único que se va a quedar

205
00:10:57,559 --> 00:11:02,620
es lo que se haya subido a Firebase y lo que queden las bases de datos. Un poco más.

206
00:11:05,840 --> 00:11:14,190
Ahora, ¿para cómo funciona una traducción en un cliente Android? Aquí pues tenemos

207
00:11:14,190 --> 00:11:18,169
al cliente Android, pues habría que hacer un login. Aquí puede ser utilizado el usuario

208
00:11:18,169 --> 00:11:20,370
de test, test, el típico usuario

209
00:11:20,370 --> 00:11:22,169
y tras token que va generando

210
00:11:22,169 --> 00:11:23,649
y esto es lo que va a generar

211
00:11:23,649 --> 00:11:25,509
y esto es lo que va a generar

212
00:11:25,509 --> 00:11:28,090
por seguridad un JWT

213
00:11:28,090 --> 00:11:29,590
o sea un JSON Web Token

214
00:11:29,590 --> 00:11:31,730
en el que dentro de ese JSON Web Token

215
00:11:31,730 --> 00:11:33,950
tiene encriptado con una

216
00:11:33,950 --> 00:11:35,990
clave que tiene la API

217
00:11:35,990 --> 00:11:37,549
el email

218
00:11:37,549 --> 00:11:39,149
que ha hecho sesión

219
00:11:39,149 --> 00:11:41,169
la fecha de cuando ha hecho sesión

220
00:11:41,169 --> 00:11:42,929
y hasta cuanto dura el token

221
00:11:42,929 --> 00:11:45,509
y hace todas estas comprobaciones

222
00:11:45,509 --> 00:11:47,330
y mientras que hace cada petición

223
00:11:47,330 --> 00:11:50,149
pues va a permitirte

224
00:11:50,149 --> 00:11:50,710
recibir algo

225
00:11:50,710 --> 00:11:53,830
en el cliente o no

226
00:11:53,830 --> 00:11:55,450
o sea, si el token no es válido

227
00:11:55,450 --> 00:11:56,950
directamente no te va a mostrar nada

228
00:11:56,950 --> 00:11:59,230
en este caso no lo he mostrado

229
00:11:59,230 --> 00:11:59,529
pero

230
00:11:59,529 --> 00:12:03,370
en este caso

231
00:12:03,370 --> 00:12:05,330
voy a subir un vídeo, esto lo que hace es

232
00:12:05,330 --> 00:12:06,450
lanzar

233
00:12:06,450 --> 00:12:09,049
lo que va a hacer es

234
00:12:09,049 --> 00:12:10,450
primero se va a ver esta pantalla de aquí

235
00:12:10,450 --> 00:12:12,850
que tiene una serie de cartas con un montón

236
00:12:12,850 --> 00:12:14,149
de vídeos

237
00:12:14,149 --> 00:12:17,750
y se va a mostrar un textito

238
00:12:17,750 --> 00:12:19,649
de si está en proceso

239
00:12:19,649 --> 00:12:20,870
o de si está disponible

240
00:12:20,870 --> 00:12:22,750
o si está en error, pues pone que está en error

241
00:12:22,750 --> 00:12:24,190
si está en error va a tener que ser borrado

242
00:12:24,190 --> 00:12:27,210
se le da el botoncito

243
00:12:27,210 --> 00:12:29,210
que estaba aquí abajo a la derecha

244
00:12:29,210 --> 00:12:30,490
para lanzar una segunda actividad

245
00:12:30,490 --> 00:12:32,309
para poder subir un vídeo

246
00:12:32,309 --> 00:12:35,309
se hace un file picker

247
00:12:35,309 --> 00:12:36,169
para poder elegir un vídeo

248
00:12:36,169 --> 00:12:37,509
y en este caso yo he elegido este

249
00:12:37,509 --> 00:12:41,409
sale así porque el principio del vídeo

250
00:12:41,409 --> 00:12:42,070
es negro

251
00:12:42,070 --> 00:12:44,470
así que lo que va a hacer es coger el primer frame

252
00:12:44,470 --> 00:12:45,090
que tenga el vídeo

253
00:12:45,090 --> 00:12:48,029
con una librería que no me acuerdo el nombre ahora mismo

254
00:12:48,029 --> 00:12:50,250
pero va a coger el primer frame del vídeo

255
00:12:50,250 --> 00:12:52,070
y lo va a poner como una thumbnail para que se pueda ver

256
00:12:52,070 --> 00:12:54,149
que ese vídeo está subiendo, porque no querrías

257
00:12:54,149 --> 00:12:56,289
poner un vídeo para un proceso de media hora

258
00:12:56,289 --> 00:12:57,009
sería horrible

259
00:12:57,009 --> 00:12:59,090
luego le pones un título

260
00:12:59,090 --> 00:13:02,250
le pones un título, que en este caso le he puesto

261
00:13:02,250 --> 00:13:03,769
Kuzgesart

262
00:13:03,769 --> 00:13:05,429
que es el canal de Youtube

263
00:13:05,429 --> 00:13:07,289
el canal de Youtube del vídeo

264
00:13:07,289 --> 00:13:08,690
si lo hago bien

265
00:13:08,690 --> 00:13:11,570
y luego cuando le das al botón

266
00:13:11,570 --> 00:13:17,370
Salen unos drop-down menus que te dan a elegir el idioma original del vídeo,

267
00:13:17,470 --> 00:13:20,009
que tienes que especificarlo porque si no te va a dar mal la traducción

268
00:13:20,009 --> 00:13:22,889
y no se puede autodetectar.

269
00:13:23,350 --> 00:13:27,710
O si se puede, lo que pasa es que triplicaría el tiempo de proceso

270
00:13:27,710 --> 00:13:31,309
y por simplificar el proceso es mejor decir cuál es el idioma original y ya está.

271
00:13:32,009 --> 00:13:35,429
Y luego el idioma objetivo, que en este caso lo he puesto en español.

272
00:13:35,429 --> 00:13:38,230
El idioma original es inglés y el vídeo traducir es español.

273
00:13:38,230 --> 00:13:40,529
una vez que le da a este botón de upload file

274
00:13:40,529 --> 00:13:42,350
va a llamar a request

275
00:13:42,350 --> 00:13:44,250
esto lo he editado porque el proceso en realidad

276
00:13:44,250 --> 00:13:46,389
dura entero media hora, es un proceso

277
00:13:46,389 --> 00:13:48,409
muy largo, pero lo que va a hacer

278
00:13:48,409 --> 00:13:48,710
es

279
00:13:48,710 --> 00:13:52,190
hacer este pre-request

280
00:13:52,190 --> 00:13:53,950
le dirá, vale bien, el vídeo está bien

281
00:13:53,950 --> 00:13:55,950
el cliente lo subirá a Firebase

282
00:13:55,950 --> 00:13:58,490
mostrará este texto una vez que ya está subido

283
00:13:58,490 --> 00:14:00,509
y va a llamar

284
00:14:00,509 --> 00:14:01,370
a este upload

285
00:14:01,370 --> 00:14:03,750
que es para traducir el vídeo como tal

286
00:14:03,750 --> 00:14:06,190
y ya pues el cliente

287
00:14:06,190 --> 00:14:07,070
se está descargando el vídeo

288
00:14:07,070 --> 00:14:10,129
si el cliente está descargando el vídeo

289
00:14:10,129 --> 00:14:11,070
y

290
00:14:11,070 --> 00:14:14,450
por simplificar

291
00:14:14,450 --> 00:14:15,809
pues esto también lo he citado

292
00:14:15,809 --> 00:14:18,710
pues una vez que te vayas

293
00:14:18,710 --> 00:14:19,049
al

294
00:14:19,049 --> 00:14:22,330
ya puedes salir del activity y ya vas a ver

295
00:14:22,330 --> 00:14:23,970
que el vídeo está en proceso

296
00:14:23,970 --> 00:14:25,990
una vez el vídeo está en proceso

297
00:14:25,990 --> 00:14:26,990
pues va

298
00:14:26,990 --> 00:14:28,789
a seguir sacando el resultado

299
00:14:28,789 --> 00:14:30,470
y el proceso está

300
00:14:30,470 --> 00:14:32,789
exacto, la consola va

301
00:14:32,789 --> 00:14:34,289
a mostrar ahora mismo que está

302
00:14:34,289 --> 00:14:35,850
es que no se ve ahora mismo pero está

303
00:14:35,850 --> 00:14:38,750
utilizando uno de Torch

304
00:14:38,750 --> 00:14:39,690
que es el de

305
00:14:39,690 --> 00:14:41,750
poder transcribir el texto

306
00:14:41,750 --> 00:14:43,370
el audio a texto

307
00:14:43,370 --> 00:14:44,970
y para poder

308
00:14:44,970 --> 00:14:47,370
diferenciarlos

309
00:14:47,370 --> 00:14:48,950
la persona que está hablando

310
00:14:48,950 --> 00:14:51,009
este es el proceso que se está sacando aquí

311
00:14:51,009 --> 00:14:53,470
que dura 10 minutos, alrededor de 10-15 minutos

312
00:14:53,470 --> 00:14:54,429
dependiendo de la longitud del vídeo

313
00:14:54,429 --> 00:14:58,509
y a partir de ahí

314
00:14:58,509 --> 00:15:00,230
lo que va a hacer es

315
00:15:00,230 --> 00:15:03,830
generarte un Json gigantesco

316
00:15:03,830 --> 00:15:05,789
con todo lo que contiene el vídeo

317
00:15:05,789 --> 00:15:09,490
y luego de SJSON

318
00:15:09,490 --> 00:15:11,029
se va a traducir

319
00:15:11,029 --> 00:15:12,330
usando la API de DPL

320
00:15:12,330 --> 00:15:15,049
esta parte se da un resultado

321
00:15:15,049 --> 00:15:16,570
que se ha sacado con Whisper

322
00:15:16,570 --> 00:15:18,789
que es una lista que tiene

323
00:15:18,789 --> 00:15:20,730
toda la información

324
00:15:20,730 --> 00:15:22,509
posible información con tiempo

325
00:15:22,509 --> 00:15:23,809
el texto de cada

326
00:15:23,809 --> 00:15:25,870
que han sacado

327
00:15:25,870 --> 00:15:28,470
tenemos que hacer algún proceso

328
00:15:28,470 --> 00:15:28,929
para

329
00:15:28,929 --> 00:15:32,490
coger la cadena bien

330
00:15:32,490 --> 00:15:34,370
cadena texto

331
00:15:34,370 --> 00:15:37,250
o sea como que sale

332
00:15:37,250 --> 00:15:38,789
cada palabra y palabra

333
00:15:38,789 --> 00:15:41,429
tenemos que juntarlo a como cadena de texto

334
00:15:41,429 --> 00:15:43,289
y pasarlo a

335
00:15:43,289 --> 00:15:44,850
cada cadena

336
00:15:44,850 --> 00:15:47,230
y ir pasando al DPL a la traducción

337
00:15:47,230 --> 00:15:51,039
y esto va a sacar

338
00:15:51,039 --> 00:15:52,399
cada cadena, cada cadena

339
00:15:52,399 --> 00:15:55,299
y luego pues esto lo he hecho para poder mostrar más o menos

340
00:15:55,299 --> 00:15:56,200
el proceso

341
00:15:56,200 --> 00:15:57,960
¿qué qué?

342
00:15:58,320 --> 00:15:59,320
15 minutos

343
00:15:59,320 --> 00:16:03,059
pues luego pues

344
00:16:03,059 --> 00:16:04,899
para ver el proceso y demostrar

345
00:16:04,899 --> 00:16:06,620
el contenido de esta carpeta temporal

346
00:16:06,620 --> 00:16:08,100
que lo que ha hecho es crear una instancia de Docker

347
00:16:08,100 --> 00:16:10,379
y en esta instancia de Docker he linkado la carpeta temporal

348
00:16:10,379 --> 00:16:12,539
a la carpeta temporal dentro de la API en Docker

349
00:16:12,539 --> 00:16:15,139
y aquí se puede ver

350
00:16:15,139 --> 00:16:15,779
el proceso

351
00:16:15,779 --> 00:16:18,059
el proceso del vídeo original

352
00:16:18,059 --> 00:16:20,559
luego cómo pasa el extra del audio

353
00:16:20,559 --> 00:16:21,759
luego cómo se reduce el audio

354
00:16:21,759 --> 00:16:23,419
luego cómo lo divide en chunks

355
00:16:23,419 --> 00:16:24,919
luego cómo le saca json

356
00:16:24,919 --> 00:16:27,059
y a partir de ahí

357
00:16:27,059 --> 00:16:29,320
voy traduciendo

358
00:16:29,320 --> 00:16:32,740
hasta que

359
00:16:32,740 --> 00:16:34,399
llega a terminar

360
00:16:34,399 --> 00:16:45,539
eliminar el archivo SRT y ahí estaba escribiendo el vídeo final juntando el SRT que había generado y el vídeo

361
00:16:45,539 --> 00:16:50,799
y los está juntando, que esto también es un proceso que dura mucho, que este proceso en realidad dura muchísimo más

362
00:16:50,799 --> 00:16:55,259
de lo que pone aquí, o sea, dura mucho más de lo que pone aquí. Ahora va a estar en 1% pero va a saltar porque está editado.

363
00:16:55,259 --> 00:16:58,259
y luego pues va a subir

364
00:16:58,259 --> 00:17:00,899
va a subir el vídeo

365
00:17:00,899 --> 00:17:02,639
a esta URI dentro de Firebase

366
00:17:02,639 --> 00:17:04,539
la de RAW vídeos y todo este

367
00:17:04,539 --> 00:17:08,079
y termina la carpeta temporal

368
00:17:08,079 --> 00:17:11,359
y como podéis ver

369
00:17:11,359 --> 00:17:12,500
si hago un ls

370
00:17:12,500 --> 00:17:14,279
intentando ver la carpeta otra vez

371
00:17:14,279 --> 00:17:16,000
no existe la carpeta porque ha sido borrada

372
00:17:16,000 --> 00:17:18,640
y luego cuando recargo

373
00:17:18,640 --> 00:17:19,980
la página, cuando recargo

374
00:17:19,980 --> 00:17:22,039
la aplicación de Android

375
00:17:22,039 --> 00:17:24,700
aquí sale disponible

376
00:17:24,700 --> 00:17:26,900
para poder

377
00:17:26,900 --> 00:17:28,779
verse, se le da aquí

378
00:17:28,779 --> 00:17:32,039
y ahí sale

379
00:17:32,039 --> 00:17:34,279
no se puede ver porque está pequeñito

380
00:17:34,279 --> 00:17:36,799
pero ahí salen los subtítulos

381
00:17:36,799 --> 00:17:38,299
en español

382
00:17:38,299 --> 00:17:42,529
y el proceso es similar

383
00:17:42,529 --> 00:17:43,410
en web

384
00:17:43,410 --> 00:17:45,769
si queréis

385
00:17:45,769 --> 00:17:47,170
os lo mostramos

386
00:17:47,170 --> 00:17:49,589
si da tiempo

387
00:17:49,589 --> 00:17:51,269
es básicamente

388
00:17:51,269 --> 00:17:59,700
es básicamente lo mismo

389
00:17:59,700 --> 00:18:00,559
esa es la calidad

390
00:18:00,559 --> 00:18:03,019
solo por dos

391
00:18:03,019 --> 00:18:10,019
Sería lo mismo, pero solo he cambiado un poco la interfaz, porque he hecho con redact,

392
00:18:10,019 --> 00:18:13,019
javascript y la diseño he hecho con bootstrap.

393
00:18:13,019 --> 00:18:25,049
Aquí primero se piden como lo de un prerequest, que es idioma original y tal.

394
00:18:25,049 --> 00:18:29,049
Eso ya ha llegado al segundo, sería request, subir vídeo y tal.

395
00:18:29,049 --> 00:18:34,049
Eso es un parado de proceso, lo que he contado de usef y de esa.

396
00:18:34,049 --> 00:18:37,650
al final no he conseguido la solución

397
00:18:37,650 --> 00:18:47,970
y creo que en esa versión he comentado

398
00:18:47,970 --> 00:18:50,470
y aquí ya tiene, bueno, aquí se ve mejor

399
00:18:50,470 --> 00:18:55,680
como veis que el vídeo que ya tiene como un subtítulo

400
00:18:55,680 --> 00:19:05,200
y ya está

401
00:19:05,200 --> 00:19:10,200
vale, el tiempo lo habéis, lo habéis, por tiempo de

402
00:19:10,200 --> 00:19:14,299
que queréis, la pista, el vídeo que queréis traducir

403
00:19:14,299 --> 00:19:17,259
¿Los tiempos? ¿Habéis hecho una tabla de tiempos?

404
00:19:17,619 --> 00:19:18,579
Lo hemos intentado.

405
00:19:19,980 --> 00:19:25,099
No hemos hecho una tabla como tal, pero hemos hecho varios de un minuto, dos minutos, cinco minutos.

406
00:19:25,819 --> 00:19:26,720
O sea, de diez minutos.

407
00:19:27,900 --> 00:19:32,000
Sí, la relación es por la cantidad de palabras dentro del vídeo, no es por la duración del vídeo.

408
00:19:32,460 --> 00:19:34,980
Claro, porque podrías tener un vídeo entero de...

409
00:19:34,980 --> 00:19:37,859
Porque eso lo he probado yo también, un vídeo entero de Pedro Sánchez con aplausos.

410
00:19:38,599 --> 00:19:43,940
Sí, porque son diez segundos de vídeo hablando, pero otros 50 segundos de vídeo aplaudiendo.

411
00:19:43,940 --> 00:19:46,259
Y como podréis pensar, pues no tarda nada.

412
00:19:46,519 --> 00:19:49,680
O sea, tardó 10 minutos en traducirlo.

413
00:19:55,769 --> 00:20:01,130
Y luego separáis la parte de audio en formato WAV.

414
00:20:01,869 --> 00:20:02,069
Sí.

415
00:20:02,650 --> 00:20:06,750
Porque eso no podéis convertirlo a MP3.

416
00:20:07,170 --> 00:20:11,089
Sí, se puede convertir a MP3, pero por evitarnos temas de pérdidas de datos

417
00:20:11,089 --> 00:20:13,529
o pérdida de calidad o lo que sea cuando se reduzca el audio,

418
00:20:13,930 --> 00:20:15,829
teníamos miedo, así que utilizamos WAV,

419
00:20:15,829 --> 00:20:19,750
porque es en donde mejor se consigue el audio.

420
00:20:20,190 --> 00:20:21,950
Claro, pero ¿por qué se tarda más?

421
00:20:22,410 --> 00:20:25,170
Se tarda más, pero no era un cambio considerable.

422
00:20:25,349 --> 00:20:29,089
De hecho, en hacer el web tarda en total creo que medio segundo.

423
00:20:29,349 --> 00:20:29,890
O sea, no tarda nada.

424
00:20:29,910 --> 00:20:31,230
¿En hacer el web se tiene que anotar?

425
00:20:31,470 --> 00:20:32,309
No, de hecho no se anota.

426
00:20:32,809 --> 00:20:36,609
De hecho, lanzas la petición, tarda un segundo y ya tienes el audio hecho.

427
00:20:37,130 --> 00:20:37,670
En principio...

428
00:20:37,670 --> 00:20:40,910
Lo que tarda es en hacer las llamadas de APIs,

429
00:20:41,269 --> 00:20:43,970
transcribir el vídeo, traducirlo,

430
00:20:43,970 --> 00:20:45,329
Reinsertar

431
00:20:45,329 --> 00:20:47,829
Pasarlo a subtítulos

432
00:20:47,829 --> 00:20:49,089
Reinsertarlo a vídeo

433
00:20:49,089 --> 00:20:50,430
Esos son los cinco procesos que tardan

434
00:20:50,430 --> 00:20:53,390
Pero el de pasarlo a WAV

435
00:20:53,390 --> 00:20:54,910
Y reducir el audio, tarda cero

436
00:20:54,910 --> 00:20:55,609
No tarda nada

437
00:20:55,609 --> 00:20:58,789
O sea, en principio hemos hecho una versión con MP3 también

438
00:20:58,789 --> 00:21:00,970
Pero la calidad de traducción así

439
00:21:00,970 --> 00:21:02,589
Para decirlo, que no sale muy bien

440
00:21:02,589 --> 00:21:05,250
Y para hacer esa balance

441
00:21:05,250 --> 00:21:07,349
Entre como la calidad

442
00:21:07,349 --> 00:21:08,230
Y la velocidad

443
00:21:08,230 --> 00:21:10,490
Cogemos a WAV, sobre todo

444
00:21:10,490 --> 00:21:13,650
Vale, y luego lo que comentabais

445
00:21:13,650 --> 00:21:15,049
Esto ya es por curiosidad.

446
00:21:15,789 --> 00:21:18,390
¿El contenedor del Docker y eso lo habéis conseguido?

447
00:21:18,789 --> 00:21:19,329
Sí, de hecho.

448
00:21:20,329 --> 00:21:21,869
Esto está hecho con el contenedor del Docker.

449
00:21:22,470 --> 00:21:22,910
Muy bien.

450
00:21:23,990 --> 00:21:24,750
Pues muy bien, nada.

451
00:21:24,910 --> 00:21:25,690
Yo felicitaros.

452
00:21:26,789 --> 00:21:29,410
El proyecto me ha parecido interesante, me parece bien

453
00:21:29,410 --> 00:21:32,170
y además la exposición me parece que la habéis hecho muy bien.

454
00:21:32,569 --> 00:21:33,529
Así que yo felicitaros.

455
00:21:39,440 --> 00:21:41,599
Yo ayer lo dije a Mayo

456
00:21:41,599 --> 00:21:42,680
pero quería hablar con Fernando

457
00:21:42,680 --> 00:21:44,559
que con eso me va bien.

458
00:21:44,559 --> 00:21:46,880
si tienes luego enseñamos un vídeo

459
00:21:46,880 --> 00:21:47,740
con enteros así

460
00:21:47,740 --> 00:21:51,240
lo que es que he visto que tenéis problemas con la codificación

461
00:21:51,240 --> 00:21:52,880
los acentos y todo eso

462
00:21:52,880 --> 00:21:54,579
sí, pero eso es por el tema

463
00:21:54,579 --> 00:21:56,980
de la traducción que DeepL

464
00:21:56,980 --> 00:21:58,500
algunos caracteres no funcionan

465
00:21:58,500 --> 00:22:00,720
de hecho con japonés algunas veces daba problemas

466
00:22:00,720 --> 00:22:02,799
por ejemplo, si te hacía la traducción en japonés

467
00:22:02,799 --> 00:22:03,740
te tiraba el vídeo y daba error

468
00:22:03,740 --> 00:22:05,900
porque simplemente por la codificación en ese retenido

469
00:22:05,900 --> 00:22:08,960
así que por eso nos hemos abstraído de hacer vídeos en chino y en japonés

470
00:22:08,960 --> 00:22:11,160
también es por el tema

471
00:22:11,160 --> 00:22:14,529
si consideramos bien

472
00:22:14,529 --> 00:22:17,150
al final creo que tengo una lista

473
00:22:17,150 --> 00:22:18,769
de idioma y su encoding

474
00:22:18,769 --> 00:22:20,690
pero creo que no he conseguido

475
00:22:20,690 --> 00:22:21,710
un completo

476
00:22:21,710 --> 00:22:25,450
encoding correspondiente

477
00:22:25,450 --> 00:22:27,170
con idioma, si llego a completar

478
00:22:27,170 --> 00:22:28,970
esa tabla, a lo mejor

479
00:22:28,970 --> 00:22:31,430
el resultado sale más bonito

480
00:22:31,430 --> 00:22:33,009
otro problema que también tenía Docker

481
00:22:33,009 --> 00:22:34,869
era que para el tema de los subtítulos

482
00:22:34,869 --> 00:22:37,029
por eso a veces que los caracteres son raros

483
00:22:37,029 --> 00:22:38,690
en MoviePy

484
00:22:38,690 --> 00:22:40,410
para hacer los subtítulos usa Arial

485
00:22:40,410 --> 00:22:42,750
y Arial es de Windows, así que

486
00:22:42,750 --> 00:22:45,289
Arial no te viene una imagen de Ubuntu

487
00:22:45,289 --> 00:22:47,349
clásica, así que si podéis ver

488
00:22:47,349 --> 00:22:49,210
si veis en la memoria

489
00:22:49,210 --> 00:22:51,289
o donde sea, vais a poder en una parte

490
00:22:51,289 --> 00:22:53,269
del Docker, que me descargo las fuentes

491
00:22:53,269 --> 00:22:55,190
de Arial, tengo que hacer unos cambios

492
00:22:55,190 --> 00:22:56,130
en

493
00:22:56,130 --> 00:22:59,349
ImageMagick para que funcione bien el tema

494
00:22:59,349 --> 00:23:01,470
de fuentes, extraigo

495
00:23:01,470 --> 00:23:03,470
todo y pongo todos esos archivos

496
00:23:03,470 --> 00:23:05,170
de fuentes

497
00:23:05,170 --> 00:23:07,130
dentro de los archivos de fuentes de Ubuntu

498
00:23:07,130 --> 00:23:08,670
pero eso lo tenía que hacer porque

499
00:23:08,670 --> 00:23:11,309
MoviePy me lo estaba tirando, me estaba tirando por la fuente

500
00:23:11,309 --> 00:23:12,990
de Arial y por eso

501
00:23:12,990 --> 00:23:14,890
algunos caracteres también no salen

502
00:23:14,890 --> 00:23:15,990
pero sí

503
00:23:15,990 --> 00:23:26,880
lo que estamos guardando en la base de datos

504
00:23:26,880 --> 00:23:28,319
es del usuario

505
00:23:28,319 --> 00:23:31,279
su username, su email

506
00:23:31,279 --> 00:23:32,500
y los vídeos

507
00:23:32,500 --> 00:23:34,000
una

508
00:23:34,000 --> 00:23:36,099
ah sí, claro, esto no lo he mencionado

509
00:23:36,099 --> 00:23:38,559
su contraseña, pero su contraseña

510
00:23:38,559 --> 00:23:40,680
encriptada con un salt

511
00:23:40,680 --> 00:23:42,680
o sea, porque por todo el tema

512
00:23:42,680 --> 00:23:44,200
del salt and pepper

513
00:23:44,200 --> 00:23:45,880
lo hasheamos con salt

514
00:23:45,880 --> 00:23:47,259
y también guardamos el salt

515
00:23:47,259 --> 00:23:50,420
luego dentro de los vídeos

516
00:23:50,420 --> 00:23:51,660
y dentro de los vídeos guardamos

517
00:23:51,660 --> 00:23:54,319
el idioma original y la ruta que tiene

518
00:23:54,319 --> 00:23:55,319
dentro de Firebase

519
00:23:55,319 --> 00:23:57,720
y luego ese vídeo también tendrá sus traducciones

520
00:23:57,720 --> 00:23:59,019
y las traducciones guardamos

521
00:23:59,019 --> 00:24:01,079
la idea de la traducción

522
00:24:01,079 --> 00:24:04,519
la ruta de Firebase y no sé qué más

523
00:24:04,519 --> 00:24:05,660
creo que eso y ya está

524
00:24:05,660 --> 00:24:11,230
con el texto de la traducción

525
00:24:11,230 --> 00:24:12,549
no, lo borramos

526
00:24:12,549 --> 00:24:15,849
intentamos hacer en un principio

527
00:24:15,849 --> 00:24:17,769
el tema de en vez de hacer un vídeo

528
00:24:17,769 --> 00:24:19,390
completo y irlo guardando en Firebase

529
00:24:19,390 --> 00:24:21,210
guardar los SRTs

530
00:24:21,210 --> 00:24:23,470
y luego esos SRTs

531
00:24:23,470 --> 00:24:24,750
incrustarlos en el vídeo

532
00:24:24,750 --> 00:24:26,769
junto al streaming de Firebase

533
00:24:26,769 --> 00:24:27,890
pero

534
00:24:27,890 --> 00:24:31,190
sencillamente no se podía porque en la aplicación de web

535
00:24:31,190 --> 00:24:32,990
sí se puede, pero en la de Android

536
00:24:32,990 --> 00:24:35,029
en ExoPlayer no hay documentación

537
00:24:35,029 --> 00:24:36,589
acerca de cómo poner subtítulos SRT

538
00:24:36,589 --> 00:24:38,910
dentro de ExoPlayer, lo busqué

539
00:24:38,910 --> 00:24:41,230
no lo encontré y teníamos que avanzar

540
00:24:41,230 --> 00:24:42,809
de alguna manera, así que

541
00:24:42,809 --> 00:24:44,890
avanzamos con esta y si daba tiempo

542
00:24:44,890 --> 00:24:47,130
íbamos a usar los SRTs, como no dio tiempo

543
00:24:47,130 --> 00:24:49,130
pues incrustamos

544
00:24:49,130 --> 00:24:49,930
los subtítulos y ya está.

545
00:24:50,450 --> 00:24:52,410
La idea principal, hemos decidido

546
00:24:52,410 --> 00:24:56,990
que ir saliendo en tiempo real

547
00:24:56,990 --> 00:24:58,549
pero es

548
00:24:58,549 --> 00:25:00,829
otra dificultad de hacerlo, pues

549
00:25:00,829 --> 00:25:02,849
hemos decidido procesar un vídeo entero y añadir

550
00:25:02,849 --> 00:25:04,269
un subtítulo y sacamos el vídeo así.

551
00:25:05,089 --> 00:25:06,490
El problema en general fue ExoPlayer,

552
00:25:06,670 --> 00:25:08,250
que es la librería de

553
00:25:08,250 --> 00:25:10,589
mostrar vídeos de Android.

554
00:25:11,029 --> 00:25:12,809
No, yo decía, ya que tenéis

555
00:25:12,809 --> 00:25:16,279
el texto y los vídeos y todo eso,

556
00:25:17,180 --> 00:25:18,579
tenéis ahí un cañón

557
00:25:18,579 --> 00:25:19,720
de bases de datos

558
00:25:19,720 --> 00:25:21,400
con textos de vídeos,

559
00:25:21,400 --> 00:25:26,079
que luego os va a permitir hacer búsquedas

560
00:25:26,079 --> 00:25:29,299
a partir de determinadas expresiones

561
00:25:29,299 --> 00:25:31,420
en qué vídeos aparecen, en qué contextos

562
00:25:31,420 --> 00:25:33,099
Podríamos haberlo intentado

563
00:25:33,099 --> 00:25:42,279
Podríamos haberlo intentado

564
00:25:42,279 --> 00:25:44,200
y de hecho también queríamos implementar un tema de tags

565
00:25:44,200 --> 00:25:46,380
para que cada vídeo tuviese su tag, por ejemplo

566
00:25:46,380 --> 00:25:50,819
y se pudiera organizar de alguna manera

567
00:25:50,819 --> 00:25:52,779
pero no tuvimos tiempo sencillamente

568
00:25:52,779 --> 00:25:54,640
porque ambos estuvimos arreglando

569
00:25:54,640 --> 00:25:56,019
un poco el tema del procesador de vídeo

570
00:25:56,019 --> 00:25:57,779
porque estaban demasiados problemas

571
00:25:57,779 --> 00:25:59,960
estaban problemas de que se hacía fácil

572
00:25:59,960 --> 00:26:02,779
porque esas librerías están dispensadas

573
00:26:02,779 --> 00:26:04,059
para ser usadas con una GPU

574
00:26:04,059 --> 00:26:05,980
como estábamos usando AWS

575
00:26:05,980 --> 00:26:09,279
en Academy

576
00:26:09,279 --> 00:26:10,940
no tenemos uso de GPUs

577
00:26:10,940 --> 00:26:12,339
así que tuvimos que maquinar la idea

578
00:26:12,339 --> 00:26:14,519
o sea maquinarnos para poder utilizar

579
00:26:14,519 --> 00:26:15,880
solo procesador y que no petara

580
00:26:15,880 --> 00:26:18,059
así que tuvimos que optimizar en eso

581
00:26:18,059 --> 00:26:20,140
queríamos haber expandido más pero es que no tuvimos tiempo

582
00:26:20,140 --> 00:26:21,819
creo que llevamos una semana entera

583
00:26:21,819 --> 00:26:23,039
para solamente hacer el docker

584
00:26:23,039 --> 00:26:24,960
exacto, o sea una semana y media quizá

585
00:26:24,960 --> 00:26:27,579
y luego tuve que añadir librerías de C++

586
00:26:27,579 --> 00:26:28,380
dentro del docker

587
00:26:28,380 --> 00:26:33,200
estaría guay

588
00:26:33,200 --> 00:26:34,720
y el

589
00:26:34,720 --> 00:26:39,900
cuando hacéis

590
00:26:39,900 --> 00:26:41,559
cuando partís el audio

591
00:26:41,559 --> 00:26:43,359
para poder trabajar de forma

592
00:26:43,359 --> 00:26:45,640
¿cómo calculáis?

593
00:26:46,140 --> 00:26:46,619
¿cómo se llama?

594
00:26:47,160 --> 00:26:47,880
chunk

595
00:26:47,880 --> 00:26:50,799
eso es

596
00:26:50,799 --> 00:26:53,480
preguntar unas semanas

597
00:26:53,480 --> 00:26:56,480
ha sido como dividimos el tamaño

598
00:26:56,480 --> 00:27:01,779
la pregunta va por si optimizas de alguna manera

599
00:27:01,779 --> 00:27:02,680
eso que habéis dicho

600
00:27:02,680 --> 00:27:04,980
hay trozos o vídeos que

601
00:27:04,980 --> 00:27:09,599
no tienen tanto el personaje hablando

602
00:27:09,599 --> 00:27:11,859
y entonces ese se hace muy rápido

603
00:27:11,859 --> 00:27:13,700
entonces eso de alguna manera

604
00:27:13,700 --> 00:27:14,980
lo contempláis o no

605
00:27:14,980 --> 00:27:16,759
o directamente lo habéis dividido

606
00:27:16,759 --> 00:27:18,960
lo que he hecho es

607
00:27:18,960 --> 00:27:20,460
hay un librería

608
00:27:20,460 --> 00:27:24,319
Ahora no me acuerdo el nombre

609
00:27:24,319 --> 00:27:25,980
Pero se detecta el silencio

610
00:27:25,980 --> 00:27:28,039
O sea, ahí he configurado

611
00:27:28,039 --> 00:27:29,400
Por ejemplo, si se corta

612
00:27:29,400 --> 00:27:32,599
En principio sería como un silencio de 5 segundos

613
00:27:32,599 --> 00:27:34,559
Si detecta un silencio de 5 segundos

614
00:27:34,559 --> 00:27:35,200
Se corta ahí

615
00:27:35,200 --> 00:27:36,619
Y ahí hace un chon

616
00:27:36,619 --> 00:27:38,819
Y si detecta siguiente, hace un chon

617
00:27:38,819 --> 00:27:41,359
Y luego, en vez de 5 minutos

618
00:27:41,359 --> 00:27:42,960
He puesto, en vez de como dinámica

619
00:27:42,960 --> 00:27:44,160
Algumente como 5 minutos

620
00:27:44,160 --> 00:27:46,759
He puesto como, si no detecta un silencio de 5 minutos

621
00:27:46,759 --> 00:27:49,000
Pues baja a 4,5

622
00:27:49,000 --> 00:27:50,119
A 3

623
00:27:50,119 --> 00:27:51,980
a tres y medio hasta que

624
00:27:51,980 --> 00:27:54,380
hacer trozos de vídeo

625
00:27:54,380 --> 00:27:56,339
y si no encuentran ninguna

626
00:27:56,339 --> 00:27:58,079
pues se sale como un aviso diciendo

627
00:27:58,079 --> 00:28:00,019
que no se puede dividir el trozo

628
00:28:00,019 --> 00:28:01,980
se va a producir vídeo entero

629
00:28:01,980 --> 00:28:04,119
Una última cosa

630
00:28:04,119 --> 00:28:05,660
esto es pura curiosidad

631
00:28:05,660 --> 00:28:07,400
¿Habéis probado con canciones?

632
00:28:08,900 --> 00:28:09,420
¿Canciones?

633
00:28:10,420 --> 00:28:10,660
No

634
00:28:10,660 --> 00:28:13,559
Es una buena idea

635
00:28:13,559 --> 00:28:15,940
y posiblemente funcionaría

636
00:28:15,940 --> 00:28:17,079
pero no, no la he probado

637
00:28:17,079 --> 00:28:25,380
Pero también le digo que la librería que he usado para bajar el ruido no es muy inteligente.

638
00:28:29,640 --> 00:28:30,279
Muchas gracias.