1 00:00:00,370 --> 00:00:04,730 Buenas, pues yo soy Andrew Kovach y él es Tenka Iso 2 00:00:04,730 --> 00:00:07,969 y vamos a hacer nuestra presentación acerca de nuestro trabajo de fin de grado 3 00:00:07,969 --> 00:00:09,650 Policablot 4 00:00:09,650 --> 00:00:15,439 El contenido que vamos a dar en esta presentación es una pequeña introducción 5 00:00:15,439 --> 00:00:19,339 acerca de nuestro proyecto, cómo funciona todo el proceso de traducción 6 00:00:19,339 --> 00:00:21,679 que es el más importante dentro de nuestro proyecto 7 00:00:21,679 --> 00:00:24,679 que va desde cliente a API a procesador 8 00:00:24,679 --> 00:00:26,600 el procesador es lo que traduce el vídeo 9 00:00:26,600 --> 00:00:30,699 y cómo traducir los vídeos desde un cliente de Android 10 00:00:30,699 --> 00:00:32,679 y cómo traduce el vídeo desde un cliente de web. 11 00:00:36,259 --> 00:00:37,280 Bueno, pues la introducción. 12 00:00:38,039 --> 00:00:38,939 ¿En qué consiste? 13 00:00:39,219 --> 00:00:44,119 Pues el proyecto consiste en un servicio de traducción de vídeos hecho con IA 14 00:00:44,119 --> 00:00:50,340 para todas aquellas personas que necesitan traducir sus vídeos de una manera más simple, 15 00:00:50,500 --> 00:00:54,740 no como algunos otros servicios como vid.io, 16 00:00:55,100 --> 00:00:59,700 que lo que tienes que hacer es subir tu vídeo, es un editor de vídeo online más que otra cosa, 17 00:00:59,700 --> 00:01:01,539 pero no es como subir tu vídeo 18 00:01:01,539 --> 00:01:05,060 y editar los subtítulos 19 00:01:05,060 --> 00:01:05,680 sino es más 20 00:01:05,680 --> 00:01:08,140 subir el vídeo y te hace los subtítulos solo 21 00:01:08,140 --> 00:01:10,719 es muy simple, el proceso está hecho para ser simple 22 00:01:10,719 --> 00:01:12,540 y está hecho 23 00:01:12,540 --> 00:01:14,359 para que cualquier persona pueda traducir vídeos 24 00:01:14,359 --> 00:01:16,340 ¿y sobre qué usan? 25 00:01:16,439 --> 00:01:18,359 pues Backend está desarrollando 26 00:01:18,359 --> 00:01:20,239 con Byton y como parte de 27 00:01:20,239 --> 00:01:22,219 APIs hemos decidido 28 00:01:22,219 --> 00:01:24,340 con Flash y como parte del proceso 29 00:01:24,340 --> 00:01:26,180 o sea la parte que procesa el vídeo y tal 30 00:01:26,180 --> 00:01:28,340 pues hay tres librerías más importantes 31 00:01:28,340 --> 00:01:57,780 Una sería MoVPY, que consigue hacer ediciones de vídeo y audio, y Wister, que es la IA del OpenAI, que trabaja para convertir el audio a texto, y una API de DPL para hacer traducción, y luego tenemos un cliente de Android y luego otra de un cliente web hecha con React, y como base de datos hemos utilizado MongoDB, y también hemos implementado toda la parte de Docker, AWS y eso. 32 00:01:59,340 --> 00:02:01,540 Luego, ¿con qué objetivos hemos hecho este proyecto? 33 00:02:02,019 --> 00:02:07,900 Pues los dos objetivos principales para cumplir este proyecto fueron el implementar APIs de IA, 34 00:02:08,400 --> 00:02:13,280 ya sea con API DeepL o con Whisper o con cualquier otra, 35 00:02:13,400 --> 00:02:16,539 pero poder implementar una IA que nos sirva para poder traducir los vídeos. 36 00:02:17,759 --> 00:02:24,060 Y luego también la práctica de uso de servicios como de Backend Tracer Service o de Cloud, 37 00:02:24,060 --> 00:02:30,580 como sería Firebase, que es un backend as a service, o de Cloud, que sería AWS con el tema de instancias y todo este tipo de cosas. 38 00:02:32,400 --> 00:02:36,580 Pues, ¿cómo funciona la traducción en corto, así en sencillito? 39 00:02:37,020 --> 00:02:40,439 Pues tenemos los clientes, la API y el procesador, que es el video procesador. 40 00:02:41,020 --> 00:02:46,939 Pues los clientes preguntarán a la API si puede subir un video, si la API dice que sí, pues se subirá el video 41 00:02:46,939 --> 00:02:48,639 y se llamará la API para su traducción. 42 00:02:48,639 --> 00:02:55,740 La API guardará la traducción de un proceso en la base de datos y lanzará al procesor desde otro hilo distinto 43 00:02:55,740 --> 00:03:02,599 y cuando se termine ese hilo de traducir, actualizará la base de datos en función de si la traducción ha sido correcta o no. 44 00:03:03,620 --> 00:03:08,000 Y el procesador empleará todo el procesamiento, simplemente. 45 00:03:11,210 --> 00:03:16,550 Los clientes. Tenemos cuatro etapas principales para el tema de clientes. 46 00:03:16,550 --> 00:03:18,389 pues tenemos el pre-request 47 00:03:18,389 --> 00:03:20,129 que es como yo llamo 48 00:03:20,129 --> 00:03:22,250 el proceso de subir un vídeo que no tenga 49 00:03:22,250 --> 00:03:24,349 subtitulado, que no tiene nada 50 00:03:24,349 --> 00:03:26,469 básicamente, el subir el vídeo 51 00:03:26,469 --> 00:03:28,689 como tal a Firebase, el upload request 52 00:03:28,689 --> 00:03:30,629 y la espera del cliente 53 00:03:30,629 --> 00:03:32,449 pues digamos que yo 54 00:03:32,449 --> 00:03:34,110 Andrew, quiero subir un vídeo 55 00:03:34,110 --> 00:03:36,409 a mi servicio, pues primero voy a tener 56 00:03:36,409 --> 00:03:38,490 que subir el vídeo diciéndole, vale, quiero subir 57 00:03:38,490 --> 00:03:40,409 este vídeo con este título, con este idioma 58 00:03:40,409 --> 00:03:42,270 original y con este idioma objetivo 59 00:03:42,270 --> 00:03:44,530 y la API va a decir 60 00:03:44,530 --> 00:03:46,370 pues vale, ok, pues 61 00:03:46,370 --> 00:03:50,310 el vídeo está apto o no. Si el vídeo es apto, pues me va a devolver una ruta dentro 62 00:03:50,310 --> 00:03:54,590 de Firebase, que es donde el cliente va a tener que guardar el vídeo. Lo subirá en 63 00:03:54,590 --> 00:04:01,370 esa ruta de Firebase y ahora el cliente hará una segunda pregunta, que lo querrá traducir. 64 00:04:01,909 --> 00:04:06,330 Cuando lo vaya a traducir, lo que va a decirle es, quiero traducir este vídeo con este ID 65 00:04:06,330 --> 00:04:14,590 a X idioma que me permita. Pues la app dirá que sí o que no y si es que sí, pues pondrá 66 00:04:14,590 --> 00:04:16,290 todo el trabajo de proceso 67 00:04:16,290 --> 00:04:18,949 del hilo distinto donde traduce el vídeo 68 00:04:18,949 --> 00:04:21,170 y le dirá que el vídeo está en proceso 69 00:04:21,170 --> 00:04:22,870 no le dirá que está correctamente traducido 70 00:04:22,870 --> 00:04:24,490 o que no, solo pondrá que está en proceso 71 00:04:24,490 --> 00:04:26,269 porque el proceso dura mucho tiempo 72 00:04:26,269 --> 00:04:28,970 y el usuario tendrá que 73 00:04:28,970 --> 00:04:29,550 esperar 74 00:04:29,550 --> 00:04:35,449 en la parte de API pues hemos utilizado 75 00:04:35,449 --> 00:04:36,589 Flask 76 00:04:36,589 --> 00:04:38,910 RESTX y para la persistencia Mongo 77 00:04:38,910 --> 00:04:41,089 Mongo porque es el 78 00:04:41,089 --> 00:04:42,730 MongoDB 79 00:04:42,730 --> 00:04:45,050 hemos utilizado porque es hacer una estructura de datos 80 00:04:45,050 --> 00:04:45,670 más fácil 81 00:04:45,670 --> 00:04:47,629 o sea más simple 82 00:04:47,629 --> 00:04:50,589 lo hemos querido meter dentro de 83 00:04:50,589 --> 00:04:53,129 así que uno vaya dentro de otro 84 00:04:53,129 --> 00:04:54,970 así es mucho más fácil buscar los vídeos 85 00:04:54,970 --> 00:04:56,050 las traducciones dentro de un vídeo 86 00:04:56,050 --> 00:04:58,810 y mucho más fácil buscar todos los vídeos 87 00:04:58,810 --> 00:04:59,769 dentro de los usuarios 88 00:04:59,769 --> 00:05:01,069 nos quitamos todos los problemas 89 00:05:01,069 --> 00:05:02,089 que nos daría la normalización 90 00:05:02,089 --> 00:05:05,209 y luego pues hemos usado Flask 91 00:05:05,209 --> 00:05:06,730 y una librería muy importante de Flask 92 00:05:06,730 --> 00:05:07,470 que sería RestX 93 00:05:07,470 --> 00:05:10,550 que Flask es para todo el tema de manejos 94 00:05:10,550 --> 00:05:13,370 de peticiones y todo esto 95 00:05:13,370 --> 00:05:14,829 pero es muy modular 96 00:05:14,829 --> 00:05:17,290 viene con nada, viene vacío, es básicamente express 97 00:05:17,290 --> 00:05:19,250 el equivalente, así que 98 00:05:19,250 --> 00:05:21,170 lo que vamos a implementar es esta línea 99 00:05:21,170 --> 00:05:23,110 de RESTX que nos trae 100 00:05:23,110 --> 00:05:25,089 un montón de temas de recursos 101 00:05:25,089 --> 00:05:26,649 de espacios de nombre 102 00:05:26,649 --> 00:05:29,449 que son por resumir controladores 103 00:05:29,449 --> 00:05:31,170 por así decirlo, y un montón 104 00:05:31,170 --> 00:05:32,910 de cosas para poder organizar bien más 105 00:05:32,910 --> 00:05:34,209 la arquitectura de una API 106 00:05:34,209 --> 00:05:36,649 bueno, pues la API tiene 107 00:05:36,649 --> 00:05:38,529 cuatro fases en el proceso de subir un vídeo 108 00:05:38,529 --> 00:05:40,589 el upload request que viene de antes 109 00:05:40,589 --> 00:05:43,170 la descarga del vídeo, la traducción 110 00:05:43,170 --> 00:05:45,069 y la respuesta, pues el upload request 111 00:05:45,069 --> 00:05:46,149 pues como he dicho antes 112 00:05:46,149 --> 00:05:49,250 el cliente va a decirle 113 00:05:49,250 --> 00:05:50,089 que quiere subir un vídeo 114 00:05:50,089 --> 00:05:52,970 el cliente 115 00:05:52,970 --> 00:05:55,310 y lo que va a hacer la API es buscar ese vídeo 116 00:05:55,310 --> 00:05:56,750 y si ese vídeo existe 117 00:05:56,750 --> 00:05:59,149 busca el vídeo en seco, el que no tiene 118 00:05:59,149 --> 00:06:00,730 subtítulos, se lo descarga 119 00:06:00,730 --> 00:06:03,329 y se lo descarga dentro de una carpeta temporal 120 00:06:03,329 --> 00:06:05,209 dentro de nuestra API tendremos una carpeta 121 00:06:05,209 --> 00:06:07,370 que es tmp y un id muy largo 122 00:06:07,370 --> 00:06:09,269 el idioma original y el idioma 123 00:06:09,269 --> 00:06:11,230 objetivo y dentro de esa carpeta 124 00:06:11,230 --> 00:06:12,370 se descargará 125 00:06:12,370 --> 00:06:14,149 el archivo de vídeo 126 00:06:14,149 --> 00:06:16,149 el que no tiene nada 127 00:06:16,149 --> 00:06:18,730 luego esa ruta de carpeta 128 00:06:18,730 --> 00:06:20,569 y ese archivo se le pasará al procesador 129 00:06:20,569 --> 00:06:21,889 y se le mandará el proceso 130 00:06:21,889 --> 00:06:24,829 se le mandará una respuesta al cliente 131 00:06:24,829 --> 00:06:25,810 para que no tenga timeouts 132 00:06:25,810 --> 00:06:30,240 pues en siguiente 133 00:06:30,240 --> 00:06:32,480 entramos a la parte 134 00:06:32,480 --> 00:06:35,980 pues en resumen también se puede 135 00:06:35,980 --> 00:06:36,980 dividir en cuatro 136 00:06:36,980 --> 00:06:39,120 partes, nos gustan cuatro 137 00:06:39,120 --> 00:06:41,939 bueno, primero se trabaja 138 00:06:41,939 --> 00:06:43,379 de separar el 139 00:06:43,379 --> 00:06:49,139 coger el vídeo que hemos descargado del proceso anterior, separar el vídeo, o sea, sacamos su audio como .wav 140 00:06:49,139 --> 00:06:55,540 y luego convertimos a texto con Whisper y traducirlo y ir guardando en un fichero Json. 141 00:06:56,199 --> 00:07:01,259 Y luego, cuando termina este proceso, convertir a Json a un fichero de subtítulo .srt. 142 00:07:01,680 --> 00:07:03,879 Al final sería fusionar este subtítulo con el vídeo. 143 00:07:05,879 --> 00:07:09,319 Y luego explicamos más detalles de cada parte. 144 00:07:09,319 --> 00:07:11,459 primero 145 00:07:11,459 --> 00:07:13,759 separar el vídeo y audio 146 00:07:13,759 --> 00:07:16,079 lo que hace es dos procesos 147 00:07:16,079 --> 00:07:17,699 una de separar el audio 148 00:07:17,699 --> 00:07:19,040 con Mobi2i 149 00:07:19,040 --> 00:07:21,819 que coge el vídeo 150 00:07:21,819 --> 00:07:25,180 y intenta sacar el audio 151 00:07:25,180 --> 00:07:26,800 y segundo 152 00:07:26,800 --> 00:07:28,720 que va a intentar reducir el ruido 153 00:07:28,720 --> 00:07:30,860 de ese audio 154 00:07:30,860 --> 00:07:33,100 y guardar 155 00:07:33,100 --> 00:07:34,459 en otra llamando 156 00:07:34,459 --> 00:07:36,740 a audio reducido 157 00:07:36,740 --> 00:07:43,959 y después de sacado el audio 158 00:07:43,959 --> 00:07:45,420 llegamos a convertir 159 00:07:45,420 --> 00:07:48,040 el texto y traducir 160 00:07:48,040 --> 00:07:49,639 pues aquí 161 00:07:49,639 --> 00:07:52,259 se trabaja con varias cosas 162 00:07:52,259 --> 00:07:53,879 primero, dividir 163 00:07:53,879 --> 00:07:54,519 el chunks 164 00:07:54,519 --> 00:07:58,019 lo llamo como un trozo de vídeo 165 00:07:58,019 --> 00:08:00,220 para repartir 166 00:08:00,220 --> 00:08:01,379 el trabajo, para luego 167 00:08:01,379 --> 00:08:02,920 el trabajo en paralelo 168 00:08:02,920 --> 00:08:04,680 en forma asíncrona 169 00:08:04,680 --> 00:08:06,139 y luego 170 00:08:06,139 --> 00:08:09,079 con chunks que se ha dividido 171 00:08:09,079 --> 00:08:15,019 pues pasamos a concurrent future que he usado para esta librería para trabajar el paralelo y 172 00:08:15,019 --> 00:08:21,240 aquí te va mostrando, esto es consola de nuestra API que va mostrando que dice que va a ejecutar 173 00:08:21,240 --> 00:08:28,220 por ejemplo tres procesos paralelos y cada proceso pues que es que se va a ir transcribiendo con 174 00:08:28,220 --> 00:08:35,240 Whisper, un proceso de transcribir realmente que tiene dos inteligentes artificiales, una es Whisper 175 00:08:35,240 --> 00:08:43,740 que convierte ese audio a texto y la otra es el buy and not speak diarization, eso es 176 00:08:43,740 --> 00:08:51,639 para anotar el hablante, para anotarlo al speaker y con la lista que hemos sacado con 177 00:08:51,639 --> 00:08:58,980 estas dos, al final sacamos un resultado final y con este resultado final pasamos a traducir 178 00:08:58,980 --> 00:09:09,909 y ir guardando en JSON. Después de haber terminado todos los procesos de IRO, que tiene 179 00:09:09,909 --> 00:09:15,830 un fichero JSON así guardado, eso va a ser un formato de ejemplo que tiene texto, texto 180 00:09:15,830 --> 00:09:21,590 traducido, tiempo de inicio, tiempo de final y quién está hablando. Y luego convertimos 181 00:09:21,590 --> 00:09:32,809 esta JSO a un fichero SRT que va a ser formado así. Y al final cogemos ese fichero SRT y 182 00:09:32,809 --> 00:09:41,289 fusionamos, o sea, juntamos con el vídeo y obtenemos el resultado final de un vídeo 183 00:09:41,289 --> 00:09:47,470 traducido, o sea, con subtítulo traducido añadido. Y bueno, pues ahora vamos a mostrar 184 00:09:47,470 --> 00:09:51,269 ¿Cómo se traduce un vídeo? ¿Desde un cliente Android o un cliente web? 185 00:09:53,009 --> 00:09:56,129 Pues desde un cliente Android 186 00:09:56,129 --> 00:09:59,250 Dime 187 00:09:59,250 --> 00:10:04,210 Ah sí, se olvidó añadir que una vez que termine el proceso de traducción 188 00:10:04,210 --> 00:10:05,309 Y se suba todo a Firebase 189 00:10:05,309 --> 00:10:06,649 Bueno, sería el de eso 190 00:10:06,649 --> 00:10:09,070 En parte de audio, se me ha olvidado 191 00:10:09,070 --> 00:10:13,509 Bueno, un hombre famoso, americano 192 00:10:13,509 --> 00:10:18,289 Eso es un audio así, separado, original 193 00:10:18,289 --> 00:10:19,590 no ha reducido el ruido 194 00:10:19,590 --> 00:10:24,769 que tiene como un poco 195 00:10:24,769 --> 00:10:26,029 el ruido de las brillas ahí y tal 196 00:10:26,029 --> 00:10:34,879 aquí es como más 197 00:10:34,879 --> 00:10:36,519 queda más limpio, se ha quitado 198 00:10:36,519 --> 00:10:38,820 el sonido ese de riendo o tal 199 00:10:38,820 --> 00:10:42,600 y ya está 200 00:10:42,600 --> 00:10:44,899 ah sí, y cabe recalcar que una vez que termina 201 00:10:44,899 --> 00:10:46,919 de hacer todo este proceso de traducción 202 00:10:46,919 --> 00:10:48,600 y subirlo a Firebase, este vídeo final 203 00:10:48,600 --> 00:10:50,960 todos los contenidos dentro de esa 204 00:10:50,960 --> 00:10:57,559 carpeta temporal se borran. Se borra absolutamente todo. Así que lo único que se va a quedar 205 00:10:57,559 --> 00:11:02,620 es lo que se haya subido a Firebase y lo que queden las bases de datos. Un poco más. 206 00:11:05,840 --> 00:11:14,190 Ahora, ¿para cómo funciona una traducción en un cliente Android? Aquí pues tenemos 207 00:11:14,190 --> 00:11:18,169 al cliente Android, pues habría que hacer un login. Aquí puede ser utilizado el usuario 208 00:11:18,169 --> 00:11:20,370 de test, test, el típico usuario 209 00:11:20,370 --> 00:11:22,169 y tras token que va generando 210 00:11:22,169 --> 00:11:23,649 y esto es lo que va a generar 211 00:11:23,649 --> 00:11:25,509 y esto es lo que va a generar 212 00:11:25,509 --> 00:11:28,090 por seguridad un JWT 213 00:11:28,090 --> 00:11:29,590 o sea un JSON Web Token 214 00:11:29,590 --> 00:11:31,730 en el que dentro de ese JSON Web Token 215 00:11:31,730 --> 00:11:33,950 tiene encriptado con una 216 00:11:33,950 --> 00:11:35,990 clave que tiene la API 217 00:11:35,990 --> 00:11:37,549 el email 218 00:11:37,549 --> 00:11:39,149 que ha hecho sesión 219 00:11:39,149 --> 00:11:41,169 la fecha de cuando ha hecho sesión 220 00:11:41,169 --> 00:11:42,929 y hasta cuanto dura el token 221 00:11:42,929 --> 00:11:45,509 y hace todas estas comprobaciones 222 00:11:45,509 --> 00:11:47,330 y mientras que hace cada petición 223 00:11:47,330 --> 00:11:50,149 pues va a permitirte 224 00:11:50,149 --> 00:11:50,710 recibir algo 225 00:11:50,710 --> 00:11:53,830 en el cliente o no 226 00:11:53,830 --> 00:11:55,450 o sea, si el token no es válido 227 00:11:55,450 --> 00:11:56,950 directamente no te va a mostrar nada 228 00:11:56,950 --> 00:11:59,230 en este caso no lo he mostrado 229 00:11:59,230 --> 00:11:59,529 pero 230 00:11:59,529 --> 00:12:03,370 en este caso 231 00:12:03,370 --> 00:12:05,330 voy a subir un vídeo, esto lo que hace es 232 00:12:05,330 --> 00:12:06,450 lanzar 233 00:12:06,450 --> 00:12:09,049 lo que va a hacer es 234 00:12:09,049 --> 00:12:10,450 primero se va a ver esta pantalla de aquí 235 00:12:10,450 --> 00:12:12,850 que tiene una serie de cartas con un montón 236 00:12:12,850 --> 00:12:14,149 de vídeos 237 00:12:14,149 --> 00:12:17,750 y se va a mostrar un textito 238 00:12:17,750 --> 00:12:19,649 de si está en proceso 239 00:12:19,649 --> 00:12:20,870 o de si está disponible 240 00:12:20,870 --> 00:12:22,750 o si está en error, pues pone que está en error 241 00:12:22,750 --> 00:12:24,190 si está en error va a tener que ser borrado 242 00:12:24,190 --> 00:12:27,210 se le da el botoncito 243 00:12:27,210 --> 00:12:29,210 que estaba aquí abajo a la derecha 244 00:12:29,210 --> 00:12:30,490 para lanzar una segunda actividad 245 00:12:30,490 --> 00:12:32,309 para poder subir un vídeo 246 00:12:32,309 --> 00:12:35,309 se hace un file picker 247 00:12:35,309 --> 00:12:36,169 para poder elegir un vídeo 248 00:12:36,169 --> 00:12:37,509 y en este caso yo he elegido este 249 00:12:37,509 --> 00:12:41,409 sale así porque el principio del vídeo 250 00:12:41,409 --> 00:12:42,070 es negro 251 00:12:42,070 --> 00:12:44,470 así que lo que va a hacer es coger el primer frame 252 00:12:44,470 --> 00:12:45,090 que tenga el vídeo 253 00:12:45,090 --> 00:12:48,029 con una librería que no me acuerdo el nombre ahora mismo 254 00:12:48,029 --> 00:12:50,250 pero va a coger el primer frame del vídeo 255 00:12:50,250 --> 00:12:52,070 y lo va a poner como una thumbnail para que se pueda ver 256 00:12:52,070 --> 00:12:54,149 que ese vídeo está subiendo, porque no querrías 257 00:12:54,149 --> 00:12:56,289 poner un vídeo para un proceso de media hora 258 00:12:56,289 --> 00:12:57,009 sería horrible 259 00:12:57,009 --> 00:12:59,090 luego le pones un título 260 00:12:59,090 --> 00:13:02,250 le pones un título, que en este caso le he puesto 261 00:13:02,250 --> 00:13:03,769 Kuzgesart 262 00:13:03,769 --> 00:13:05,429 que es el canal de Youtube 263 00:13:05,429 --> 00:13:07,289 el canal de Youtube del vídeo 264 00:13:07,289 --> 00:13:08,690 si lo hago bien 265 00:13:08,690 --> 00:13:11,570 y luego cuando le das al botón 266 00:13:11,570 --> 00:13:17,370 Salen unos drop-down menus que te dan a elegir el idioma original del vídeo, 267 00:13:17,470 --> 00:13:20,009 que tienes que especificarlo porque si no te va a dar mal la traducción 268 00:13:20,009 --> 00:13:22,889 y no se puede autodetectar. 269 00:13:23,350 --> 00:13:27,710 O si se puede, lo que pasa es que triplicaría el tiempo de proceso 270 00:13:27,710 --> 00:13:31,309 y por simplificar el proceso es mejor decir cuál es el idioma original y ya está. 271 00:13:32,009 --> 00:13:35,429 Y luego el idioma objetivo, que en este caso lo he puesto en español. 272 00:13:35,429 --> 00:13:38,230 El idioma original es inglés y el vídeo traducir es español. 273 00:13:38,230 --> 00:13:40,529 una vez que le da a este botón de upload file 274 00:13:40,529 --> 00:13:42,350 va a llamar a request 275 00:13:42,350 --> 00:13:44,250 esto lo he editado porque el proceso en realidad 276 00:13:44,250 --> 00:13:46,389 dura entero media hora, es un proceso 277 00:13:46,389 --> 00:13:48,409 muy largo, pero lo que va a hacer 278 00:13:48,409 --> 00:13:48,710 es 279 00:13:48,710 --> 00:13:52,190 hacer este pre-request 280 00:13:52,190 --> 00:13:53,950 le dirá, vale bien, el vídeo está bien 281 00:13:53,950 --> 00:13:55,950 el cliente lo subirá a Firebase 282 00:13:55,950 --> 00:13:58,490 mostrará este texto una vez que ya está subido 283 00:13:58,490 --> 00:14:00,509 y va a llamar 284 00:14:00,509 --> 00:14:01,370 a este upload 285 00:14:01,370 --> 00:14:03,750 que es para traducir el vídeo como tal 286 00:14:03,750 --> 00:14:06,190 y ya pues el cliente 287 00:14:06,190 --> 00:14:07,070 se está descargando el vídeo 288 00:14:07,070 --> 00:14:10,129 si el cliente está descargando el vídeo 289 00:14:10,129 --> 00:14:11,070 y 290 00:14:11,070 --> 00:14:14,450 por simplificar 291 00:14:14,450 --> 00:14:15,809 pues esto también lo he citado 292 00:14:15,809 --> 00:14:18,710 pues una vez que te vayas 293 00:14:18,710 --> 00:14:19,049 al 294 00:14:19,049 --> 00:14:22,330 ya puedes salir del activity y ya vas a ver 295 00:14:22,330 --> 00:14:23,970 que el vídeo está en proceso 296 00:14:23,970 --> 00:14:25,990 una vez el vídeo está en proceso 297 00:14:25,990 --> 00:14:26,990 pues va 298 00:14:26,990 --> 00:14:28,789 a seguir sacando el resultado 299 00:14:28,789 --> 00:14:30,470 y el proceso está 300 00:14:30,470 --> 00:14:32,789 exacto, la consola va 301 00:14:32,789 --> 00:14:34,289 a mostrar ahora mismo que está 302 00:14:34,289 --> 00:14:35,850 es que no se ve ahora mismo pero está 303 00:14:35,850 --> 00:14:38,750 utilizando uno de Torch 304 00:14:38,750 --> 00:14:39,690 que es el de 305 00:14:39,690 --> 00:14:41,750 poder transcribir el texto 306 00:14:41,750 --> 00:14:43,370 el audio a texto 307 00:14:43,370 --> 00:14:44,970 y para poder 308 00:14:44,970 --> 00:14:47,370 diferenciarlos 309 00:14:47,370 --> 00:14:48,950 la persona que está hablando 310 00:14:48,950 --> 00:14:51,009 este es el proceso que se está sacando aquí 311 00:14:51,009 --> 00:14:53,470 que dura 10 minutos, alrededor de 10-15 minutos 312 00:14:53,470 --> 00:14:54,429 dependiendo de la longitud del vídeo 313 00:14:54,429 --> 00:14:58,509 y a partir de ahí 314 00:14:58,509 --> 00:15:00,230 lo que va a hacer es 315 00:15:00,230 --> 00:15:03,830 generarte un Json gigantesco 316 00:15:03,830 --> 00:15:05,789 con todo lo que contiene el vídeo 317 00:15:05,789 --> 00:15:09,490 y luego de SJSON 318 00:15:09,490 --> 00:15:11,029 se va a traducir 319 00:15:11,029 --> 00:15:12,330 usando la API de DPL 320 00:15:12,330 --> 00:15:15,049 esta parte se da un resultado 321 00:15:15,049 --> 00:15:16,570 que se ha sacado con Whisper 322 00:15:16,570 --> 00:15:18,789 que es una lista que tiene 323 00:15:18,789 --> 00:15:20,730 toda la información 324 00:15:20,730 --> 00:15:22,509 posible información con tiempo 325 00:15:22,509 --> 00:15:23,809 el texto de cada 326 00:15:23,809 --> 00:15:25,870 que han sacado 327 00:15:25,870 --> 00:15:28,470 tenemos que hacer algún proceso 328 00:15:28,470 --> 00:15:28,929 para 329 00:15:28,929 --> 00:15:32,490 coger la cadena bien 330 00:15:32,490 --> 00:15:34,370 cadena texto 331 00:15:34,370 --> 00:15:37,250 o sea como que sale 332 00:15:37,250 --> 00:15:38,789 cada palabra y palabra 333 00:15:38,789 --> 00:15:41,429 tenemos que juntarlo a como cadena de texto 334 00:15:41,429 --> 00:15:43,289 y pasarlo a 335 00:15:43,289 --> 00:15:44,850 cada cadena 336 00:15:44,850 --> 00:15:47,230 y ir pasando al DPL a la traducción 337 00:15:47,230 --> 00:15:51,039 y esto va a sacar 338 00:15:51,039 --> 00:15:52,399 cada cadena, cada cadena 339 00:15:52,399 --> 00:15:55,299 y luego pues esto lo he hecho para poder mostrar más o menos 340 00:15:55,299 --> 00:15:56,200 el proceso 341 00:15:56,200 --> 00:15:57,960 ¿qué qué? 342 00:15:58,320 --> 00:15:59,320 15 minutos 343 00:15:59,320 --> 00:16:03,059 pues luego pues 344 00:16:03,059 --> 00:16:04,899 para ver el proceso y demostrar 345 00:16:04,899 --> 00:16:06,620 el contenido de esta carpeta temporal 346 00:16:06,620 --> 00:16:08,100 que lo que ha hecho es crear una instancia de Docker 347 00:16:08,100 --> 00:16:10,379 y en esta instancia de Docker he linkado la carpeta temporal 348 00:16:10,379 --> 00:16:12,539 a la carpeta temporal dentro de la API en Docker 349 00:16:12,539 --> 00:16:15,139 y aquí se puede ver 350 00:16:15,139 --> 00:16:15,779 el proceso 351 00:16:15,779 --> 00:16:18,059 el proceso del vídeo original 352 00:16:18,059 --> 00:16:20,559 luego cómo pasa el extra del audio 353 00:16:20,559 --> 00:16:21,759 luego cómo se reduce el audio 354 00:16:21,759 --> 00:16:23,419 luego cómo lo divide en chunks 355 00:16:23,419 --> 00:16:24,919 luego cómo le saca json 356 00:16:24,919 --> 00:16:27,059 y a partir de ahí 357 00:16:27,059 --> 00:16:29,320 voy traduciendo 358 00:16:29,320 --> 00:16:32,740 hasta que 359 00:16:32,740 --> 00:16:34,399 llega a terminar 360 00:16:34,399 --> 00:16:45,539 eliminar el archivo SRT y ahí estaba escribiendo el vídeo final juntando el SRT que había generado y el vídeo 361 00:16:45,539 --> 00:16:50,799 y los está juntando, que esto también es un proceso que dura mucho, que este proceso en realidad dura muchísimo más 362 00:16:50,799 --> 00:16:55,259 de lo que pone aquí, o sea, dura mucho más de lo que pone aquí. Ahora va a estar en 1% pero va a saltar porque está editado. 363 00:16:55,259 --> 00:16:58,259 y luego pues va a subir 364 00:16:58,259 --> 00:17:00,899 va a subir el vídeo 365 00:17:00,899 --> 00:17:02,639 a esta URI dentro de Firebase 366 00:17:02,639 --> 00:17:04,539 la de RAW vídeos y todo este 367 00:17:04,539 --> 00:17:08,079 y termina la carpeta temporal 368 00:17:08,079 --> 00:17:11,359 y como podéis ver 369 00:17:11,359 --> 00:17:12,500 si hago un ls 370 00:17:12,500 --> 00:17:14,279 intentando ver la carpeta otra vez 371 00:17:14,279 --> 00:17:16,000 no existe la carpeta porque ha sido borrada 372 00:17:16,000 --> 00:17:18,640 y luego cuando recargo 373 00:17:18,640 --> 00:17:19,980 la página, cuando recargo 374 00:17:19,980 --> 00:17:22,039 la aplicación de Android 375 00:17:22,039 --> 00:17:24,700 aquí sale disponible 376 00:17:24,700 --> 00:17:26,900 para poder 377 00:17:26,900 --> 00:17:28,779 verse, se le da aquí 378 00:17:28,779 --> 00:17:32,039 y ahí sale 379 00:17:32,039 --> 00:17:34,279 no se puede ver porque está pequeñito 380 00:17:34,279 --> 00:17:36,799 pero ahí salen los subtítulos 381 00:17:36,799 --> 00:17:38,299 en español 382 00:17:38,299 --> 00:17:42,529 y el proceso es similar 383 00:17:42,529 --> 00:17:43,410 en web 384 00:17:43,410 --> 00:17:45,769 si queréis 385 00:17:45,769 --> 00:17:47,170 os lo mostramos 386 00:17:47,170 --> 00:17:49,589 si da tiempo 387 00:17:49,589 --> 00:17:51,269 es básicamente 388 00:17:51,269 --> 00:17:59,700 es básicamente lo mismo 389 00:17:59,700 --> 00:18:00,559 esa es la calidad 390 00:18:00,559 --> 00:18:03,019 solo por dos 391 00:18:03,019 --> 00:18:10,019 Sería lo mismo, pero solo he cambiado un poco la interfaz, porque he hecho con redact, 392 00:18:10,019 --> 00:18:13,019 javascript y la diseño he hecho con bootstrap. 393 00:18:13,019 --> 00:18:25,049 Aquí primero se piden como lo de un prerequest, que es idioma original y tal. 394 00:18:25,049 --> 00:18:29,049 Eso ya ha llegado al segundo, sería request, subir vídeo y tal. 395 00:18:29,049 --> 00:18:34,049 Eso es un parado de proceso, lo que he contado de usef y de esa. 396 00:18:34,049 --> 00:18:37,650 al final no he conseguido la solución 397 00:18:37,650 --> 00:18:47,970 y creo que en esa versión he comentado 398 00:18:47,970 --> 00:18:50,470 y aquí ya tiene, bueno, aquí se ve mejor 399 00:18:50,470 --> 00:18:55,680 como veis que el vídeo que ya tiene como un subtítulo 400 00:18:55,680 --> 00:19:05,200 y ya está 401 00:19:05,200 --> 00:19:10,200 vale, el tiempo lo habéis, lo habéis, por tiempo de 402 00:19:10,200 --> 00:19:14,299 que queréis, la pista, el vídeo que queréis traducir 403 00:19:14,299 --> 00:19:17,259 ¿Los tiempos? ¿Habéis hecho una tabla de tiempos? 404 00:19:17,619 --> 00:19:18,579 Lo hemos intentado. 405 00:19:19,980 --> 00:19:25,099 No hemos hecho una tabla como tal, pero hemos hecho varios de un minuto, dos minutos, cinco minutos. 406 00:19:25,819 --> 00:19:26,720 O sea, de diez minutos. 407 00:19:27,900 --> 00:19:32,000 Sí, la relación es por la cantidad de palabras dentro del vídeo, no es por la duración del vídeo. 408 00:19:32,460 --> 00:19:34,980 Claro, porque podrías tener un vídeo entero de... 409 00:19:34,980 --> 00:19:37,859 Porque eso lo he probado yo también, un vídeo entero de Pedro Sánchez con aplausos. 410 00:19:38,599 --> 00:19:43,940 Sí, porque son diez segundos de vídeo hablando, pero otros 50 segundos de vídeo aplaudiendo. 411 00:19:43,940 --> 00:19:46,259 Y como podréis pensar, pues no tarda nada. 412 00:19:46,519 --> 00:19:49,680 O sea, tardó 10 minutos en traducirlo. 413 00:19:55,769 --> 00:20:01,130 Y luego separáis la parte de audio en formato WAV. 414 00:20:01,869 --> 00:20:02,069 Sí. 415 00:20:02,650 --> 00:20:06,750 Porque eso no podéis convertirlo a MP3. 416 00:20:07,170 --> 00:20:11,089 Sí, se puede convertir a MP3, pero por evitarnos temas de pérdidas de datos 417 00:20:11,089 --> 00:20:13,529 o pérdida de calidad o lo que sea cuando se reduzca el audio, 418 00:20:13,930 --> 00:20:15,829 teníamos miedo, así que utilizamos WAV, 419 00:20:15,829 --> 00:20:19,750 porque es en donde mejor se consigue el audio. 420 00:20:20,190 --> 00:20:21,950 Claro, pero ¿por qué se tarda más? 421 00:20:22,410 --> 00:20:25,170 Se tarda más, pero no era un cambio considerable. 422 00:20:25,349 --> 00:20:29,089 De hecho, en hacer el web tarda en total creo que medio segundo. 423 00:20:29,349 --> 00:20:29,890 O sea, no tarda nada. 424 00:20:29,910 --> 00:20:31,230 ¿En hacer el web se tiene que anotar? 425 00:20:31,470 --> 00:20:32,309 No, de hecho no se anota. 426 00:20:32,809 --> 00:20:36,609 De hecho, lanzas la petición, tarda un segundo y ya tienes el audio hecho. 427 00:20:37,130 --> 00:20:37,670 En principio... 428 00:20:37,670 --> 00:20:40,910 Lo que tarda es en hacer las llamadas de APIs, 429 00:20:41,269 --> 00:20:43,970 transcribir el vídeo, traducirlo, 430 00:20:43,970 --> 00:20:45,329 Reinsertar 431 00:20:45,329 --> 00:20:47,829 Pasarlo a subtítulos 432 00:20:47,829 --> 00:20:49,089 Reinsertarlo a vídeo 433 00:20:49,089 --> 00:20:50,430 Esos son los cinco procesos que tardan 434 00:20:50,430 --> 00:20:53,390 Pero el de pasarlo a WAV 435 00:20:53,390 --> 00:20:54,910 Y reducir el audio, tarda cero 436 00:20:54,910 --> 00:20:55,609 No tarda nada 437 00:20:55,609 --> 00:20:58,789 O sea, en principio hemos hecho una versión con MP3 también 438 00:20:58,789 --> 00:21:00,970 Pero la calidad de traducción así 439 00:21:00,970 --> 00:21:02,589 Para decirlo, que no sale muy bien 440 00:21:02,589 --> 00:21:05,250 Y para hacer esa balance 441 00:21:05,250 --> 00:21:07,349 Entre como la calidad 442 00:21:07,349 --> 00:21:08,230 Y la velocidad 443 00:21:08,230 --> 00:21:10,490 Cogemos a WAV, sobre todo 444 00:21:10,490 --> 00:21:13,650 Vale, y luego lo que comentabais 445 00:21:13,650 --> 00:21:15,049 Esto ya es por curiosidad. 446 00:21:15,789 --> 00:21:18,390 ¿El contenedor del Docker y eso lo habéis conseguido? 447 00:21:18,789 --> 00:21:19,329 Sí, de hecho. 448 00:21:20,329 --> 00:21:21,869 Esto está hecho con el contenedor del Docker. 449 00:21:22,470 --> 00:21:22,910 Muy bien. 450 00:21:23,990 --> 00:21:24,750 Pues muy bien, nada. 451 00:21:24,910 --> 00:21:25,690 Yo felicitaros. 452 00:21:26,789 --> 00:21:29,410 El proyecto me ha parecido interesante, me parece bien 453 00:21:29,410 --> 00:21:32,170 y además la exposición me parece que la habéis hecho muy bien. 454 00:21:32,569 --> 00:21:33,529 Así que yo felicitaros. 455 00:21:39,440 --> 00:21:41,599 Yo ayer lo dije a Mayo 456 00:21:41,599 --> 00:21:42,680 pero quería hablar con Fernando 457 00:21:42,680 --> 00:21:44,559 que con eso me va bien. 458 00:21:44,559 --> 00:21:46,880 si tienes luego enseñamos un vídeo 459 00:21:46,880 --> 00:21:47,740 con enteros así 460 00:21:47,740 --> 00:21:51,240 lo que es que he visto que tenéis problemas con la codificación 461 00:21:51,240 --> 00:21:52,880 los acentos y todo eso 462 00:21:52,880 --> 00:21:54,579 sí, pero eso es por el tema 463 00:21:54,579 --> 00:21:56,980 de la traducción que DeepL 464 00:21:56,980 --> 00:21:58,500 algunos caracteres no funcionan 465 00:21:58,500 --> 00:22:00,720 de hecho con japonés algunas veces daba problemas 466 00:22:00,720 --> 00:22:02,799 por ejemplo, si te hacía la traducción en japonés 467 00:22:02,799 --> 00:22:03,740 te tiraba el vídeo y daba error 468 00:22:03,740 --> 00:22:05,900 porque simplemente por la codificación en ese retenido 469 00:22:05,900 --> 00:22:08,960 así que por eso nos hemos abstraído de hacer vídeos en chino y en japonés 470 00:22:08,960 --> 00:22:11,160 también es por el tema 471 00:22:11,160 --> 00:22:14,529 si consideramos bien 472 00:22:14,529 --> 00:22:17,150 al final creo que tengo una lista 473 00:22:17,150 --> 00:22:18,769 de idioma y su encoding 474 00:22:18,769 --> 00:22:20,690 pero creo que no he conseguido 475 00:22:20,690 --> 00:22:21,710 un completo 476 00:22:21,710 --> 00:22:25,450 encoding correspondiente 477 00:22:25,450 --> 00:22:27,170 con idioma, si llego a completar 478 00:22:27,170 --> 00:22:28,970 esa tabla, a lo mejor 479 00:22:28,970 --> 00:22:31,430 el resultado sale más bonito 480 00:22:31,430 --> 00:22:33,009 otro problema que también tenía Docker 481 00:22:33,009 --> 00:22:34,869 era que para el tema de los subtítulos 482 00:22:34,869 --> 00:22:37,029 por eso a veces que los caracteres son raros 483 00:22:37,029 --> 00:22:38,690 en MoviePy 484 00:22:38,690 --> 00:22:40,410 para hacer los subtítulos usa Arial 485 00:22:40,410 --> 00:22:42,750 y Arial es de Windows, así que 486 00:22:42,750 --> 00:22:45,289 Arial no te viene una imagen de Ubuntu 487 00:22:45,289 --> 00:22:47,349 clásica, así que si podéis ver 488 00:22:47,349 --> 00:22:49,210 si veis en la memoria 489 00:22:49,210 --> 00:22:51,289 o donde sea, vais a poder en una parte 490 00:22:51,289 --> 00:22:53,269 del Docker, que me descargo las fuentes 491 00:22:53,269 --> 00:22:55,190 de Arial, tengo que hacer unos cambios 492 00:22:55,190 --> 00:22:56,130 en 493 00:22:56,130 --> 00:22:59,349 ImageMagick para que funcione bien el tema 494 00:22:59,349 --> 00:23:01,470 de fuentes, extraigo 495 00:23:01,470 --> 00:23:03,470 todo y pongo todos esos archivos 496 00:23:03,470 --> 00:23:05,170 de fuentes 497 00:23:05,170 --> 00:23:07,130 dentro de los archivos de fuentes de Ubuntu 498 00:23:07,130 --> 00:23:08,670 pero eso lo tenía que hacer porque 499 00:23:08,670 --> 00:23:11,309 MoviePy me lo estaba tirando, me estaba tirando por la fuente 500 00:23:11,309 --> 00:23:12,990 de Arial y por eso 501 00:23:12,990 --> 00:23:14,890 algunos caracteres también no salen 502 00:23:14,890 --> 00:23:15,990 pero sí 503 00:23:15,990 --> 00:23:26,880 lo que estamos guardando en la base de datos 504 00:23:26,880 --> 00:23:28,319 es del usuario 505 00:23:28,319 --> 00:23:31,279 su username, su email 506 00:23:31,279 --> 00:23:32,500 y los vídeos 507 00:23:32,500 --> 00:23:34,000 una 508 00:23:34,000 --> 00:23:36,099 ah sí, claro, esto no lo he mencionado 509 00:23:36,099 --> 00:23:38,559 su contraseña, pero su contraseña 510 00:23:38,559 --> 00:23:40,680 encriptada con un salt 511 00:23:40,680 --> 00:23:42,680 o sea, porque por todo el tema 512 00:23:42,680 --> 00:23:44,200 del salt and pepper 513 00:23:44,200 --> 00:23:45,880 lo hasheamos con salt 514 00:23:45,880 --> 00:23:47,259 y también guardamos el salt 515 00:23:47,259 --> 00:23:50,420 luego dentro de los vídeos 516 00:23:50,420 --> 00:23:51,660 y dentro de los vídeos guardamos 517 00:23:51,660 --> 00:23:54,319 el idioma original y la ruta que tiene 518 00:23:54,319 --> 00:23:55,319 dentro de Firebase 519 00:23:55,319 --> 00:23:57,720 y luego ese vídeo también tendrá sus traducciones 520 00:23:57,720 --> 00:23:59,019 y las traducciones guardamos 521 00:23:59,019 --> 00:24:01,079 la idea de la traducción 522 00:24:01,079 --> 00:24:04,519 la ruta de Firebase y no sé qué más 523 00:24:04,519 --> 00:24:05,660 creo que eso y ya está 524 00:24:05,660 --> 00:24:11,230 con el texto de la traducción 525 00:24:11,230 --> 00:24:12,549 no, lo borramos 526 00:24:12,549 --> 00:24:15,849 intentamos hacer en un principio 527 00:24:15,849 --> 00:24:17,769 el tema de en vez de hacer un vídeo 528 00:24:17,769 --> 00:24:19,390 completo y irlo guardando en Firebase 529 00:24:19,390 --> 00:24:21,210 guardar los SRTs 530 00:24:21,210 --> 00:24:23,470 y luego esos SRTs 531 00:24:23,470 --> 00:24:24,750 incrustarlos en el vídeo 532 00:24:24,750 --> 00:24:26,769 junto al streaming de Firebase 533 00:24:26,769 --> 00:24:27,890 pero 534 00:24:27,890 --> 00:24:31,190 sencillamente no se podía porque en la aplicación de web 535 00:24:31,190 --> 00:24:32,990 sí se puede, pero en la de Android 536 00:24:32,990 --> 00:24:35,029 en ExoPlayer no hay documentación 537 00:24:35,029 --> 00:24:36,589 acerca de cómo poner subtítulos SRT 538 00:24:36,589 --> 00:24:38,910 dentro de ExoPlayer, lo busqué 539 00:24:38,910 --> 00:24:41,230 no lo encontré y teníamos que avanzar 540 00:24:41,230 --> 00:24:42,809 de alguna manera, así que 541 00:24:42,809 --> 00:24:44,890 avanzamos con esta y si daba tiempo 542 00:24:44,890 --> 00:24:47,130 íbamos a usar los SRTs, como no dio tiempo 543 00:24:47,130 --> 00:24:49,130 pues incrustamos 544 00:24:49,130 --> 00:24:49,930 los subtítulos y ya está. 545 00:24:50,450 --> 00:24:52,410 La idea principal, hemos decidido 546 00:24:52,410 --> 00:24:56,990 que ir saliendo en tiempo real 547 00:24:56,990 --> 00:24:58,549 pero es 548 00:24:58,549 --> 00:25:00,829 otra dificultad de hacerlo, pues 549 00:25:00,829 --> 00:25:02,849 hemos decidido procesar un vídeo entero y añadir 550 00:25:02,849 --> 00:25:04,269 un subtítulo y sacamos el vídeo así. 551 00:25:05,089 --> 00:25:06,490 El problema en general fue ExoPlayer, 552 00:25:06,670 --> 00:25:08,250 que es la librería de 553 00:25:08,250 --> 00:25:10,589 mostrar vídeos de Android. 554 00:25:11,029 --> 00:25:12,809 No, yo decía, ya que tenéis 555 00:25:12,809 --> 00:25:16,279 el texto y los vídeos y todo eso, 556 00:25:17,180 --> 00:25:18,579 tenéis ahí un cañón 557 00:25:18,579 --> 00:25:19,720 de bases de datos 558 00:25:19,720 --> 00:25:21,400 con textos de vídeos, 559 00:25:21,400 --> 00:25:26,079 que luego os va a permitir hacer búsquedas 560 00:25:26,079 --> 00:25:29,299 a partir de determinadas expresiones 561 00:25:29,299 --> 00:25:31,420 en qué vídeos aparecen, en qué contextos 562 00:25:31,420 --> 00:25:33,099 Podríamos haberlo intentado 563 00:25:33,099 --> 00:25:42,279 Podríamos haberlo intentado 564 00:25:42,279 --> 00:25:44,200 y de hecho también queríamos implementar un tema de tags 565 00:25:44,200 --> 00:25:46,380 para que cada vídeo tuviese su tag, por ejemplo 566 00:25:46,380 --> 00:25:50,819 y se pudiera organizar de alguna manera 567 00:25:50,819 --> 00:25:52,779 pero no tuvimos tiempo sencillamente 568 00:25:52,779 --> 00:25:54,640 porque ambos estuvimos arreglando 569 00:25:54,640 --> 00:25:56,019 un poco el tema del procesador de vídeo 570 00:25:56,019 --> 00:25:57,779 porque estaban demasiados problemas 571 00:25:57,779 --> 00:25:59,960 estaban problemas de que se hacía fácil 572 00:25:59,960 --> 00:26:02,779 porque esas librerías están dispensadas 573 00:26:02,779 --> 00:26:04,059 para ser usadas con una GPU 574 00:26:04,059 --> 00:26:05,980 como estábamos usando AWS 575 00:26:05,980 --> 00:26:09,279 en Academy 576 00:26:09,279 --> 00:26:10,940 no tenemos uso de GPUs 577 00:26:10,940 --> 00:26:12,339 así que tuvimos que maquinar la idea 578 00:26:12,339 --> 00:26:14,519 o sea maquinarnos para poder utilizar 579 00:26:14,519 --> 00:26:15,880 solo procesador y que no petara 580 00:26:15,880 --> 00:26:18,059 así que tuvimos que optimizar en eso 581 00:26:18,059 --> 00:26:20,140 queríamos haber expandido más pero es que no tuvimos tiempo 582 00:26:20,140 --> 00:26:21,819 creo que llevamos una semana entera 583 00:26:21,819 --> 00:26:23,039 para solamente hacer el docker 584 00:26:23,039 --> 00:26:24,960 exacto, o sea una semana y media quizá 585 00:26:24,960 --> 00:26:27,579 y luego tuve que añadir librerías de C++ 586 00:26:27,579 --> 00:26:28,380 dentro del docker 587 00:26:28,380 --> 00:26:33,200 estaría guay 588 00:26:33,200 --> 00:26:34,720 y el 589 00:26:34,720 --> 00:26:39,900 cuando hacéis 590 00:26:39,900 --> 00:26:41,559 cuando partís el audio 591 00:26:41,559 --> 00:26:43,359 para poder trabajar de forma 592 00:26:43,359 --> 00:26:45,640 ¿cómo calculáis? 593 00:26:46,140 --> 00:26:46,619 ¿cómo se llama? 594 00:26:47,160 --> 00:26:47,880 chunk 595 00:26:47,880 --> 00:26:50,799 eso es 596 00:26:50,799 --> 00:26:53,480 preguntar unas semanas 597 00:26:53,480 --> 00:26:56,480 ha sido como dividimos el tamaño 598 00:26:56,480 --> 00:27:01,779 la pregunta va por si optimizas de alguna manera 599 00:27:01,779 --> 00:27:02,680 eso que habéis dicho 600 00:27:02,680 --> 00:27:04,980 hay trozos o vídeos que 601 00:27:04,980 --> 00:27:09,599 no tienen tanto el personaje hablando 602 00:27:09,599 --> 00:27:11,859 y entonces ese se hace muy rápido 603 00:27:11,859 --> 00:27:13,700 entonces eso de alguna manera 604 00:27:13,700 --> 00:27:14,980 lo contempláis o no 605 00:27:14,980 --> 00:27:16,759 o directamente lo habéis dividido 606 00:27:16,759 --> 00:27:18,960 lo que he hecho es 607 00:27:18,960 --> 00:27:20,460 hay un librería 608 00:27:20,460 --> 00:27:24,319 Ahora no me acuerdo el nombre 609 00:27:24,319 --> 00:27:25,980 Pero se detecta el silencio 610 00:27:25,980 --> 00:27:28,039 O sea, ahí he configurado 611 00:27:28,039 --> 00:27:29,400 Por ejemplo, si se corta 612 00:27:29,400 --> 00:27:32,599 En principio sería como un silencio de 5 segundos 613 00:27:32,599 --> 00:27:34,559 Si detecta un silencio de 5 segundos 614 00:27:34,559 --> 00:27:35,200 Se corta ahí 615 00:27:35,200 --> 00:27:36,619 Y ahí hace un chon 616 00:27:36,619 --> 00:27:38,819 Y si detecta siguiente, hace un chon 617 00:27:38,819 --> 00:27:41,359 Y luego, en vez de 5 minutos 618 00:27:41,359 --> 00:27:42,960 He puesto, en vez de como dinámica 619 00:27:42,960 --> 00:27:44,160 Algumente como 5 minutos 620 00:27:44,160 --> 00:27:46,759 He puesto como, si no detecta un silencio de 5 minutos 621 00:27:46,759 --> 00:27:49,000 Pues baja a 4,5 622 00:27:49,000 --> 00:27:50,119 A 3 623 00:27:50,119 --> 00:27:51,980 a tres y medio hasta que 624 00:27:51,980 --> 00:27:54,380 hacer trozos de vídeo 625 00:27:54,380 --> 00:27:56,339 y si no encuentran ninguna 626 00:27:56,339 --> 00:27:58,079 pues se sale como un aviso diciendo 627 00:27:58,079 --> 00:28:00,019 que no se puede dividir el trozo 628 00:28:00,019 --> 00:28:01,980 se va a producir vídeo entero 629 00:28:01,980 --> 00:28:04,119 Una última cosa 630 00:28:04,119 --> 00:28:05,660 esto es pura curiosidad 631 00:28:05,660 --> 00:28:07,400 ¿Habéis probado con canciones? 632 00:28:08,900 --> 00:28:09,420 ¿Canciones? 633 00:28:10,420 --> 00:28:10,660 No 634 00:28:10,660 --> 00:28:13,559 Es una buena idea 635 00:28:13,559 --> 00:28:15,940 y posiblemente funcionaría 636 00:28:15,940 --> 00:28:17,079 pero no, no la he probado 637 00:28:17,079 --> 00:28:25,380 Pero también le digo que la librería que he usado para bajar el ruido no es muy inteligente. 638 00:28:29,640 --> 00:28:30,279 Muchas gracias.