1 00:00:00,000 --> 00:00:11,760 Hoy vamos a configurar el SLURM, que serían ejercicios de SLURM, fijaros que tenéis que 2 00:00:11,760 --> 00:00:23,520 tener dos computes, dos nodos, que ayer los configuramos, los dos nodos con anís, iniciamos 3 00:00:23,520 --> 00:00:43,240 sin pantalla como siempre, nos conectamos con el MOBA, compute 0 y vamos a ver otro 4 00:00:43,240 --> 00:00:55,760 compute aquí, vale, ya está con el compute 0 yo creo que vamos a empezar con él, perfecto 5 00:00:55,760 --> 00:01:02,640 pues empezamos, dice aquí, lo primero que tenemos que hacer es instalar en el servidor 6 00:01:02,640 --> 00:01:18,640 0.0.0 que exporta a todos los usuarios el SLURM, el sistema de colas, voy a ponerlo un poco más bajo, hacemos apt-update 7 00:01:32,640 --> 00:01:57,640 y instalamos el SLURM, Moongate es para autentificar las credenciales, lo que vamos a hacer con Moongate es 8 00:01:57,640 --> 00:02:08,640 autentificar los nodos en el servidor, por eso tenemos que exportar y importar las claves, vamos a ver si se ha instalado, si se ha instalado 9 00:02:08,640 --> 00:02:22,640 no hace falta instalarlo, efectivamente se ha instalado, el mismo tiene la clave y vamos al archivo, vamos a buscar el archivo del Demonio SLURM 10 00:02:22,640 --> 00:02:41,640 de configuración, fijaros que está en, suele estar aquí, control c, copiar, bien, está, lo veis ahí ¿no? 11 00:02:41,640 --> 00:02:55,640 es este, lo que pasa es que para verlo, lo que vamos a hacer es un servidor con Python, un servidor web con Python, supongo que habéis dado el Apache ¿no? 12 00:02:55,640 --> 00:03:08,640 vale, bueno pues en Python se puede hacer un servidor web muy fácilmente que simplemente le ejecutamos http serve y ya está, ya tenemos nuestra página web 13 00:03:08,640 --> 00:03:20,640 ¿Cómo accedemos a nuestra página web? Pues como se acceden a todas las páginas web, buscamos la IP, nuestra IP sería la 10.4.104.100, bueno en vuestro caso la que sea 14 00:03:20,640 --> 00:03:40,640 si tenéis un portátil la dinámica, bien y ya está y seguimos con, dice, vamos al LUME configurator, aquí estaríamos, dice cambiamos el nombre del servidor 15 00:03:40,640 --> 00:03:59,640 voy a poner esto así ahora para verlo a la vez, dice ponemos donde pone el servidor por compute00, pues ponemos cluster name compute00, lo que va a hacer esto es escribir un archivo de configuración 16 00:03:59,640 --> 00:04:17,640 para que nos sea más fácil, ponemos el slurp host, ahí va muy equivocado, cluster name, no el cluster name no es lo que tiene que haber cambiado, es el slurp host, en el cluster name lo podemos 17 00:04:17,640 --> 00:04:37,640 voy a poner el nombre del cluster que en nuestro caso voy a ponerle por ejemplo ¿Qué clase somos? Voy a poner así y ya está, muy bien 18 00:04:37,640 --> 00:05:01,640 vamos a poner un nombre del nodo, node name, en proc type seleccionamos, hay un montón de cosas que seleccionar, esto es lo básico para que funcione, le vamos a decir linux procs 19 00:05:01,640 --> 00:05:27,640 y luego dice cuando termines haz un submit, vamos abajo del todo y hacemos submit, este archivo lo tenemos que copiar, a ver, copiamos 20 00:05:32,640 --> 00:05:52,640 bin etc slurp.conf y lo pegamos aquí, todavía tenemos que hacer un poco más de cambios, que es el slurp user, pues lo hacemos, lo buscamos 21 00:05:52,640 --> 00:06:21,640 fijaros que pone slurp, pues le ponemos lo que nos dice root, siguiente slurp daemon, esto lo descomentamos, vamos a buscar si está esto, no está, pues lo ponemos nuevo 22 00:06:22,640 --> 00:06:47,640 hacemos la línea y la ponemos, copiamos, pegamos, script type, lo mismo, para que se le oye todo el rato de fondo es álvaro, cuando veáis el vídeo acordaos que es álvaro 23 00:06:47,640 --> 00:07:14,640 copiamos, script type, a ver, lo buscamos, a ver, a este si está, perfecto, guardamos, hay una cosa, bueno, lo voy a hacer y lanzamos los servicios 24 00:07:14,640 --> 00:07:35,640 y luego ya lo voy a, bien, ese info, fijaros que los comandos los he puesto aquí, ese info y vemos que ya ve el compute1 pero está desconocido, que es lo que sucede, que vemos el compute1 25 00:07:36,640 --> 00:07:47,640 pero todavía no lo hemos configurado, así que vamos a configurarlo, lo que vamos a hacer para configurar el compute1 es abrir una terminal allí 26 00:07:47,640 --> 00:08:09,640 que ha pasado, no se ha levantado, a ver, clonar, iniciar, iniciar sin pantalla 27 00:08:17,640 --> 00:08:46,640 bien, pues ya está, ya ha iniciado, perfecto, aquí está y vamos a empezar a instalar en el nodo 28 00:08:46,640 --> 00:09:11,640 perfecto, vamos a hacer un update y vamos a ir también haciéndolo en el 2 porque total y lo voy a ir haciendo a la par 29 00:09:16,640 --> 00:09:45,640 bien, pegamos y lo pegamos 30 00:09:46,640 --> 00:10:04,640 muy bien, dice comprobar que los nodos son accesibles desde el servidor sin contraseña, hostname y el 2 hostname, perfecto, pues son accesibles sin contraseña 31 00:10:04,640 --> 00:10:19,640 y luego se ha puesto aquí este pequeño paso para hacerlo todo de golpe, porque si no tendréis, lo que vais a hacer es, igual que hicisteis con el ssh de copiar la clave pública del mungue en cada nodo 32 00:10:19,640 --> 00:10:43,640 pues esto es lo mismo, del ssh el irdsa, que era la clave pública en este, pues lo que vais a hacer es copiar el mungue, ¿para cuándo se contrató? 33 00:10:43,640 --> 00:10:58,640 2024, muy bien, perfecto, lo dicho 34 00:10:58,640 --> 00:11:15,640 voy a hacer es, el etcslum lo voy a configurar ya, como tengo dos nodos, fijaros que al final pone nodos, ¿no? pues voy a copiar que haya dos nodos, que es el 1 y el 2 35 00:11:15,640 --> 00:11:27,640 solo aparece uno porque solo hemos configurado uno cuando lo hicimos, este es el sistema de colas, y ahora ya vamos a hacerlo, copiar, pegar, vamos a ver 36 00:11:27,640 --> 00:11:42,640 ¿que ha pasado? parece que ha habido algún problema 37 00:11:57,640 --> 00:12:24,640 vamos a comprobar si sale, parece que si, ¿vale? y ahora vamos a configurar el 2, copiar y pongo 2 38 00:12:24,640 --> 00:12:37,640 reiniciamos el sistema de colas 39 00:12:38,640 --> 00:12:44,640 y aquí tenemos los dos nodos, vamos a hacer, fijaros que ya tenemos los dos nodos 40 00:12:44,640 --> 00:12:59,640 lo que vamos a hacer ahora simplemente es lanzar un, este sería el ejercicio 2, el 1, el 1 no está, el 1, el 2 y el ejercicio 3 lo que tenéis que hacer es 41 00:12:59,640 --> 00:13:28,640 me hago un usuario, script, le doy permisos de ejecución, fijaros en este, esto lo único que va a hacer es, le va a decir al eslum como se llama el trabajo 42 00:13:28,640 --> 00:13:48,640 el numero de procesadores que utiliza, la partición, el tiempo, la salida, y luego está el pw de salida, lo que va a hacer es simplemente escribir el hostname, el sleep, va a estar durmiendo 10 minutos para ver que hace algo y lo lanzamos 43 00:13:49,640 --> 00:14:09,640 ese batch, script, vale, ha habido un problemilla, ahora, vale, lanzamos el job, ese quiz, fijaros que está corriendo, lo que va a hacer es simplemente es un trabajo que va a estar esperando 44 00:14:09,640 --> 00:14:20,640 voy a lanzar muchos y veis que el sistema de cola se va a encargar de darle los trabajos al nodo 1 y al nodo 2 y los otros van a estar en pause, ok 45 00:14:21,640 --> 00:14:34,640 y cuando pasen 10 minutos, pues va a ir saliendo la salida, fijaros, el test, hay que esperar 10 minutos, voy a poner la grabadora en pause 46 00:14:34,640 --> 00:14:58,640 ahora, muy bien, como podéis ver, ha terminado el proceso 1 y 2 y hacemos la salida, este sería los logs, que me ha puesto un error de tiempo limit y lo ha matado 47 00:14:58,640 --> 00:15:13,640 y la salida, pues dice, donde ha corrido en el compute 2 y realmente el script lo único que hacía era, vale, hace un sleep, lo que pasa es que, claro, le hemos dado un tiempo límite de 5 minutos y hemos dicho que se quede durmiendo 10 minutos 48 00:15:13,640 --> 00:15:24,640 con lo cual, cuando ha llegado a los 5 minutos, ha muerto y bueno, nos ha escrito estas dos cosas, que es el hostname y el date, es donde ha corrido, que es en el nodo 2 y el date, cuando lo hacía 49 00:15:24,640 --> 00:15:35,640 y esto ya, pues no lo ha terminado, ¿por qué?, porque el elun, le habíamos dicho que es como máximo 5 minutos, bien, y vemos así que los siguientes procesos, pues seguirán corriendo 5 minutos 50 00:15:35,640 --> 00:15:46,640 podemos seguir lanzando procesos, otros usuarios también lo pueden ir lanzando, aquí aparecerán los usuarios del nombre, estos son los principales comandos del elun, los he dejado aquí 51 00:15:46,640 --> 00:15:58,640 que no vamos a verlo mucho, pero es ese info, ese kit, ese bug para lanzarlo, ese cancel para pararlo, si tenéis que parar un proceso, le decís ese cancel y le decís el proceso 5, por ejemplo 52 00:15:58,640 --> 00:16:13,640 y ya está, ya lo hemos quitado de la cola, así de fin, si le ponemos el 3, lo matamos, antes de que termine, ¿veis?, fácil ¿no?, pues paramos la grabadora