Activa JavaScript para disfrutar de los vídeos de la Mediateca.
Slurm Ubuntu Server 22.04 LTS - Contenido educativo
Ajuste de pantallaEl ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:
Slurm Ubuntu Server 22.04 LTS
Hoy vamos a configurar el SLURM, que serían ejercicios de SLURM, fijaros que tenéis que
00:00:00
tener dos computes, dos nodos, que ayer los configuramos, los dos nodos con anís, iniciamos
00:00:11
sin pantalla como siempre, nos conectamos con el MOBA, compute 0 y vamos a ver otro
00:00:23
compute aquí, vale, ya está con el compute 0 yo creo que vamos a empezar con él, perfecto
00:00:43
pues empezamos, dice aquí, lo primero que tenemos que hacer es instalar en el servidor
00:00:55
0.0.0 que exporta a todos los usuarios el SLURM, el sistema de colas, voy a ponerlo un poco más bajo, hacemos apt-update
00:01:02
y instalamos el SLURM, Moongate es para autentificar las credenciales, lo que vamos a hacer con Moongate es
00:01:32
autentificar los nodos en el servidor, por eso tenemos que exportar y importar las claves, vamos a ver si se ha instalado, si se ha instalado
00:01:57
no hace falta instalarlo, efectivamente se ha instalado, el mismo tiene la clave y vamos al archivo, vamos a buscar el archivo del Demonio SLURM
00:02:08
de configuración, fijaros que está en, suele estar aquí, control c, copiar, bien, está, lo veis ahí ¿no?
00:02:22
es este, lo que pasa es que para verlo, lo que vamos a hacer es un servidor con Python, un servidor web con Python, supongo que habéis dado el Apache ¿no?
00:02:41
vale, bueno pues en Python se puede hacer un servidor web muy fácilmente que simplemente le ejecutamos http serve y ya está, ya tenemos nuestra página web
00:02:55
¿Cómo accedemos a nuestra página web? Pues como se acceden a todas las páginas web, buscamos la IP, nuestra IP sería la 10.4.104.100, bueno en vuestro caso la que sea
00:03:08
si tenéis un portátil la dinámica, bien y ya está y seguimos con, dice, vamos al LUME configurator, aquí estaríamos, dice cambiamos el nombre del servidor
00:03:20
voy a poner esto así ahora para verlo a la vez, dice ponemos donde pone el servidor por compute00, pues ponemos cluster name compute00, lo que va a hacer esto es escribir un archivo de configuración
00:03:40
para que nos sea más fácil, ponemos el slurp host, ahí va muy equivocado, cluster name, no el cluster name no es lo que tiene que haber cambiado, es el slurp host, en el cluster name lo podemos
00:03:59
voy a poner el nombre del cluster que en nuestro caso voy a ponerle por ejemplo ¿Qué clase somos? Voy a poner así y ya está, muy bien
00:04:17
vamos a poner un nombre del nodo, node name, en proc type seleccionamos, hay un montón de cosas que seleccionar, esto es lo básico para que funcione, le vamos a decir linux procs
00:04:37
y luego dice cuando termines haz un submit, vamos abajo del todo y hacemos submit, este archivo lo tenemos que copiar, a ver, copiamos
00:05:01
bin etc slurp.conf y lo pegamos aquí, todavía tenemos que hacer un poco más de cambios, que es el slurp user, pues lo hacemos, lo buscamos
00:05:32
fijaros que pone slurp, pues le ponemos lo que nos dice root, siguiente slurp daemon, esto lo descomentamos, vamos a buscar si está esto, no está, pues lo ponemos nuevo
00:05:52
hacemos la línea y la ponemos, copiamos, pegamos, script type, lo mismo, para que se le oye todo el rato de fondo es álvaro, cuando veáis el vídeo acordaos que es álvaro
00:06:22
copiamos, script type, a ver, lo buscamos, a ver, a este si está, perfecto, guardamos, hay una cosa, bueno, lo voy a hacer y lanzamos los servicios
00:06:47
y luego ya lo voy a, bien, ese info, fijaros que los comandos los he puesto aquí, ese info y vemos que ya ve el compute1 pero está desconocido, que es lo que sucede, que vemos el compute1
00:07:14
pero todavía no lo hemos configurado, así que vamos a configurarlo, lo que vamos a hacer para configurar el compute1 es abrir una terminal allí
00:07:36
que ha pasado, no se ha levantado, a ver, clonar, iniciar, iniciar sin pantalla
00:07:47
bien, pues ya está, ya ha iniciado, perfecto, aquí está y vamos a empezar a instalar en el nodo
00:08:17
perfecto, vamos a hacer un update y vamos a ir también haciéndolo en el 2 porque total y lo voy a ir haciendo a la par
00:08:46
bien, pegamos y lo pegamos
00:09:16
muy bien, dice comprobar que los nodos son accesibles desde el servidor sin contraseña, hostname y el 2 hostname, perfecto, pues son accesibles sin contraseña
00:09:46
y luego se ha puesto aquí este pequeño paso para hacerlo todo de golpe, porque si no tendréis, lo que vais a hacer es, igual que hicisteis con el ssh de copiar la clave pública del mungue en cada nodo
00:10:04
pues esto es lo mismo, del ssh el irdsa, que era la clave pública en este, pues lo que vais a hacer es copiar el mungue, ¿para cuándo se contrató?
00:10:19
2024, muy bien, perfecto, lo dicho
00:10:43
voy a hacer es, el etcslum lo voy a configurar ya, como tengo dos nodos, fijaros que al final pone nodos, ¿no? pues voy a copiar que haya dos nodos, que es el 1 y el 2
00:10:58
solo aparece uno porque solo hemos configurado uno cuando lo hicimos, este es el sistema de colas, y ahora ya vamos a hacerlo, copiar, pegar, vamos a ver
00:11:15
¿que ha pasado? parece que ha habido algún problema
00:11:27
vamos a comprobar si sale, parece que si, ¿vale? y ahora vamos a configurar el 2, copiar y pongo 2
00:11:57
reiniciamos el sistema de colas
00:12:24
y aquí tenemos los dos nodos, vamos a hacer, fijaros que ya tenemos los dos nodos
00:12:38
lo que vamos a hacer ahora simplemente es lanzar un, este sería el ejercicio 2, el 1, el 1 no está, el 1, el 2 y el ejercicio 3 lo que tenéis que hacer es
00:12:44
me hago un usuario, script, le doy permisos de ejecución, fijaros en este, esto lo único que va a hacer es, le va a decir al eslum como se llama el trabajo
00:12:59
el numero de procesadores que utiliza, la partición, el tiempo, la salida, y luego está el pw de salida, lo que va a hacer es simplemente escribir el hostname, el sleep, va a estar durmiendo 10 minutos para ver que hace algo y lo lanzamos
00:13:28
ese batch, script, vale, ha habido un problemilla, ahora, vale, lanzamos el job, ese quiz, fijaros que está corriendo, lo que va a hacer es simplemente es un trabajo que va a estar esperando
00:13:49
voy a lanzar muchos y veis que el sistema de cola se va a encargar de darle los trabajos al nodo 1 y al nodo 2 y los otros van a estar en pause, ok
00:14:09
y cuando pasen 10 minutos, pues va a ir saliendo la salida, fijaros, el test, hay que esperar 10 minutos, voy a poner la grabadora en pause
00:14:21
ahora, muy bien, como podéis ver, ha terminado el proceso 1 y 2 y hacemos la salida, este sería los logs, que me ha puesto un error de tiempo limit y lo ha matado
00:14:34
y la salida, pues dice, donde ha corrido en el compute 2 y realmente el script lo único que hacía era, vale, hace un sleep, lo que pasa es que, claro, le hemos dado un tiempo límite de 5 minutos y hemos dicho que se quede durmiendo 10 minutos
00:14:58
con lo cual, cuando ha llegado a los 5 minutos, ha muerto y bueno, nos ha escrito estas dos cosas, que es el hostname y el date, es donde ha corrido, que es en el nodo 2 y el date, cuando lo hacía
00:15:13
y esto ya, pues no lo ha terminado, ¿por qué?, porque el elun, le habíamos dicho que es como máximo 5 minutos, bien, y vemos así que los siguientes procesos, pues seguirán corriendo 5 minutos
00:15:24
podemos seguir lanzando procesos, otros usuarios también lo pueden ir lanzando, aquí aparecerán los usuarios del nombre, estos son los principales comandos del elun, los he dejado aquí
00:15:35
que no vamos a verlo mucho, pero es ese info, ese kit, ese bug para lanzarlo, ese cancel para pararlo, si tenéis que parar un proceso, le decís ese cancel y le decís el proceso 5, por ejemplo
00:15:46
y ya está, ya lo hemos quitado de la cola, así de fin, si le ponemos el 3, lo matamos, antes de que termine, ¿veis?, fácil ¿no?, pues paramos la grabadora
00:15:58
- Idioma/s:
- Idioma/s subtítulos:
- Autor/es:
- Daniel González Trabada
- Subido por:
- Daniel G.
- Licencia:
- Dominio público
- Visualizaciones:
- 303
- Fecha:
- 1 de febrero de 2024 - 9:22
- Visibilidad:
- Público
- Centro:
- IES FRANCISCO DE QUEVEDO
- Relación de aspecto:
- 1.78:1
- Resolución:
- 1920x1080 píxeles
- Tamaño:
- 42.81 MBytes