Saltar navegación

Activa JavaScript para disfrutar de los vídeos de la Mediateca.

Reconocimiento de sonido con LearningML - Contenido educativo

Ajuste de pantalla

El ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:

Subido el 20 de marzo de 2025 por David G.

36 visualizaciones

Descargar la transcripción

Cuando accedas a la url de la aplicación v2-learningml.org al reconocimiento de textos, 00:00:06
de imágenes y de números, verás que hay un nuevo tipo de reconocimiento que es de sonido. 00:00:15
Veamos cómo funciona. Hacemos clic en él y aparecen las tres fases del aprendizaje supervisado, 00:00:20
igual que en el resto de los reconocimientos. La fase de entrenamiento para recoger datos, 00:00:30
aprendizaje para construir el modelo y la fase de pruebas. Vamos a construir un modelo que será 00:00:34
capaz de reconocer mi voz de un silbido y del ruido de fondo que haya en la habitación. Pues 00:00:40
creamos las tres clases que necesitamos, en este caso voz, silbido y fondo. Bien, y ahora se trata 00:00:46
de añadir ejemplos de sonido de voz o de silbido de fondo. Voy a empezar por la voz porque así mientras hablo y os explico cómo funciona la grabación 00:01:00
pues vamos a ir recogiendo muestras de la voz. Cuando queremos recoger muestras de sonido simplemente hacemos clic en grabar y entonces veréis que va a ir recogiendo 00:01:10
muestra grabaciones de un segundo de duración 00:01:22
más o menos y de una manera automática, es decir, va a seguir grabando hasta que lo paremos 00:01:26
si vamos a detener, la grabación se detiene 00:01:30
en este caso, pues ha recogido 12 grabaciones 00:01:33
de aproximadamente un segundo de mi voz, si queremos reproducirla para ver 00:01:37
que es lo que ha grabado, hacemos clic aquí 00:01:42
y vemos pues como ha ido recogiendo 00:01:43
pues las distintas cosas que yo he ido diciendo 00:01:50
aquí lo interesante es recoger más bien el timbre 00:01:52
porque es lo que esto reconoce bastante bien 00:01:55
el timbre de los sonidos 00:01:57
si alguna de las muestras no nos gusta 00:01:58
pues simplemente podemos borrarla 00:02:01
imaginemos que la 12 no la queremos 00:02:03
hacemos clic en el botoncito de la papelera y se borra 00:02:05
ahora vamos a tomar muestras de sonido 00:02:09
es muy importante que las muestras que cojamos 00:02:12
como son de un segundo 00:02:15
pues que durante ese segundo más o menos que está grabando 00:02:16
pues que realmente grabe lo que nosotros queremos. Por eso está bien repasar después cómo han sido recogidas las muestras 00:02:19
para ver si realmente ha grabado lo que nosotros queramos. Siempre tenemos que tener en cuenta que la calidad de los datos es fundamental 00:02:27
para después obtener un buen modelo. Bueno, pues vamos a recoger sonidos de silbido. Hago clic en grabar y cuando vayan más o menos unas 12 muestras 00:02:34
lo pararé. Bueno, 13 muestras. Como eso del número 13 da mala suerte y vamos a ser un 00:02:43
poquito supersticiosos, aprovechamos y borramos la última muestra. Bien, y ahora vamos a 00:03:05
coger 12 muestras del fondo. Simplemente le daré a grabar, me callaré y se cogerán 00:03:10
el ruido ambiente que hay, un poco el motorcillo del ventilador, en fin, siempre hay ruido 00:03:17
en todo sitio donde nos metamos. Bien, 12 muestras 00:03:23
más o menos. Recordad que es importante que el 00:03:40
número de muestras del dato que sea 00:03:43
ya sea sonido, textos, números o en este caso 00:03:45
sonido, pues es importante que cada clase 00:03:48
tenga más o menos el mismo número de muestras, lo que se llama un conjunto 00:03:51
de datos balanceado. Bien, ya tenemos el conjunto de datos 00:03:54
de ejemplo, ahora toca 00:03:58
el aprendizaje, es decir, la construcción del modelo. Hacemos 00:04:00
clic aquí y bueno, pues 00:04:03
El algoritmo de Machine Learning va a analizar esos datos para construir un modelo que sea capaz de reconocer esos tres timbres. 00:04:06
Bien, ya ha sido entrenado, ha tardado 9,3 segundos y ahora vamos a probarlo. 00:04:15
Para probarlo, bueno, pues hacemos lo mismo que cuando recogíamos datos. 00:04:19
Le damos al botón grabar, en este caso de la fase de prueba y vemos qué pasa. 00:04:22
Bueno, primero nos quedamos callados a ver si recoge el fondo. 00:04:27
Perfecto, ha recogido el ruido de fondo. 00:04:33
Ahora voy a hablar. Hola, hola, hola. Y de nuevo ha acertado, ha reconocido la voz. Y ahora voy a hacer un pequeño silbido. Y vemos que ha reconocido el silbido. Y bueno, pues esto es la forma de construir modelos de reconocimiento de sonido. 00:04:35
Bien, pues a continuación voy a hacer un programa con Scratch que utiliza el modelo que acabamos de realizar de reconocimiento de sonidos 00:04:59
Hacemos clic en el gatito y veremos que en los bloques de LearningML hay un nuevo bloque que se llama grabar audio 00:05:10
Este bloque funciona muy parecido a este botón de grabar 00:05:18
Cuando se ejecuta, graba un sonido de un segundo aproximadamente de duración 00:05:22
entonces ese sonido se convierte en un vector 00:05:30
un vector que es multidimensional 00:05:34
que es el que realmente se va a pasar al algoritmo de Machine Learning 00:05:36
para reconocerlo 00:05:41
¿y cómo se realiza la clasificación? 00:05:41
pues como hacemos con el resto de los problemas de clasificación 00:05:44
con el bloque este de clasificar ítem 00:05:47
lo que pasa es que aquí vamos a colocar como argumento el audio 00:05:50
vamos a ver, vamos a probarlo 00:05:55
primero vamos a ejecutarlo con silencio 00:05:58
a ver si detecta el fondo 00:06:01
muy bien, ahora voy a ejecutarlo mientras hablo 00:06:02
hola, hola, hola, hola 00:06:07
y ahora voy a ejecutarlo mientras silbo 00:06:09
como vemos, pues funciona exactamente igual 00:06:11
que el resto de los reconocimientos 00:06:16
pero en este caso grabando muestras de un segundo de duración 00:06:18
y con esto podríamos hacer algún tipo de programa 00:06:23
Por ejemplo, imaginaos hacer un modelo que reconozca las palabras arriba, abajo, izquierda y derecha. 00:06:27
Y después con Scratch hacer un programa que mueva al gatito en función de lo que el usuario esté diciendo. 00:06:35
Que vaya para arriba cuando se diga arriba, para abajo cuando vaya abajo, etc. 00:06:43
Bueno, eso será el objeto de otro vídeo posterior. 00:06:47
Por lo pronto nos quedamos con esto para que os hagáis una idea de cómo funciona esta nueva funcionalidad de Learning ML. 00:06:51
Idioma/s:
es
Materias:
Tecnología
Etiquetas:
Inteligencia Artificial
Niveles educativos:
▼ Mostrar / ocultar niveles
  • Educación Secundaria Obligatoria
    • Ordinaria
      • Primer Ciclo
        • Primer Curso
        • Segundo Curso
      • Segundo Ciclo
        • Tercer Curso
        • Cuarto Curso
        • Diversificacion Curricular 1
        • Diversificacion Curricular 2
    • Compensatoria
  • Bachillerato
    • Primer Curso
    • Segundo Curso
Autor/es:
Juan David Rodríguez García
Subido por:
David G.
Licencia:
Todos los derechos reservados
Visualizaciones:
36
Fecha:
20 de marzo de 2025 - 9:50
Visibilidad:
Público
Enlace Relacionado:
https://web.learningml.org/construimos-un-modelo-de-reconocimiento-de-sonido/
Centro:
IES MARIE CURIE Loeches
Duración:
07′ 02″
Relación de aspecto:
1.78:1
Resolución:
1920x1080 píxeles
Tamaño:
38.98 MBytes

Del mismo autor…

Ver más del mismo autor


EducaMadrid, Plataforma Educativa de la Comunidad de Madrid

Plataforma Educativa EducaMadrid