Reconocimiento de sonido con LearningML | Mediateca de EducaMadrid

Cuando accedas a la url de la aplicación v2-learningml.org al reconocimiento de textos, 00:00:06

de imágenes y de números, verás que hay un nuevo tipo de reconocimiento que es de sonido. 00:00:15

Veamos cómo funciona. Hacemos clic en él y aparecen las tres fases del aprendizaje supervisado, 00:00:20

igual que en el resto de los reconocimientos. La fase de entrenamiento para recoger datos, 00:00:30

aprendizaje para construir el modelo y la fase de pruebas. Vamos a construir un modelo que será 00:00:34

capaz de reconocer mi voz de un silbido y del ruido de fondo que haya en la habitación. Pues 00:00:40

creamos las tres clases que necesitamos, en este caso voz, silbido y fondo. Bien, y ahora se trata 00:00:46

de añadir ejemplos de sonido de voz o de silbido de fondo. Voy a empezar por la voz porque así mientras hablo y os explico cómo funciona la grabación 00:01:00

pues vamos a ir recogiendo muestras de la voz. Cuando queremos recoger muestras de sonido simplemente hacemos clic en grabar y entonces veréis que va a ir recogiendo 00:01:10

muestra grabaciones de un segundo de duración 00:01:22

más o menos y de una manera automática, es decir, va a seguir grabando hasta que lo paremos 00:01:26

si vamos a detener, la grabación se detiene 00:01:30

en este caso, pues ha recogido 12 grabaciones 00:01:33

de aproximadamente un segundo de mi voz, si queremos reproducirla para ver 00:01:37

que es lo que ha grabado, hacemos clic aquí 00:01:42

y vemos pues como ha ido recogiendo 00:01:43

pues las distintas cosas que yo he ido diciendo 00:01:50

aquí lo interesante es recoger más bien el timbre 00:01:52

porque es lo que esto reconoce bastante bien 00:01:55

el timbre de los sonidos 00:01:57

si alguna de las muestras no nos gusta 00:01:58

pues simplemente podemos borrarla 00:02:01

imaginemos que la 12 no la queremos 00:02:03

hacemos clic en el botoncito de la papelera y se borra 00:02:05

ahora vamos a tomar muestras de sonido 00:02:09

es muy importante que las muestras que cojamos 00:02:12

como son de un segundo 00:02:15

pues que durante ese segundo más o menos que está grabando 00:02:16

pues que realmente grabe lo que nosotros queremos. Por eso está bien repasar después cómo han sido recogidas las muestras 00:02:19

para ver si realmente ha grabado lo que nosotros queramos. Siempre tenemos que tener en cuenta que la calidad de los datos es fundamental 00:02:27

para después obtener un buen modelo. Bueno, pues vamos a recoger sonidos de silbido. Hago clic en grabar y cuando vayan más o menos unas 12 muestras 00:02:34

lo pararé. Bueno, 13 muestras. Como eso del número 13 da mala suerte y vamos a ser un 00:02:43

poquito supersticiosos, aprovechamos y borramos la última muestra. Bien, y ahora vamos a 00:03:05

coger 12 muestras del fondo. Simplemente le daré a grabar, me callaré y se cogerán 00:03:10

el ruido ambiente que hay, un poco el motorcillo del ventilador, en fin, siempre hay ruido 00:03:17

en todo sitio donde nos metamos. Bien, 12 muestras 00:03:23

más o menos. Recordad que es importante que el 00:03:40

número de muestras del dato que sea 00:03:43

ya sea sonido, textos, números o en este caso 00:03:45

sonido, pues es importante que cada clase 00:03:48

tenga más o menos el mismo número de muestras, lo que se llama un conjunto 00:03:51

de datos balanceado. Bien, ya tenemos el conjunto de datos 00:03:54

de ejemplo, ahora toca 00:03:58

el aprendizaje, es decir, la construcción del modelo. Hacemos 00:04:00

clic aquí y bueno, pues 00:04:03

El algoritmo de Machine Learning va a analizar esos datos para construir un modelo que sea capaz de reconocer esos tres timbres. 00:04:06

Bien, ya ha sido entrenado, ha tardado 9,3 segundos y ahora vamos a probarlo. 00:04:15

Para probarlo, bueno, pues hacemos lo mismo que cuando recogíamos datos. 00:04:19

Le damos al botón grabar, en este caso de la fase de prueba y vemos qué pasa. 00:04:22

Bueno, primero nos quedamos callados a ver si recoge el fondo. 00:04:27

Perfecto, ha recogido el ruido de fondo. 00:04:33

Ahora voy a hablar. Hola, hola, hola. Y de nuevo ha acertado, ha reconocido la voz. Y ahora voy a hacer un pequeño silbido. Y vemos que ha reconocido el silbido. Y bueno, pues esto es la forma de construir modelos de reconocimiento de sonido. 00:04:35

Bien, pues a continuación voy a hacer un programa con Scratch que utiliza el modelo que acabamos de realizar de reconocimiento de sonidos 00:04:59

Hacemos clic en el gatito y veremos que en los bloques de LearningML hay un nuevo bloque que se llama grabar audio 00:05:10

Este bloque funciona muy parecido a este botón de grabar 00:05:18

Cuando se ejecuta, graba un sonido de un segundo aproximadamente de duración 00:05:22

entonces ese sonido se convierte en un vector 00:05:30

un vector que es multidimensional 00:05:34

que es el que realmente se va a pasar al algoritmo de Machine Learning 00:05:36

para reconocerlo 00:05:41

¿y cómo se realiza la clasificación? 00:05:41

pues como hacemos con el resto de los problemas de clasificación 00:05:44

con el bloque este de clasificar ítem 00:05:47

lo que pasa es que aquí vamos a colocar como argumento el audio 00:05:50

vamos a ver, vamos a probarlo 00:05:55

primero vamos a ejecutarlo con silencio 00:05:58

a ver si detecta el fondo 00:06:01

muy bien, ahora voy a ejecutarlo mientras hablo 00:06:02

hola, hola, hola, hola 00:06:07

y ahora voy a ejecutarlo mientras silbo 00:06:09

como vemos, pues funciona exactamente igual 00:06:11

que el resto de los reconocimientos 00:06:16

pero en este caso grabando muestras de un segundo de duración 00:06:18

y con esto podríamos hacer algún tipo de programa 00:06:23

Por ejemplo, imaginaos hacer un modelo que reconozca las palabras arriba, abajo, izquierda y derecha. 00:06:27

Y después con Scratch hacer un programa que mueva al gatito en función de lo que el usuario esté diciendo. 00:06:35

Que vaya para arriba cuando se diga arriba, para abajo cuando vaya abajo, etc. 00:06:43

Bueno, eso será el objeto de otro vídeo posterior. 00:06:47

Por lo pronto nos quedamos con esto para que os hagáis una idea de cómo funciona esta nueva funcionalidad de Learning ML. 00:06:51

Reconocimiento de sonido con LearningML - Contenido educativo

Del mismo autor…

Ancient Rome Technology

Human body and electricty

Faster and smarter robots

Cool new robots

Bionic Hand

Predicting numbers with Machine Learning for Kids

HER (2013) -- Trailer (eng)