Audición Robótica

Begin in Jan. 3, 2018 | Caleb Antonio Rascón Estebané |

Análisis de Escenas Auditivas

La escucha humana es una habilidad del cual se tiene mucho interés a emular, ya que puede beneficiar al desarrollo de teléfonos móviles, de casas inteligentes, de robots de servicios, de dispositivos de ayuda auditivas, de bioacústica, etc. Una manera simplificada de analizar la escucha humana es dividirlo en tres grandes áreas: localizar, separar y clasificar las fuentes sonoras en el ambiente. Dicha información es lo que conforma a la escena auditiva:

Localización: esto involucra ubicar en el espacio físico a las fuentes sonoras, a partir de los datos de audio capturados con un arreglo de micrófonos con una geometría conocida. Esta localización normalmente se reduce a estimar la dirección de arribo en el plano horizontal de dichas fuentes, pero también es de interés estimar la dirección vertical y distancia de éstas.

Separación: dado la propagación física de las ondas mecánicas proviniendo de las fuentes sonoras en conjunto, lo capturado en el arreglo de micrófonos resulta en una mezcla aditiva de dichas ondas. Esto hace dificultoso los pasos subsecuentes de reconocimiento y clasificación, ya que la gran mayoría asumen ser alimentadas la información de audio de sólo una fuente sonora. Para aliviar esto, se puede separar en línea a la fuente de interés (a partir de su dirección de arribo) y el resto de las interferencias se remueven de la mezcla.

Clasificación: es de interés identificar cuál persona es la que está hablando. Desafortunadamente, los sistemas actuales de identificación requieren re-entrenarse cuando hay una nueva persona a identificar. Es de interés tener sistemas más responsivos a estas circunstancias, y que puedan identificar entre tipo de fuentes.

Este proyecto ha sido apoyado por CONACYT 251319, UC MEXUS-CONACYT CN-17-154 y PAPIIT IA100120. Es actualmente apoyado por PAPIIT IA100222.