Audición Robótica

Se pretende emular la habilidad de escucha humana en un ente no-humano, y aplicar dichas técnicas en áreas de impacto tecnológico, social y ambiental, como lo son la Robótica de Servicio, el Diseño de Dispositivos de Ayuda Auditiva y Bioacústica. El proyecto aquí descrito tiene como objetivo desarrollar técnicas de Audición Robótica con un enfoque en soluciones "livianas": utilizando pocos micrófonos y pocos recursos de cómputo. Esto para incrementar su viabilidad en las diferentes áreas de impactos, y, a la vez, sean relativamente fáciles de portar entre ellas. La emulación de escucha humana involucra una gran variedad de conceptos y desarrollos de una vasta gama de disciplinas como Procesamiento de Señales, Psicoacústica, hasta Cognición.

Begin in Jan. 3, 2018   |    Caleb Antonio Rascón Estebané    |   
Análisis de Escenas Auditivas

La escucha humana es una habilidad del cual se tiene mucho interés a emular, ya que puede beneficiar al desarrollo de teléfonos móviles, de casas inteligentes, de robots de servicios, de dispositivos de ayuda auditivas, de bioacústica, etc. Una manera simplificada de analizar la escucha humana es dividirlo en tres grandes áreas: localizar, separar y clasificar las fuentes sonoras en el ambiente. Dicha información es lo que conforma a la escena auditiva:

Localización: esto involucra ubicar en el espacio físico a las fuentes sonoras, a partir de los datos de audio capturados con un arreglo de micrófonos con una geometría conocida. Esta localización normalmente se reduce a estimar la dirección de arribo en el plano horizontal de dichas fuentes, pero también es de interés estimar la dirección vertical y distancia de éstas.

Separación: dado la propagación física de las ondas mecánicas proviniendo de las fuentes sonoras en conjunto, lo capturado en el arreglo de micrófonos resulta en una mezcla aditiva de dichas ondas. Esto hace dificultoso los pasos subsecuentes de reconocimiento y clasificación, ya que la gran mayoría asumen ser alimentadas la información de audio de sólo una fuente sonora. Para aliviar esto, se puede separar en línea a la fuente de interés (a partir de su dirección de arribo) y el resto de las interferencias se remueven de la mezcla.

Clasificación: es de interés identificar cuál persona es la que está hablando. Desafortunadamente, los sistemas actuales de identificación requieren re-entrenarse cuando hay una nueva persona a identificar. Es de interés tener sistemas más responsivos a estas circunstancias, y que puedan identificar entre tipo de fuentes.

Este proyecto ha sido apoyado por CONACYT 251319, UC MEXUS-CONACYT CN-17-154 y PAPIIT IA100120. Es actualmente apoyado por PAPIIT IA100222.