Reconocimiento y síntesis de voz (habla)

Ivan Meza

ivanvladimir@turing.iimas.unam.mx

La introducción

Contenido

La Introducción
La onda
La voz
La percepción de la voz
El reconocimiento
El aparato fonador
La síntesis

Los objetivos

Reconocimiento de la onda de voz a una trascripción ortográfica

Síntesis de la trascripción ortográfica a la onda de voz

Por supuesto buscamos fidelidad

La onda

La atmósfera

Nos mantiene vivos

Absorbe luz ultravioleta
nos ayuda con la temperatura
y contiene varios químicos de alta necesidad

Pero además trasmite al ...

Sonido

What Does Sound Look Like? de NPR on YouTube.

Sonido

Hasta ahora... perturbación

¿por qué tan difícil de grabar?

Velocidad del sonido

343.2 m/s

14.4 m/s (Humano más veloz)

a 20°C y nivel del mar

Distancia

¿Qué es el sonido?

El sonido es la onda

Pero no como la imaginamos

Sound waves in air en HyperPhysics.

La onda longitudinal

Creating a Longitudinal Wave de Animations for Physics and Astronomy on YouTube.

Onda ideal

Propiedades

Repetitiva
Longitud (Dis)
Frecuencia
Periodo (Tiempo)
Amplitud

Longitud

Distancia entre repeticiones

Pero...

Una onda viaja a $343.2$ m/s
Si sé la longitud de la onda... puedo saber...
El número de ondas por segundo

Frecuencia

Repeticiones por segundo

Periodo

Tiempo entre repeticiones

Amplitud

Distancia entre cresta o valle al centro

Más normales

Sonido	Longitud	Frecuencia
Piano	10.5m	32.7
Celo	5.4m	65.41
Viola	2.6m	130.81
Piano do medio	1.3m	261.63
Nota más baja piccolo	66cm	523.26

Más normales

Sonido	Longitud	Frecuencia
Nota más alta mujer	33cm	1046.50
Nota más alta flauta	16cm	2093
Nota más alta piano	8cm	4186
	4cm	8372
Nota televisión CRT	2cm	16744

No todo es onda

Las podemos superponer

¿Y el proceso en reversa?

La licuadora inversa

Transformada de Fourier

Pero sigue en el mundo ideal

La voz

La voz humana

Producción: de 200hz a 9,000hz
Percepción: de 20hz a 20,000hz

Algunas convenciones

1,000 se convierte a 1k

Producción: de 200hz a 9k hz
Percepción: de 20hz a 20k hz

Muestreo

¿A qué frecuencia guardamos la voz?

Amplitud

La energía
Dos medidas: Pascal y Decibles

Energía vs Poder

Energía: Joules
Poder-Intensidad: Watts

Decibeles

El oído, increíblemente sensible
Miden de forma logarítmica

Una medida relativa

Decibeles

Sonido más leve	0dB
Biblioteca	30dB
Conversación a un metro	60-65dB
Beeps del teléfono	80dB
Trafico de la ciudad (dentro del coche)	85dB
Camión pasando	90dB
Martillo neumático	95dB
Metro	95dB
Comienzan los daños	90 - 95dB

Taladro	98dB
Podadora	107dB
Motocicleta	100dB
Cortadora de cesped	110dB
Concierto de rock	115dB
Se siente dolor	125dB
Maquinaria neumática	125dB
Cualquier exposición causa daño	140dB
Avión	140dB
Ametralladora	165dB
Tejido auditivo dañado	180dB
Sonido más fuerte	194dB

Percepción de la voz

Percepción del sonido

Entonación
Harmónicos
Volumen

Efecto McGurk de pere estupinya on YouTube.

Jugando

Invirtiendo

En reversa

Frecuencias > 500

Frecuencias > 1k

Frecuencias > 2k

Frecuencias > 4k

Frecuencias > 6k

Frecuencias < 500

Reconocimiento de voz

Caja negra

Historia

1952 Bell Labs Audrey (digitos)
1962 IBM Shoebox (16 palabras)
Leonard Baum inventa los HMM
1970-76 DARPA "speech understanding research"
CMU Harpy
1980-1995 avances parciales, modelo de predicción, primeras compañías
1996 VoiceBroker usa Nuance
1997 Lanzamiento de Dragón
1998 Kurzweil system a Microsoft

Historia (2)

2000-2007 muy tranquilo
2007 Siri
2008 Google now
2009 Redes neuronales

Evaluación

Word error rate

hola mundo

hola mundo cruel (insersion +1)
mundo (borrado +1)
hola edmundo (sustitución +2)

$\frac{4}{6}= 0.66%$

Historia (3)

Historia (4)

Caja negra

Sistema

Modelo acústico

Cómo suenan los sonidos básicos del lenguaje
De señal a fonema

Vocales

Consonantes

Ventanas y características

Cómo suenan los sonidos básicos del lenguaje

Corpus orales tecnológicos

Corpus	Tamaño	Tipo	Licencia
HUB4-NE	30 horas	Elocusiones, noticias	LDC
Corpus Tlatoa	400 hablantes	Palabras	Autores
Mexican Sphinx-III (2003)	3,000 elocuciones	Palabras	Autores
DIMEx100	4 horas	Oraciones	Licencia UNAM
DIMEx100 niños	4 horas	Oraciones/elocusiones	Por definir
Wespoint Heróico	??	Oraciones inglés, español	LDC
Médicos	11 horas	Elocusiones bilingües	Autores
CIEMPIESS	17 horas	Elocusiones	Libre