Reconocimiento y síntesis de voz (habla)



Ivan Meza

ivanvladimir@turing.iimas.unam.mx

La introducción

Contenido

  • La Introducción
  • La onda
  • La voz
  • La percepción de la voz
  • El reconocimiento
  • El aparato fonador
  • La síntesis

Los objetivos


  • Reconocimiento de la onda de voz a una trascripción ortográfica

  • Síntesis de la trascripción ortográfica a la onda de voz



Por supuesto buscamos fidelidad

La onda

La atmósfera

Nos mantiene vivos

  • Absorbe luz ultravioleta
  • nos ayuda con la temperatura
  • y contiene varios químicos de alta necesidad

Pero además trasmite al ...

Sonido



What Does Sound Look Like? de NPR on YouTube.

Sonido

Hasta ahora... perturbación

  • ¿por qué tan difícil de grabar?

Velocidad del sonido



343.2 m/s

14.4 m/s (Humano más veloz)

a 20°C y nivel del mar

Distancia



Distancia


Distancia


¿Qué es el sonido?

El sonido es la onda

Pero no como la imaginamos


Sound waves in air en HyperPhysics.

La onda longitudinal

Creating a Longitudinal Wave de Animations for Physics and Astronomy on YouTube.

Onda ideal

Propiedades

  • Repetitiva
  • Longitud (Dis)
  • Frecuencia
  • Periodo (Tiempo)
  • Amplitud

Longitud

  • Distancia entre repeticiones

Pero...

  • Una onda viaja a $343.2$ m/s
  • Si sé la longitud de la onda... puedo saber...
  • El número de ondas por segundo

Frecuencia

  • Repeticiones por segundo

Periodo

  • Tiempo entre repeticiones

Amplitud

  • Distancia entre cresta o valle al centro

Más normales

Sonido Longitud Frecuencia
Piano 10.5m 32.7
Celo 5.4m 65.41
Viola 2.6m 130.81
Piano do medio 1.3m 261.63
Nota más baja piccolo 66cm 523.26

Más normales

Sonido Longitud Frecuencia
Nota más alta mujer 33cm 1046.50
Nota más alta flauta 16cm 2093
Nota más alta piano 8cm 4186
4cm 8372
Nota televisión CRT 2cm 16744

No todo es onda

Las podemos superponer

¿Y el proceso en reversa?

La licuadora inversa

Transformada de Fourier

Pero sigue en el mundo ideal

La voz

La voz humana

  • Producción: de 200hz a 9,000hz
  • Percepción: de 20hz a 20,000hz

Algunas convenciones

1,000 se convierte a 1k

  • Producción: de 200hz a 9k hz
  • Percepción: de 20hz a 20k hz

Muestreo

¿A qué frecuencia guardamos la voz?

Amplitud

  • La energía
  • Dos medidas: Pascal y Decibles

Energía vs Poder

  • Energía: Joules
  • Poder-Intensidad: Watts

Decibeles

  • El oído, increíblemente sensible
  • Miden de forma logarítmica
  • Una medida relativa

Decibeles

Sonido más leve 0dB
Biblioteca 30dB
Conversación a un metro 60-65dB
Beeps del teléfono 80dB
Trafico de la ciudad (dentro del coche) 85dB
Camión pasando 90dB
Martillo neumático 95dB
Metro 95dB
Comienzan los daños 90 - 95dB
Taladro 98dB
Podadora 107dB
Motocicleta 100dB
Cortadora de cesped 110dB
Concierto de rock 115dB
Se siente dolor 125dB
Maquinaria neumática 125dB
Cualquier exposición causa daño 140dB
Avión 140dB
Ametralladora 165dB
Tejido auditivo dañado 180dB
Sonido más fuerte 194dB

Percepción de la voz

Percepción del sonido

  • Entonación
  • Harmónicos
  • Volumen


Efecto McGurk de pere estupinya on YouTube.

Jugando

Invirtiendo

En reversa

Frecuencias > 500

Frecuencias > 1k

Frecuencias > 2k

Frecuencias > 4k

Frecuencias > 6k

Frecuencias < 500

Reconocimiento de voz

Caja negra

Historia

  • 1952 Bell Labs Audrey (digitos)
  • 1962 IBM Shoebox (16 palabras)
  • Leonard Baum inventa los HMM
  • 1970-76 DARPA "speech understanding research"
  • CMU Harpy
  • 1980-1995 avances parciales, modelo de predicción, primeras compañías
  • 1996 VoiceBroker usa Nuance
  • 1997 Lanzamiento de Dragón
  • 1998 Kurzweil system a Microsoft

Historia (2)

  • 2000-2007 muy tranquilo
  • 2007 Siri
  • 2008 Google now
  • 2009 Redes neuronales

Evaluación

Word error rate



hola mundo

  • hola mundo cruel (insersion +1)
  • mundo (borrado +1)
  • hola edmundo (sustitución +2)

$\frac{4}{6}= 0.66%$

Historia (3)

Historia (4)

Caja negra

Sistema

Modelo acústico

  • Cómo suenan los sonidos básicos del lenguaje
  • De señal a fonema

Vocales

Consonantes

Ventanas y características

  • Cómo suenan los sonidos básicos del lenguaje

Corpus orales tecnológicos

Corpus Tamaño Tipo Licencia
HUB4-NE 30 horas Elocusiones, noticias LDC
Corpus Tlatoa 400 hablantes Palabras Autores
Mexican Sphinx-III (2003) 3,000 elocuciones Palabras Autores
DIMEx100 4 horas Oraciones Licencia UNAM
DIMEx100 niños 4 horas Oraciones/elocusiones Por definir
Wespoint Heróico ?? Oraciones inglés, español LDC
Médicos 11 horas Elocusiones bilingües Autores
CIEMPIESS 17 horas Elocusiones Libre

En inglés

Diccionario

De fonemas a palabra


  • o l a $\rightarrow$ hola

Modelo del lenguaje

De palabras a oraciones

  • $P(arbol|el)$ vs $P(arbol|la)$
  • $P(se|arbol)$ vs $P(si|arból)$
  • $P(mueve|se)$ vs $P(puede|si)$


$P(el\ arbol\ se\ mueve)$

$P(la\ arbol\ si\ puede)$

En resumen


Conocimiento fonético


Conocimiento lingüístico


Aparato fonador

Invoucrado

  • Aparato digestivo
  • Aparato respiratorio
  • Aparato fonador

Aparato digestivo

Aparato respiratorio

La faringe



Respiration de Sandra Cork en YouTube.

La laringe

El sistema nervioso

Regresando al aparato fonador

  • Fuente de poder (Pulmones)
  • El oscilador (Cuerdas vocales)
  • El resonador (El tracto vocal)

Cuerdas vocales



500fps, HD motion analysis of the vocal cords with SweetVision High Speed systems de Adam en Vimeo.

Variaciones

  • 1.25cm a 1.75cm en mujeres
  • 1.75cm a 2.50cm en hombres

El resonador

  • Resalta ciertas frecuencias
  • Se usa en la mayoría de los instrumentos
  • En instrumentos provee harmónicos

El sistema

Trompeta


Trompeta


Señales



Listerri, J.,Las características acústicas de los sonidos del habla

Espectro

Sumando



Listerri, J.,Las características acústicas de los sonidos del habla

Señal de Glotis



Listerri, J.,Las características acústicas de los sonidos del habla

Señal después tracto vocal



Listerri, J.,Las características acústicas de los sonidos del habla

La i

FFT
tracto vocal LPC

Listerri, J.,Las características acústicas de los sonidos del habla

La u

RM u FFT
tracto vocal LPC

Listerri, J.,Las características acústicas de los sonidos del habla



demostracion de la fonacion humana.AVI de Hugo Dominguez Luthier en YouTube.

Frecuencia fundamental

  • 165Hz a 255Hz mujeres
  • 85Hz a 155Hz hombres
  • 250Hz a 300Hz niños

Falsete y silbido



La flauta mágica



Síntesis de voz

VOCODER

Antecedentes desde 1779, 1837, 1857 y 1923.



The Voder - Homer Dudley (Bell Labs) 1939 de MonoThyratron en YouTube.

Técnicas

  • Concatenación
  • Síntesis de formantes
  • Síntesis de artículación

Concatenación

  • Concatenación
  • Síntesis de formantes
  • Síntesis de artículación

Chatbot








Cleverbot y anónimo

Español

Hola a todos es un placer estar aquí con ustedes

Hola a todos es un placer estar aquí con ustedes

Otros ejemplos


Nuance (Loquendo)

NeoSpeech

ReadSpeak

Ivona

Articulatorio

VocalTrac Lab



Talking Robot Mouth Mimics Human Speech #DigInfo de DigInfo en YouTube.

Gracias

Licencia de Creative Commons
Reconocimiento y síntesis de la voz by Ivan V. Meza Ruiz is licensed under a Creative Commons Reconocimiento 4.0 Internacional License.
Creado a partir de la obra en http://turing.iimas.unam.mx/~ivanvladimir/slides/misc/reconocimiento_sintesis_voz.html.