<< Regresar

CORPUS DIMEx100

El Corpus DIMEx100 tiene por objetivo hacer posible la construcción de modelos acústicos y diccionarios de pronunciación para la creación de sistemas computacionales para el reconocimiento del español hablado en México. Este tipo de sistemas permiten transcribir una señal de voz en su representación textual. Este recurso permitirá la creación de sistemas de reconocimiento de habla de propósito general con un vocabulario amplio y locutores diversos; el corpus es también útil para la investigación en reconocimiento de locutores, y para la creación de voces para sistemas de síntesis de voz. Este recurso permitirá adicionalmente la realización de estudios fonéticos de orientación computacional de nuestra lengua con una sólida base empírica.

Los niveles de transcripción son como sigue:

Nivel T54: Transcripción segmental fina con 54 unidades alofónicas.

Nivel T44: Transcripción segmental media con 44 unidades alofónicas.

Nivel T22: Transcripción segmental básica con las 22 unidades fonéticas correspondientes a los fonemas del Español de México.

Luis A. Pineda, Hayde Castellanos, Javier Cuétara, Lucian Galescu, Janet Juárez, Joaquim Llisterri, Patricia Pérez, and Luis Villaseñor. The Corpus DIMEx100: transcription and evaluation, Lang. Resources and Evaluation, 44:347-370, 2010.

Luis A. Pineda, Luis Villaseñor Pineda, Javier Cuétara, hayde Castellanos, and Ivonne López. DIMEx100: A New Phonetic and Speech Corpus for Mexican Spanish , IBERAMIA 2004, LNAI 2215, pp. 974-983m 2004.