El Corpus DIMEx100 tiene por objetivo hacer posible la construcción de modelos acústicos y diccionarios de pronunciación para la creación de sistemas computacionales para el reconocimiento del español hablado en México. Este tipo de sistemas permiten transcribir una señal de voz en su representación textual. Este recurso permitirá la creación de sistemas de reconocimiento de habla de propósito general con un vocabulario amplio y locutores diversos; el corpus es también útil para la investigación en reconocimiento de locutores, y para la creación de voces para sistemas de síntesis de voz. Este recurso permitirá adicionalmente la realización de estudios fonéticos de orientación computacional de nuestra lengua con una sólida base empírica.
Los niveles de transcripción son como sigue:
Nivel T54: Transcripción segmental fina con 54 unidades alofónicas.
Nivel T44: Transcripción segmental
media con 44 unidades alofónicas.
Nivel
T22: Transcripción segmental básica con las 22 unidades
fonéticas correspondientes a los fonemas del Español de México.
Luis A. Pineda, Hayde Castellanos, Javier Cuétara, Lucian Galescu, Janet Juárez,
Joaquim Llisterri, Patricia Pérez, and Luis Villaseñor.
The Corpus DIMEx100:
transcription and evaluation, Lang. Resources and Evaluation, 44:347-370, 2010.
Luis A. Pineda,
Luis Villaseñor Pineda, Javier Cuétara, hayde Castellanos, and Ivonne López.
DIMEx100: A New Phonetic and Speech Corpus for Mexican Spanish
, IBERAMIA 2004, LNAI 2215, pp. 974-983m 2004.
Contacto: Dr. Luis A. Pineda Cortés,
Departamento de ciencias de la Computación.
IIMAS, UNAM
Tel: +52 (55) 56 22 36 18
Fax: +52 (55) 56 22 36 20
E-mail: luis@leibniz.iimas.unam.mx
El corpus DIMEx100 (ISBN:970-32-3395-3) fue creado en el departamento de Ciencias de la Computación del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS), UNAM en el contexto del proyecto DIME-II: Diálogos Inteligentes Multimodales en Español, NSF/CONACYT 39380-U, bajo la responsabilidad del Dr. Luis Alberto Pineda Cortés, con la participación del Dr. Luis Villaseñor Pineda (INAOEP), el M. En C. Javier Octavio Cuétara Priede (Facultad de Filosofía y Letras, UNAM), así como de los siguientes estudiantes y técnicos asociados al proyecto: Lic. Haydé Castellanos Vargas, Lic. Fernanda López Escobedo, Srita. Ivonne López Morales, Srita. Isabel López Urrutia, Srita. Varinia Estrada García, Ing. Patricia Pérez Pavón. Se agradece también la participación en el proceso de etiquetado del M. en C. Sergio Rafael Coria Olguín, Iván Moreno Ávila, Laura Lorena Pérez Rosales y Jorge Arturo Wong Mosqueda. Se agradece también el apoyo de CCADET, UNAM, por facilitar su estudio para la grabación del corpus así como a los 100 hablantes que donaron su voz; se agradece también el apoyo técnico del Lic. César Francisco Gamboa Verduzco en el IIMAS, UNAM, 2005.
The Corpus DIMEx100 is available free of charge for academic purposes exclusively.
Interested in the corpus for industrial or commercial use must have a formal agreement with UNAM through the Coordination of Innovation. Please contact:
César Alejandro León-Pineda Appointed representative of the Corpus DIMEx100 Coordinator of Technology Valuation and Licensing Coordinación de Innovación y Desarrollo Universidad Nacional Autónoma de México Cerro del Agua 120, Manuel Romero de Terreros, Coyoacán, Mexico City, 04310, Mexico T: +52 (55) 56 58 56 50 ext. 217 E: cesar.leon@unam.mx