Competencia (Shared Task)

¿Qué es?

The La competencia AmericasNLP 2021 (Shared Task) sobre traducción automática abierta es una competencia que tiene por objetivo motivar el desarrollo de sistemas de traducción automática (MT) para las lenguas indígenas de América. Los participantes crearán sistemas de traducción entre español y una serie de lenguas indígenas del continente americano.

¿Por qué?

Muchas de las lenguas indígenas de América son de bajos recursos, esto quiere decir que el corpus paralelo requerido para entrenar los sistemas de traducción automática, es de un tamaño muy reducido en comparación de otros pares. Esto a su vez implica que muchas estrategias usadas para pares de lenguas de altos recursos (cómo inglés-chino), no se pueden aplicar sin modificaciones, o tendrán un mal desempeño. Adicionalmente, muchas lenguas indígenas presentan propiedades lingüísticas poco comunes para las lenguas más estudiadas en el Procesamiento de Lenguaje Natural (NLP). Por ejemplo, varias lenguas son polisintéticas. AmericasNLP desea motivar a investigadores de todo el mundo a trabajar sobre estos retos y desarrollar sistemas de MT para lenguas indígenas.

¿Cómo?

AmericasNLP invita a entregar los resultados obtenidos por sistemas de MT entrenados para lenguas indígenas. Los participantes pueden usar nuestro corpus de entreamiento y desarrollo (train and development) que proveemos. Sin embargo, no existen restricciones sobre los datos que los participantes pueden usar. Es por ello que nos referimos a esta competencia como traducción automática abierta. ¡Los participantes incluso pueden traducir datos adicionales para sus sistemas¡ Si por el otro lado, desean usar modelos pre entrenados, esto también será aceptado. La única limitante que pediremos a los concursantes es la de no usar traducción humana para los resultados finales. La métrica oficial para esta competencia es ChrF++ (Popović, 2017). Los equipos o individuos pueden participar en la competencia con el número de pares de lenguas que les gusten. Cada par de lenguas será evaluado por separado.
También pondemos a dispocisión el script de evaluación y un sistema "baseline" para ayudar a los participantes a iniciar rápidamente con el desarrollo y experimentación. Si usted está interesado en este reto, por favor regístrese aquí. >Envío de resultados Por favor envíen las salidas de sus sistemas a katharina[punto]kann[arroba]colorado[punto]edu. El título del email deberá ser "AmericasNLP2021;Shared Task Submission; <NOMBRE DEL EQUIPO>". El contenido del email deberá ser el siguiente:

Por favor agregue al email los archivos de salida del sistema en un único archivo zip, con nombre del equipo. Por ejemplo: "CUBoulder.zip". Dentro del archivo zip cada archivo deberá tener el siguiente formato para su nombre: "<CODIGO_DEL_IDIOMA>.results.<versión>". El código del idioma deberá ser el mismo del que se usa en los conjuntos de entrenamiento y desarrollo. El número de versión se usará en caso de que se tiene diversos sistemas que se envían. Deberá ser de un único dígito, por lo que no se permitirá más de 9 versiones por equipo y lengua. Cada salida debe contener todas las líneas del conjunto de prueba (1004 líneas). Las salidas de los sistemas no deberán estar tokenizados.

Para enviar un sistema, por favor mande un correo al siguiente email: Katharina.Kann[at]colorado.edu

¿Qué lenguas van a formar parte del concurso?

Las lenguas que se usan para AmericasNLP 2021 Shared Task son: Todos los sistemas se evaluarán por su habilidad de traducir del español a un idioma indígena.

Fechas Importantes

Todas las entregas se realizarán a las 11:59 pm UTC -12h, de los días indicados.

Organizadores

Manuel Mager, Arturo Oncevay, Abteen Ebrahimi, John Ortega, Annette Rios, Angela Fan, Ximena Gutierrez-Vasques, Luis Chiruzzo, Gustavo Giménez-Lugo, Ricardo Ramos, Anna Currey, Raymundo Isidro Alavez, Vishrav Chaudhary, Ivan Vladimir Meza Ruiz, Rolando Coto-Solano, Alexis Palmer, Elisabeth Mager, Thang Vu, Graham Neubig, Katharina Kann

Contacto: americasnlp-sharedtask-organizers@googlegroups.com

Referencias

Maja Popović. 2017. ChrF++: Words helping character n-grams. In Proceedings of the second conference on machine translation.