First Workshop on NLP for Indigenous Languages of the Americas (AmericasNLP)

Competencia (Shared Task)

Nuestro Shared Task 2021 ha concluido oficialmente. Por favor mantenganse al tanto para ver el artículo del mismo.
Lista de correos de la competencia: AmericasNLP 2021 Shared Task mailing list
El repositorio GitHub de la competencia AmericasNLP 2021 (datos, script de evaluación, baseline)
Registro.
Información particular de los pares de datos (únicamente en inglés)

¿Qué es?

The La competencia AmericasNLP 2021 (Shared Task) sobre traducción automática abierta es una competencia que tiene por objetivo motivar el desarrollo de sistemas de traducción automática (MT) para las lenguas indígenas de América. Los participantes crearán sistemas de traducción entre español y una serie de lenguas indígenas del continente americano.

¿Por qué?

Muchas de las lenguas indígenas de América son de bajos recursos, esto quiere decir que el corpus paralelo requerido para entrenar los sistemas de traducción automática, es de un tamaño muy reducido en comparación de otros pares. Esto a su vez implica que muchas estrategias usadas para pares de lenguas de altos recursos (cómo inglés-chino), no se pueden aplicar sin modificaciones, o tendrán un mal desempeño. Adicionalmente, muchas lenguas indígenas presentan propiedades lingüísticas poco comunes para las lenguas más estudiadas en el Procesamiento de Lenguaje Natural (NLP). Por ejemplo, varias lenguas son polisintéticas. AmericasNLP desea motivar a investigadores de todo el mundo a trabajar sobre estos retos y desarrollar sistemas de MT para lenguas indígenas.

¿Cómo?

AmericasNLP invita a entregar los resultados obtenidos por sistemas de MT entrenados para lenguas indígenas. Los participantes pueden usar nuestro corpus de entreamiento y desarrollo (train and development) que proveemos. Sin embargo, no existen restricciones sobre los datos que los participantes pueden usar. Es por ello que nos referimos a esta competencia como traducción automática abierta. ¡Los participantes incluso pueden traducir datos adicionales para sus sistemas¡ Si por el otro lado, desean usar modelos pre entrenados, esto también será aceptado. La única limitante que pediremos a los concursantes es la de no usar traducción humana para los resultados finales. La métrica oficial para esta competencia es ChrF++ (Popović, 2017). Los equipos o individuos pueden participar en la competencia con el número de pares de lenguas que les gusten. Cada par de lenguas será evaluado por separado.
También pondemos a dispocisión el script de evaluación y un sistema "baseline" para ayudar a los participantes a iniciar rápidamente con el desarrollo y experimentación. Si usted está interesado en este reto, por favor regístrese aquí. >Envío de resultados Por favor envíen las salidas de sus sistemas a katharina[punto]kann[arroba]colorado[punto]edu. El título del email deberá ser "AmericasNLP2021;Shared Task Submission; <NOMBRE DEL EQUIPO>". El contenido del email deberá ser el siguiente:

Línea 1: Nombre del equipo
Línea 2: Nombre de los miembros del equipos
Línea 3: Códigos de las lenguas de que se envían en cualquier orden (usaremos esta información para revisar que corresponda a los archivos enviados).
[opcional] Línea 4: Un link al repositorio de github con el código que puede ser usado para reproducir el resultado. Esta parte no es requerida para enviar su sistema, pero se sugiere hacerlo.

Por favor agregue al email los archivos de salida del sistema en un único archivo zip, con nombre del equipo. Por ejemplo: "CUBoulder.zip". Dentro del archivo zip cada archivo deberá tener el siguiente formato para su nombre: "<CODIGO_DEL_IDIOMA>.results.<versión>". El código del idioma deberá ser el mismo del que se usa en los conjuntos de entrenamiento y desarrollo. El número de versión se usará en caso de que se tiene diversos sistemas que se envían. Deberá ser de un único dígito, por lo que no se permitirá más de 9 versiones por equipo y lengua. Cada salida debe contener todas las líneas del conjunto de prueba (1004 líneas). Las salidas de los sistemas no deberán estar tokenizados.

Para enviar un sistema, por favor mande un correo al siguiente email: Katharina.Kann[at]colorado.edu

¿Qué lenguas van a formar parte del concurso?

Las lenguas que se usan para AmericasNLP 2021 Shared Task son:

Español–hñähñu
Español–wixarika
Español–nahuatl
Español–guaraní
Español–bribri
Español–rarámuri
Español–quechua
Español–aymara

shipibo-konibo

Español–asháninka

Todos los sistemas se evaluarán por su habilidad de traducir del español a un idioma indígena.

Fechas Importantes

~~Publicación de los datos pilotos y el script de evaluación: Diciembre 16, 2020~~
~~Publicación de los pares de lenguas: Diciembre 22, 2020~~
~~Publicación de los corpora de entrenamiento y el sistema baseline: Enero 01, 2021~~
~~Publicación de los primeros conjuntos de desarrollo: Enero 15, 2021~~
~~Publicación de las frases a traducir (test set) y los segundos conjuntos de desarrollo: marzo 01, 2021~~
~~Entrega de resultados (shared task deadline): ~~Marzo 15, 2021~~ Extendido: Marzo 20, 2021~~
~~Anuncio de los resultados: Marzo 18, 2021 Extendido: Marzo 29~~
Entrega de los artículos de descripción de los sistemas: Abril 01, 2021
Notificación de aceptación: Abril 15, 2021
Versiones finales de los artículos: Abril 26, 2021
Taller: Junio 11, 2021

Todas las entregas se realizarán a las 11:59 pm UTC -12h, de los días indicados.

Organizadores

Manuel Mager, Arturo Oncevay, Abteen Ebrahimi, John Ortega, Annette Rios, Angela Fan, Ximena Gutierrez-Vasques, Luis Chiruzzo, Gustavo Giménez-Lugo, Ricardo Ramos, Anna Currey, Raymundo Isidro Alavez, Vishrav Chaudhary, Ivan Vladimir Meza Ruiz, Rolando Coto-Solano, Alexis Palmer, Elisabeth Mager, Thang Vu, Graham Neubig, Katharina Kann

Contacto: americasnlp-sharedtask-organizers@googlegroups.com

Referencias

Maja Popović. 2017. ChrF++: Words helping character n-grams. In Proceedings of the second conference on machine translation.

Patrocinadores

Diseño: Rebeca Guerrero y Manuel Mager

Platinium	Silver	Bronze
	Institute of Computational Linguistics, University of Zurich NAACL Emerging Region Funding Google Research	Snorkel AI Comunidad Elotl