Category Archives: aymara

Observaciones acerca del traductor de quechua, aymara y guaraní de Google Translate

Hay que reconocer el nuevo traductor de quechua, aymara y guaraní de Google Translate (https://translate.google.com) por valorar las lenguas indígenas. Sin embargo, el traductor tiene varios problemas todavía y es necesario mejorarlo para que sea útil para el público boliviano.

El traductor quechua es basado en el quechua chanka de Ayacucho. El traductor debería indicar que la lengua es “quechua chanka” en lugar de solo “quechua”, porque quechua es una familia de lenguas que contiene mucha variación. Para un quechua-hablante de Cuzco, Huancayo, Ancash, Bolivia, Ecuador o Argentina, el traductor de Google esta produciendo algo como catalán o gallego para un castellano-hablante. El traductor no es muy útil para los quechua-hablantes de Bolivia, que tienen 10 letras adicionales en su alfabeto (CH’, CHH, K’, KH, P’, PH, Q’, QH, T’, TH) que no existen en el quechua chanka. El traductor castellano→quechua produce texto en el dialecto chanka sin las letras glotalizadas y aspiradas del quechua boliviano, entonces no distingue palabras como tanta (juntos), t’anta (pan) y thanta (usado/viejo), porque todas esta palabras son representadas como tanta por el traductor.

Otro problema es que el quechua chanka contiene varios sufijos que no existen en el quechua boliviano como los comentarios de clausula -mí, -sí y -chá, el disculpativo -iki, el vocativo -ya, el efático reportativo -sá y el distributivo equitativo -nka. El sufijo atestiguativo -m / -mi es muy común el quechua chanka y cuzqueño, pero no es utilizado por la mayoría de quechua-hablantes de Bolivia, y el sufijo reportativo -s / -si no es entendido en algunas regiones de Bolivia. El sufijo aditivo -pas es generalmente pronunciado como -pis en Bolivia. Con estas diferencias de dialecto, el traductor castellano→quechua produce texto que puede causar confusión para los quechua-hablantes de Bolivia.

Aparte de estos problemas dialectales, hay algunos problemas en las traducciones producidas por Google Translate. Por ejemplo:

Véndeme estas llamas. → Kay nina rawraykunata rantikuway.

La traducción dice literalmente “Véndese este fuego fuegos”. Debería ser: Kay llamakunata rantiway. Google traduce “llama” en el sentido de “flama” (de un fuego), que es un error entendible porque la palabra tiene dos sentidos, pero debe traducirlo como “nina” o “rawray”, en lugar de usar ambas palabras que son sinónimos. Además, no hay razón incluir el sufijo reflexivo -ku porque el verbo no es reflexivo.

Me gusta pan. → Tanta gustan.

Debería ser: Tanta gustawan. Sin el objeto indirecto de primera persona -wa, la traducción de Google significa “el pan gusta”.

Me lo pidió. → Nispa tapuwarqa.

Debería ser: Mañawarqa. Lo ha traducido como “diciendo me preguntó”. No hay razón aumentar Nispa (“diciendo”) y debe usar el verbo mañay, que significa “prestar” o “pedir” en lugar de tapuy (“preguntar”).

Quiero usar el baño. → Quiero utilizar el baño.
Voy al baño. → Bañomanmi rini.

Parece que texto castellano fue mezclado con el texto de quechua en el entrenamiento del traductor de quechua, porque a veces castellano sale en lugar de quechua, pero con otras palabras de castellano como en el primer ejemplo que convierte “usar” a “utilizar”. En el segundo ejemplo, la frase es traducida al quechua, pero contiene el sufijo atestiguativo -mi, que la mayoría de quechua-hablantes bolivianos no reconocen.

El traductor de quechua→castellano es mejor que el traductor castellano→quechua. Parece que el traductor quechua→castellano fue entrenado con textos de ambos quechua chanka y quechua cuzqueño, y el quechua boliviano esta cerca del quechua cuzqueño, entonces el traductor puede reconocer algunas variaciones dialectales y puede traducir la mayoría de texto introducido por un quechua-hablante boliviano. Por ejemplo, puede reconocer diferentes formas del modo progresivo en verbos. Traduce correctamente ruwachkani (la forma normalizada, usado en Cuzco y el norte de La Paz), ruwashani (usado en Cuzco, Chuquisaca y partes de Cochabamba), ruwasani (usado en partes de Cochabamba) y ruwashiyani / ruwashiani (usado en partes de Potosí) como “estoy haciendo”.

Sin embargo, el traductor de quechua→castellano también puede producir errores gramaticales. Por ejemplo:

Lluqsichkani. → Voy a salir.

Debería ser: Estoy saliendo. Google está confundiendo el modo futuro por el modo de presente progresivo.

Parece que Google esta usando machine learning (entrenamiento por maquina) para crear su traductor de quechua y aymara en lugar de programación manual de la gramática. Con machine learning el traductor aprende por analizar grandes cantidades de traducciones, pero el traductor puede hacer errores como confundir el futuro por el presente progresivo si las traducciones de entrenamiento hacen el mismo error. Por esta razón es muy importante que el traductor sea entrenado con traducciones exactas y Google no utiliza cualquier texto encontrado en el internet sin revisión de un experto en la lengua para asegurar que las traducciones de entrenamiento sean buenas.

Lastimosamente el traductor de aymara sufre de los mismos problemas como el traductor de quechua y puede producir texto equivocado. Por ejemplo:

Voy a mi casa. → Utar kutt’aña.

A menudo el traductor aymara no agrega los posesivos (-ja, -ma, -pa y -sa) y no esta conjugando muchos verbos correctamente, que se puede observar en este ejemplo, que es traducido literalmente como “regresar a casa”, con el verbo en el modo infinitivo y sin el posesivo “mi”. Debería ser: Utajar sartwa.

Estoy yendo al cine. → Nayax cine ukar sarañ munta.

Google traduce esta frase como “yo quiero ir al cine”, que cambia su sentido. Además, falta el sufijo -wa para una oración afirmativa. Debería ser: Nayax cine ukar sarasktwa.

Me dio la plata. → Jupaw uka qollqe churitu.
¿tienes plata? → qullqix utjtamti?

Otro problema es que el traductor está mezclando los alfabetos de tres vocales (A, I, U) y cinco vocales (A, E, I, O, U). Por ejemplo, “plata” es traducida como qollqe o qullqi en diferentes ocasiones.

Dame pan. → Tʼantʼa churapjjeta.
Ellos miran la televisión → Jupanakax TV uñch’ukipxi.

En algunas ocasiones el traductor utiliza escritura de alfabetos anticuados como el uso de JJ en lugar de X, como se puede observar el sufijo -pxi, que es deletreado como -pjje en el primer ejemplo.

Google debería excluir todo el texto que utiliza 5 vocales y alfabetos anticuados para evitar confusión en la ortografía cuando está entrenando el traductor.

Quechua y aymara son lenguas aglutinantes que contienen más que 100 sufijos diferentes, y estos sufijos pueden ser combinados. Una raíz en quechua y aymara puede formar medio de millón de palabras con la combinación de sufijos. Algunos sufijos excluyen a otros sufijos, y hay un orden en la combinación de sufijos. Además la lengua aymara tiene reglas muy complicadas de elisión vocálica que no existen en quechua. Teófilo Laime ha documentado 5 clases de sufijos aymaras según sus diferentes reglas de elisión vocálica.

Para aprender las reglas complicadas de morfosintaxis en una lengua aglutinante, el entrenamiento de un traductor de quechua y aymara requiere mucho más texto que el entrenamiento de una lengua indoeuropea como inglés o castellano donde los sufijos generalmente no son combinados. Probablemente Google no tuvo mucho texto para entrenar el traductor de quechua y aymara, porque menos texto es publicado en estas lenguas. Tal vez sería mejor programar manualmente las reglas de morfosintaxis en lugar de usar machine learning para aprenderlas, y los Institutos de Lengua y Cultura de Quechua y Aymara pueden proporcionarle estas reglas a Google.

El traductor de guaraní produce traducciones adecuadas, pero es basado en el guaraní de Paraguay, que utiliza otro alfabeto que el guaraní de Bolivia. El alfabeto boliviano utiliza la diéresis (¨) para designar vocales nasales en lugar de la tilde de la eñe (~) en el alfabeto paraguayo, y utiliza el I cortado (Ɨ) en lugar del Y. El guaraní boliviano contiene las vocales A,Ä,E,Ë,I,Ï,Ɨ,Ï,O,Ö,U,Ü que corresponden a las vocales A,Ã,E,Ẽ,I,Ĩ,Y,Ỹ,O,Õ,U,Ũ en el guaraní paraguayo.

La cuestión es si Google está dispuesto colaborar con los Institutos de la Lengua y Cultura de Bolivia para mejorar la traducción de quechua, aymara y guaraní, y ofrecer un traductor afinado para los dialectos de Bolivia. En otras lenguas Google Translate generalmente no ofrece variaciones dialectales, pero quechua es una familia de lenguas. Si Google Translate ofrece castellano, gallego y catalán que son variantes de lenguas iberorromances, también debería ofrecer variantes de quechua, porque la familia de quechua contiene mucha variación como las lenguas iberorromances.

Google Translate puede ser una herramienta maravillosa para las lenguas originarias de Bolivia porque soporte 133 lenguas diferentes. Puede traducir quechua, aymara y guaraní a lenguas extranjeras como chino, ruso, persa, etc. Sin embargo, sólo traduce hasta 5000 palabras por gratis. Para traducir documentos con más palabras, es necesario pagar por el uso de Cloud Translate que cobra US$ 0,08 por página o US$ 20 por mes por cada millón caracteres de traducción. Ver los detalles: https://cloud.google.com/translate/pricing Lastimosamente la interfaz de Cloud Translate no es para usuarios normales sin conocimiento técnico. Es una API (interfaz de programación de aplicación) que es llamado por código REST, entonces el servicio pagado no es muy útil para el público boliviano.

Google Translate es software privativo y la política del Estado boliviano promueve el uso de software libre, según la Ley No. 164. Ley General de Telecomunicaciones, Tecnologías de Información y Comunicación promulgada el 8 de Agosto de 2011, que estipula:

Art 77. Software Libre Los órganos ejecutivo, legislativo, judicial y electoral, en todos sus niveles promoverán y priorizarán la utilización del software libre y estándares abiertos, en el marco de la soberanía y seguridad nacional.

El órgano ejecutivo del nivel central del Estado elaborará el plan de implementación de software libre y estándares abiertos en coordinación con los demás órganos del Estado y entidades de la administración pública.

A pesar de esta ley, Google Translate ya es muy utilizado por el público boliviano. Existen otros buscadores de internet como Bing, Yahoo! y DuckDuckGo, pero Google controla 92% de las búsquedas por internet, entonces el traductor de Google va a ser utilizado cada vez que se busca como decir palabras en quechua, aymara o guaraní. Por esa razón, se recomienda que los Institutos de Lengua y Cultura (ILCs) de Bolivia colaboren con Google para mejorar su traductor en estas lenguas originarias. Los ILCs pueden ofrecer revisar los textos de entrenamiento utilizados por el traductor para mejorarlo y pueden proporcionarle a Google más traducciones y las reglas de gramática y morfosintaxis para entrenar el traductor.

Estos mismos textos de entrenamiento también pueden ser re-utilizados para crear un traductor de software libre que no tiene restricciones de licencia y puede ser afinado para las variantes de Bolivia. Se recomienda que los ILCs colaboren con Google para mejorar su traductor, porque sería una oportunidad para crear textos de entrenamiento para un futuro traductor de software libre.

Questions about how to add a new language to GNOME

I recently posted some questions to GNOME’s i18n mailing list <gnome-i18n@gnome.org> and I think that they raise some interesting questions about the difficulties of using minority languages in Linux. I am reposting them here to see if anyone has any comments/suggestions:


We are creating a new distro called PluriOS, which is focused on users in Bolivia, and one of our goals is to offer the interface in Aymara, Quechua and Guaraní, which are native languages spoken in Bolivia. Our distro is a derivative of Ubuntu Cinnamon Remix, so we are mainly focused on translating Cinnamon, but there are some elements that we need to translate in GNOME, such as the menus. Our goal is to translate about 10K words for each language and create a glossary of common terms (like “file”, “directory”, “user”, “menu”, “window”, etc.) and then try to recruit volunteers to translate the rest using our glossary.

Continue reading

Propuesta para traducir Firefox en quechua y aymara

Actualmente estamos creando una distribución boliviana de Linux llamada PluriOS. Este proyecto es una iniciativa de OpenIT, que es una empresa de software libre basada en Santa Cruz. Una de nuestras metas es ofrecer PluriOS en las lenguas originarias de quechua, aymara y guaraní, que tiene aproximadamente 2,2 millones, 1,5 millones y 60 mil hablantes en Bolivia, respectivamente.

OpenIT tiene fondos para traducir en estas tres lenguas 10.300 palabras en Cinnamon, que es la interface de PluriOS, pero sólo consiste del menú principal y la opciones del sistema. Hasta ahora hemos traducido aproximadamente 9000 palabras en aymara de la interfaz de Cinnamon, pero todavia no hemos empezado las traducciones en quechua y guaraní. Aca es una comparación de la configuración del sistema en castellano y aymara:

Continue reading

El desafio de unir la escritura de aymara

El articulo “Consensúan cinco variantes del aymara para tener un solo idioma” en Página Siete reporta que el primer Congreso Internacional de la Lengua y Cultura Aymara está creando un alfabeto único para escribir todos los variantes de aymara. El articulo no explica bien los problemas en la unificación de la escritura de aymara.

Continue reading

Repartimos CDs de lenguas orginarias en la primera Feria Municipal de Tecnologías en La Paz

Runasimipi.org compartó un stand (puesto) con 5 otros grupos de software libre en la feria de viernes 15 de mayo hasta domingo 17 de mayo de 2009. El público mostró mucho interés en nuestro software en quechua y aymara. Repartimos 200 folletos acerca de Runasimipi en menos de 10 horas y vendemos cerca de 70 de nuestros CDs (yo no estaba contando bien).
Continue reading

Articulos en la prensa acerca de AbiWord en Aymara

Anoche la presentación de AbiWord en Aymara fue muy bien. Estoy muy agradecido a todos que han ayudado para organizar el evento y hacerlo un éxito. Había cerca de 250 personas en la presentación. Había entrevistas con algunos de los ministros en la televisión sobre nuestro software.

La prensa en línea ha reportado sobre AbiWord en aymara. Muchos sitios de software libre ha puesto nuestro articulo en sus páginas web:
Continue reading

Por que tradujimos AbiWord en aymara en la Unidad Nacional de Antropología

Porque lenguas originarias son importantes

Un lengua es más que un conjunto de vocabulario. Lenguas son el medio de conocimiento, tradiciones orales y culturas que enriquecen la vida humana. La pierda de un lengua es la pierda de todas las canciones, cuentos, modos de pensamiento, y formas de sabiduría (por ejemplo medicina) que fueron expresado en esta lengua. Lo que se llama la “cultura boliviana” es una diversidad de muchas culturas. Sin esta diversidad y la interacción creadora entre sus culturas, Bolivia perdería mucho de su fundación cultura y intelectual. Continue reading