Los errores más vergonzosos de las aplicaciones de traducción (y cómo pretenden solucionarlos)

Dos personas en una conversación Derechos de autor de la imagen Getty Images
Image caption Las máquinas cada vez son mejores comprendiendo idiomas, pero siguen cometiendo errores.

Durante el Mundial de Rusia hubo un aumento brutal en el uso de Google Translate. La compañía dice que los aficionados trataban de entablar conversaciones con sus anfitriones y con otros asistentes al evento de todos los rincones del mundo.

Por eso las palabras "estadio" y "cerveza" estuvieron entre las más buscadas a lo largo del torneo.

Los diccionarios no tardarán en desaparecer. Una encuesta reciente del British Council, en Reino Unido, encontró que cerca de dos tercios de los jóvenes entre 16 y 34 años usan aplicaciones de traducción para aprender idiomas y comprender la jerga local.

Pero aunque este tipo de apps mejoran cada día, todavía no son del todo confiables. Una quinta parte de los entrevistados dijeron que experimentaron malentendidos durante sus vacaciones a causa de estas plataformas.

El problema es especialmente agudo para quienes hablan idiomas no predominantes.

¿Por qué ocurren estos errores de traducción en la era de las supercomputadoras y el aprendizaje automático?

Derechos de autor de la imagen Getty Images
Image caption Las lenguas minoritarias como el maorí (Nueva Zelanda) se ven afectadas por esos errores.

Mensajes apocalípticos

Los galeses han observado algunas traducciones en Google particularmente "desagradables". Por ejemplo, una señal que decía "Explosión controlada en curso" se tradujo como "Gweithwyr yn ffrwydro", que significa "trabajadores explotando".

Y recientemente un usuario de Google Translate descubrió que escribir "perro" en inglés (dog) 18 veces produce una traducción en maorí que dice así: "El Reloj del Apocalipsis está a tres minutos para la medianoche. Estamos viviendo personajes y cambios dramáticos en el mundo, lo cual indica que nos estamos acercando cada vez más al final de los tiempos y al regreso de Jesús".

Una de las razones por las que suelen ocurren errores como esos es que las palabras a menudo tienen más de un significado. Las palabras homógrafas, tal y como se las conoce, pueden provocar situaciones vergonzosas no solo para los turistas, sino también para los gobiernos.

Por ejemplo, la fallida versión en alemán del informe oficial Brexit del gobierno del Reino Unido, que en julio tradujo la frase "ejercicio democrático" como "demokratische Übung", en donde "Übung" se traduce como ejercicio físico, y no práctica.

Para gestionar errores de traducción como esos, las aplicaciones refinan constantemente las formas en las que aplican el aprendizaje automático.

Hacen uso de textos previamente traducidos para obtener respuestas, comprobando el contexto en el que se usó antes la palabra y seleccionando el significado más probable.

"Paridad humana"

A principios de este año, Microsoft anunció que había conseguido la "paridad humana" en la calidad de sus traducciones: un conjunto de artículos en chino fueron traducidos automáticamente al inglés, y un equipo de expertos independiente descubrió que coincidían con las traducciones proporcionadas por dos traductores profesionales (humanos).

Derechos de autor de la imagen Microsoft
Image caption Xuedong Huang dice que la traducción automática está a punto de aprender las normas del lenguaje.

La clave para lograr ese hito fue el uso de redes neuronales profundas, dijo Microsoft, además de la traducción automática estadística.

Eso significa que refinaron la primera traducción "aproximada" varias veces en cada dirección, comparando, contrastando y aprendiendo cada vez, de forma similar a un humano.

Un sistema de traducción ya tiene una idea bastante clara de cómo es una frase gramatical en cada lenguaje, en base a los documentos que aprendió en el pasado.

"Los sistemas modernos abordan la traducción como aprendizaje de la transformación del texto entre idiomas de traducciones humanas existentes, aprovechando los avances en estadística aplicada y aprendizaje automático", le cuenta a la BBC Xuedong Huang, director mundial de tecnologías del habla de Microsoft.

Alcanzar la paridad humana parece un logro impresionante. Pero incluso Microsoft admite que traducir noticias históricas no es lo mismo que traducir conversaciones humanas, en las que las expresiones, los acentos y los dialectos dificultan el reto.

Derechos de autor de la imagen Getty Images
Image caption Una conversación, con sus acentos, tonos y expresiones, es mucho más compleja que un texto.

Las lenguas minoritarias

El año pasado, Google lanzó unos audífonos inalámbricos llamados Pixel Buds que pueden traducir 40 idiomas en tiempo real, aunque su precisión es un tema de debate.

Y la startup neoyorkina Waverly Labs desarrolló su propio auricular de traducción Pilot y una aplicación para smartphones capaz de traducir 15 idiomas en tiempo real, dice la compañía.

Pero cuando tratas de traducir entre dos idiomas para los que no hay una base de datos tan amplia, de cingalés (Sri Lanka) a pastún (Afganistán), por ejemplo, el reto es mucho mayor.

Es posible producir una traducción de cingalés a inglés. Pero claramente hay errores en el caso mencionado arriba.

Derechos de autor de la imagen Waverly Labs
Image caption Audífonos como estos traducen en tiempo real hasta 15 idiomas.

En cuanto al mensaje apocalíptico en maorí, una razón de ese extraño resultado podría ser que en el caso de las lenguas minoritarias se confía demasiado en documentos que existen en ambos idiomas. En este caso, la Biblia.

"Si entrenas a tu modelo con frases que provienen de viejos manuscritos y tratas de traducir una conversación entre gente que habla hoy día, el modelo quedará muy confundido porque tanto el contenido como el estilo de las conversaciones actuales serán muy diferentes a lo que encontrarás en el manuscrito", le dice a la BBC el especialista en inteligencia artificial de Facebook Guillaume Lample.

Derechos de autor de la imagen Getty Images
Image caption ¿Esa no fue la traducción que escuchaste?

Lenguas muertas... ¿y extraterrestres?

Lample y un equipo de investigadores de Facebook y de la Universidad Sorbona de París, Francia, están trabajando en un nuevo proyecto para buscar soluciones al problema.

Para ello, tratan de buscar los patrones en los que se usan las palabras. Por ejemplo, en inglés "cat" and "furry" suelen usarse de forma similar que "gato" y "peludo" en español.

También aprenden lo que se conoce como "word embeddings",una técnica en donde las palabras o frases son vinculadas a números. Así, pueden crear un diccionario bilingüe "bastante preciso".

Después, aplican las técnicas de Microsoft Translator a su traducción final (sin referencias bíblicas esta vez).

Lample dice que el sistema podría tener aplicaciones más allá de los idiomas que hablamos hoy en día: "Si podemos recabar una cantidad razonable de textos, podremos revivir lenguas muertas", asegura.

E incluso más que eso...

"Podríamos aprender a comunicarnos con extraterrestres amistosos", sugiere Lample. "Pero primero necesitarían hablar mucho entre ellos. Y sobre cosas relativamente similares a las que hablamos entre nosotros".

Ahora puedes recibir notificaciones de BBC News Mundo. Descarga la nueva versión de nuestra app y actívala para no perderte nuestro mejor contenido.

Contenido relacionado