París en castellano: Alejandro de Núñez y su “Salón del libro” | |||||
| |||||
| |||||
sábado, 26 de marzo de 2011
Librería parisina especializada en textos en lengua española
viernes, 18 de marzo de 2011
El futuro de Google Translate
Ascenso, apogeo... ¿y caída?
Gracias al cruce de millones de oraciones y billones de palabras, el traductor de Google permite aventurarse en 52 idiomas. Los expertos coinciden en la utilidad de este tipo de herramientas y en sus crecientes posibilidades, pero advierten que aun en las combinaciones de palabras más simples, existe un universo gigantesco de opciones. Y esa es una barrera que los traductores virtuales difícilmente podrán atravesar.
POR Tim Adams
Si uno tradujera la frase más famosa de la literatura, la primera oración de Ana Karenina , del ruso al español con la ayuda de Google Translate, esto es lo que obtendría: “Todas las familias felices se parecen entre sí, cada familia desdichada es desdichada a su manera”.
La traducción, que se aproxima a la mejor versión “humana” de esa oración, parece un triunfo de lo que antes se llamaba inteligencia artificial y ahora, menos ambiciosamente, aprendizaje automático. La computadora puede entender el lenguaje, se nos invita a pensar. Pero pasemos las siguientes frases de Ana Karenina por el sistema y el panorama –además de la gramática– ya no será tan claro.
El resultado es mínimamente comprensible si conocemos el original, pero apenas es legible. Esa discrepancia se debe a una de las sutilezas del sistema de Google que permite a los usuarios interesados mejorar los textos traducidos. Alguien evidentemente tomó la primera frase de la obra maestra de Tolstoi y la corrigió.
Desde que las computadoras fueron una realidad, la posibilidad de usar su poder logístico para derribar las barreras del idioma ha sido una especie de Santo Grial del aprendizaje automático. Los primeros –y fallidos– intentos se basaban en el principio de que todas las lenguas podían descomponerse en dos elementos: un léxico de palabras con significados específicos y un conjunto de normas gramaticales y sintácticas para combinar esas palabras. La Guerra Fría impulsó a los organismos de inteligencia de los Estados Unidos a realizar ambiciosos esfuerzos para comprender el “código” del idioma ruso a escala industrial. El resultado fue básicamente un galimatías.
El primer avance significativo en el potencial de la traducción mecanizada se produjo a comienzos de la década de 1990, cuando IBM creó un modelo que abandonó todo esfuerzo por tratar de que la computadora “comprendiera” el texto que se ingresaba en ella y en cambio abordó la tarea instalando en la computadora las versiones comparadas de la mayor cantidad posible de textos traducidos y haciendo que el sistema calculara la probabilidad de los significados de las palabras y las frases sobre la base de los precedentes estadísticos. El pionero de este enfoque fue Frederick Jelinek de IBM, quien, desconfiando de los modelos basados en analogías con el aprendizaje humano de la gramática, dijo: “Cada vez que echo a un lingüista, el funcionamiento de nuestro sistema mejora”.
Pero unos diez años después, el sistema basado en estadísticas comenzaba a mostrar graves limitaciones, en particular cuando intentaba traducciones de idiomas en los cuales había relativamente poco texto que “aprender” como referencia. Fue en ese momento cuando Google ingresó con fuerza en este campo. El impulso inicial para el traductor de Google se remonta, según cuenta la leyenda empresaria, a una reunión en las oficinas de la compañía en California celebrada en 2004. Uno de los fundadores del motor de búsqueda, Sergey Brin, había recibido una carta elogiosa de un usuario de Corea del Sur. Brin entendía que el mensaje destacaba la innovación de su empresa pero, cuando pasó la carta por el servicio de traducción mecanizada del que Google tenía la licencia en aquel momento, el resultado fue: “El pescado crudo en tajadas zapatos desea. ¡Google algo cebolla verde!” Brin consideraba que Google debía tener la capacidad y la firme decisión de mejorar ese despropósito. Desde entonces, con la ampliación de sus intereses globales, el servicio gratuito Google Translate ha evolucionado e intenta traducciones instantáneas de 52 idiomas y es utilizado decenas de millones de veces por día para traducir páginas web y otros textos. Además, ofrece un “kit de herramientas” para que los hablantes de lenguas más marginales puedan crear sus propios servicios.
Las importantes mejoras que Google ha introducido en estos años se basan casi enteramente en su acceso único a enormes cantidades de textos traducidos, miles de millones de oraciones y billones de palabras, que pueden ser revisados para buscar coincidencias en segundos. Buena parte de esos datos proviene de transcripciones de las reuniones de las Naciones Unidas, que habitualmente son traducidas por seres humanos a seis idiomas, y de las del Parlamento Europeo, que se traducen a 23 lenguas.
Google ha incorporado texto de su gran proyecto de escaneo de libros y de otras fuentes de Internet para sumar aun más elementos a esa base de datos sintácticos. (En esto, supera a sus principales rivales en la traducción, Bing de Microsoft y Babel Fish de Yahoo, que se basan más o menos en los mismos principios.) Como empresa, Google acostumbra poner de relieve las posibilidades de este esfuerzo. Este año, por ejemplo, anunció que la herramienta de traducción iba a combinarse con una aplicación de análisis de imágenes que permitiría a una persona tomar con el celular la foto de un menú en chino y recibir una traducción instantánea al inglés. Este verano boreal, sugirió que utilizaría tecnología de reconocimiento de voz para generar subtítulos en los videos de YouTube en inglés, que entonces podrían ser inmediatamente doblados a otros cincuenta idiomas.
“Esta tecnología puede hacer desaparecer la barrera idiomática”, señaló Franz Och, que dirige el equipo de traducción mecanizada de Google. “Permitirá que cualquiera se comunique con cualquiera.” Esa promesa utópica es seductora. En su último libro, The Last Lingua Franca , Nicholas Ostler, presidente de la Foundation of Endangered Languages, afirma que los motores de traducción como los de Google llegarán a liberar al mundo de la necesidad de aprender los idiomas dominantes, como el inglés, y fortalecerán la diversidad lingüística. Ostler me dijo que estaba convencido de que estos cambios son inevitables: “El futuro es fácil de predecir, aunque no se sabe cuándo ocurrirá”.
Pese a hablar bastante fluidamente 26 idiomas, Ostler a menudo recurre al sitio de Google Translate y considera que este representa ese futuro. “Aun cuando no nos guste lo que dice, de inmediato podemos entender lo que nos devuelve o compararlo con lo que sabemos. Sigue necesitando inteligencia constructiva de parte del usuario. Pero la realidad es que es mucho mejor que antes y sin duda continuará mejorando.” ¿Una de las consecuencias de su mayor aceptación será que la gente se volverá más haragana para aprender idiomas? “En eso”, dice Ostler, “hay cierta ironía. Aunque quizá veamos un futuro más multilingüe conforme el inglés comience a retroceder, veremos menos multilingüismo en los individuos.” Las lenguas que más rápido crecen en la Red, señala en el libro, son el árabe, el chino mandarín, el portugués, el español y el francés, en ese orden. “Lo central del crecimiento en Internet”, sugiere, “pasa por la diversidad lingüística, no por la concentración.” Dado lo confuso de muchas traducciones mecanizadas en la actualidad, ¿la lengua común no seguirá estando tan lejos como siempre? Ostler sostiene que “la producción en masa siempre nos da cosas de menor calidad que lo artesanal. Lo mismo pasa con Google Translate. Aun así, no hay duda de que cuantos más datos ingresen, cuantos más idiomas se incorporen, mejor va a ser”.
Los que trabajan en las versiones más avanzadas de los modelos de traducción suelen ser un poco más cautos respecto del futuro. Phil Blunsom, que enseña aprendizaje automático y lingüística en Oxford y participó en la creación de herramientas de traducción de próxima generación, opina: “La mayoría de las dificultades que afrontamos pasan por lo que denominamos ‘ductilidad’. Aun en las combinaciones de palabras más simples, estamos revisando un universo gigantesco de opciones posibles. Para que una computadora pueda entender cómo funciona una oración, tiene que recorrer todas las opciones posibles de una estructura sintáctica entre diferentes palabras y luego deducir cuál es la más probable. Es un problema de computación exponencial, sobre todo cuando las oraciones se vuelven más largas y complejas”.
Andreas Zollmann, que se dedica a la investigación en este campo desde hace mucho y trabaja en Google Translate desde hace un año, sugiere, como Blunsom, que la idea de que pueden introducirse más y más datos para hacer que el sistema sea cada vez mejor probablemente sea una falsa premisa. “Cada vez que se duplicó la cantidad de datos traducidos introducidos, la calidad del resultado mejoró 0,5%”, afirma, pero esa duplicación no es infinita. “Ahora hemos llegado a un límite en el que no hay en el mundo muchos más datos que podamos usar”, reconoce. “Por eso, ahora es mucho más importante sumar otros enfoques y modelos basados en normas.”Allí es donde comienzan los viejos problemas. ¿Zollmann vislumbra algún camino para que esos modelos con el tiempo puedan aprender idiomas tan bien como lo hacen los seres humanos? “Ningún investigador esperaría que llegaran a ser perfectos”, dice. “Los pronombres, por ejemplo, son muy difíciles en algunos idiomas en los que el masculino y el femenino no coinciden. Si alguna vez se resolviera la traducción mecanizada de manera perfecta, tendríamos algo que es artificialmente inteligente. La lengua no es algo independiente de lo que somos.” En consecuencia, hay quienes piensan que, lejos de liberarnos de las barreras lingüísticas, las herramientas de traducción en realidad servirán para reforzarlas. Douglas Hofstadter, autor de Gödel, Escher, Bach: An Eternal Golden Braid , un libro fundamental sobre la conciencia y la inteligencia de las máquinas, así como de varios libros sobre la teoría y la práctica de la traducción, es uno de los críticos más cáusticos del entusiasmo exagerado suscitado por Google Translate. Sostiene que la capacidad de existir dentro de la lengua y de moverse entre lenguas, de entender el tono y la resonancia cultural, los chistes, los juegos de palabras y las expresiones idiomáticas son lo que nos hace más humanos y más individuos (uno de sus libros se basó en pedir a ochenta personas que tradujeran el mismo poema y deleitarse con las ochenta versiones diferentes que obtuvo).
Los modelos estadísticos, dice, comienzan en el lugar equivocado. “No hay ningún intento de crear comprensión y por lo tanto Google Translate está condenado al mismo fracaso eterno. Por supuesto que a veces obtiene buenos resultados pero básicamente es muy tonto. Brinda un servicio de muy baja calidad que siempre producirá algo que no supera mucho el nivel del disparate. Supongo que todos cederemos a las presiones para usarlo en algún momento, pero nunca captará el sabor de las frases.” Hofstadter sugiere que así como parece gustarnos, perversamente, la idea de que el mundo sea cada vez más pequeño, también nos gusta pensar que entender la lengua de algún modo es algo mecánico, otro problema que podemos tercerizar a nuestras pantallas. “Entender el mundo es aquello para lo que tienen habilidad los seres humanos y para lo que no la tienen en lo más mínimo las máquinas. Puede que pronto todos seamos usuarios de Google Translate pero también puede que descubramos que, ahora más que nunca, nos hemos perdido en la traducción.” (c) The Guardian y clarin Traduccion de Elisa Carnelli
martes, 15 de marzo de 2011
Los prefijos: más información
Prefijos, otra vez, y no será la última
Graciela Melgarejo
LA NACION
Todos los mensajes de los lectores son bienvenidos, pero en el caso específico de los dos que hoy se reproducen, al ser sus autores académicos de la lengua, contribuyen también a "limpiar, fijar y dar esplendor" al idioma de todos.
El doctor Pedro Luis Barcia, presidente de la Academia Argentina de Letras (AAL), escribe: "Sobre Fundéu, quiero agregar una importante información. La Academia Argentina de Letras (la única de las 22) trabaja desde el 1º de enero de este año en convenio con la Fundéu. Tenemos un equipo que elabora propuestas (después de una compulsa cotidiana de los diarios argentinos en línea) y las envía a la central. Desde allí, la reenvían a nosotros y a ADEPA y a FOPEA, con quienes la AAL tiene convenio. Ambas entidades reciben diariamente una recomendación como la que le remito. De paso, le comento que está a punto de salir un Diccionario argentino de dudas idiomático , publicado por AAL y Santillana, que estimo será de interés para periodistas y usuarios en general".
Barcia agrega un archivo adjunto, "Prefijos", que reza así: "Fundéu BBVA en la Argentina: los prefijos se escriben unidos a la palabra a la que acompañan. La Fundación del Español Urgente (Fundéu BBVA) en la Argentina recuerda que los prefijos se escriben unidos a la palabra que acompañan (antivirus, supermodelo, anteayer, exmarido, sobrealimentar, contraoferta, prepago) . El prefijo irá separado solo si afecta a varias palabras que tienen un significado unitario (ex alto cargo, vice primer ministro, anti pena de muerte, ex chico de los recados, pro derechos humanos, anti copias pirata, super a gusto...) o si afecta a nombres propios formados por más de una palabra (anti Naciones Unidas, pro Barack Obama, pro Asociación Nacional de Educadores) . El prefijo se escribirá con guion cuando la siguiente palabra comience por mayúscula ( anti-ALCA, anti-Mussolini, pro-Obama ) o sea un número ( sub-21, super-8 )".
No está de más recordar aquí que la AAL tiene un Servicio de Dudas Idiomáticas (4802-3814), consultado por muchos estudiantes, investigadores y escritores.
El otro e-mail fue enviado por el doctor José Luis Moure, profesor titular de Historia de la Lengua (FFyL, UBA) y también miembro de la AAL: "Las cuestiones vinculadas con la corrección o incorrección lingüísticas suelen conducir habitualmente al corrector a la desazón de comprobar que sus razones rara vez se imponen sobre el uso, una vez que el empleo de cierta forma léxica o gramatical ha logrado cierta aceptación pública. (?) Hecha esta melancólica salvedad, me permito llamar la atención sobre el vocablo «repitencia», tratado la semana pasada en su columna. Si bien la terminación - ncia es inobjetable, a la hora de escoger la base a la que añadirse lo aconsejable habría sido aplicar el sensato principio de la analogía. Ocurre que el vocablo «repetir» (y por ende, el propuesto «repitencia») en cuestión remiten al verbo latino pétere, que dio en castellano pedir , pero que también está en la base de otros vocablos como appétere y compétere , de los cuales el castellano heredó apetito, inapetente , (in)apetencia, competir, competencia, competente, competición , etc. Adviértase que todos ellos mantuvieron la primera vocal /e/ del verbo latino, de modo que el mecanismo analógico, cuando se requiere estrenar un derivado de «repetir», en armonía con apetencia y competencia , aconseja repetencia y no repitencia ".
Como bien lo dice el académico Moure (por eso lo de la "melancólica salvedad"), los caminos de la lengua que siguen los hablantes no siempre son los más sensatos. A la antigua repetición se superpuso (y ganó la apuesta) repitencia (que ni siquiera "suena" bien), un tecnicismo que busca ser más preciso. El tiempo dirá si se trata de una efímera moda o la palabra ha llegado para quedarse, como es el caso de resiliencia , que de la física saltó a la psicología y ya figura en el DRAE .
© La Nacion
Twitter: @gramelgar