Propuesta de creación de L10N.net

Un esfuerzo metodológico y de reutilización de traducciones para el software libre

Ismael Olea

Historial de revisiones
Revisión 0.1 23 de diciembre de 2003
Primera versión
Revisión 0.2 31 de diciembre de 2003
Desarrollando la esquemática primera versión.
Revisión 1 13 de enero de 2004
Primera versión definitiva.

Tabla de contenidos

(breve) Manifiesto L10N.net
Antecedentes
Definición del problema
Objetivos generales
Promotores
Fases
Metodología
Esfuerzos de estandarización complementarios
Grupos de trabajo
Organización:
Servicios
Estado actual
Se busca
Bibliografía:

Resumen

L10N.net pretende ser el punto de intercambio, colaboración, estandarización, sinergia y reutilización de trabajos de traducción y adaptación del software a detalles lingüísticos y culturales nacionales y regionales. Este es un borrador inicial del proyecto.

(breve) Manifiesto L10N.net

Párrafo I. Partiendo del principio de que la informática ha de entenderse como un compromiso social: la computación al servicio del ser humano, y no el envilecido contrario, asumimos el compromiso cultural de la informática, según el cual el usuario tiene el derecho de que la informática, como medio de comunicación y expresión, ha de respetar con rigor su realidad lingüística y cultural. Y este compromiso se aplica tanto a lo que se ofrece para ser leído como a las ayudas que se puedan proporcionar para lo escrito.

Párrafo II. Creemos y promovemos que los datos, la información y el conocimiento necesarios para conseguirlo deben ser públicos y no estar restringidos en su uso, copia y mejora por derechos ni regalías de explotación.

Antecedentes

El esfuerzo de los desarrolladores de software libre y el de los hablantes de cada lengua ha llevado a un estado significativamente avanzado de la adaptación del mismo a muchas de ellas. En términos de traducción, básicamente se ha usado la tecnología gettext, que está fuertemente implantada en los proyectos de software más importantes, como GNOME y KDE. Sin embargo este considerable avance no ha llegado todavía a la documentación y también pone en evidencia en los trabajos faltas de rigor lingüístico o de traducción. Por otro lado prácticamente cada proyecto de desarrollo ha creado su propio esfuerzo de L10N, llegando al extremo de atomizarse en aplicaciones, cada uno independiente de los demás y con frecuencia re-inventando la rueda en cuanto a métodos de trabajo y recursos lingüísticos. Un ejemplo paradigmático es la multitud de nomenclaturas y glosarios de traducción que pueden encontrarse, sin que pueda decirse de la mayoría que sean de un gran rigor lingüístico, a pesar del esfuerzo y las buenas intenciones de los autores.

Definición del problema

Visto lo anterior, podemos descomponer y concretar el problema principal en otros más definidos:

Esfuerzos de L10N múltiples y duplicados. Prácticamente todo el software de usuario debe ser traducido y el que lo intente la mayoría de los proyectos de desarrollo de software libre es sin duda acertado. El problema es que hasta ahora cada uno de ellos ha debido hacerlo de forma independiente y autónoma y con poca eficacia en el aprovechamiento de recursos. Podemos pensar que ocurre porque los miembros de un proyecto de desarrollo no suelen tener constancia de lo que ocurre en otros diferentes, ni siquiera del hecho de que para ciertos asuntos comparten casi el 100% de los mismos problemas. Y también que hasta ahora no hay disponible un punto de encuentro que pueda resolver esta situación.

Mala calidad de muchas traducciones. No hay que excavar mucho para encontrarse «perlas» en las traducciones del software libre. En algunos casos llegan a ser puras faltas de redacción, aunque para hacer honor a la verdad este defecto es bastante menos común en los esfuerzos más populosos y organizados aunque a veces parece la tónica en los casos de aplicaciones independientes. Otros casos también relativamente menores son los de los errores ortográficos, bastante lamentables porque al menos sí hay correctores aceptables disponibles, y los ortotipográficos, que son tristemente comprensibles porque muy poca gente ha sido formada en detalles como los del apropiado uso de las comillas en su idioma (por ejemplo las comillas españolas «»), el uso de los espacios y otros signos. Caso aparte son los errores semánticos y de traducción. Con los primeros queremos referirnos a las nomenclaturas y terminologías incongruentes, que si no lo son entre sí, lo suelen ser con su propio idioma. Obviamente este es un problema de las lenguas científicas segundonas. Y cuando trata de poner alguna solución, los resultados no parecen ser buenos en todos los casos, probablemente porque el perfil de los interesados es muy técnico y probablemente sin toda la erudición que se podría necesitar. En cuanto a los errores de traducción, empezando por los falsos amigos y acabando por las traducciones apresuradas, hay una cantidad enorme de trabajos que podrían mejorar, siquiera aplicando un método de revisión al trabajo de traducción.

Desconocimiento de métodos de trabajo establecidos en la profesión. Como ya hemos dejado caer antes, los traductores de software libre no suelen tener la experiencia o la formación completa de un traductor. No es que este autor crea que sea obligado tener un título universitario de traducción porque él mismo no lo tiene. Pero sí que conviene conocer lo más básico de esta profesión para poder realizar esta clase de traducciones técnicas con pleno éxito. Dos de estas carencias son la práctica obligatoriedad de revisar sistemáticamente lo traducido y la técnica de las memorias de traducción, que si bien se está usando con gettext, se hace sin conciencia en ella y por tanto sin aprovechar todo su potencial de reutilización.

Todavía no se aplican los métodos de reutilización para la documentación. Básicamente lo que queremos decir es que a día de hoy no hay en el software libre ningún método generalizado para la aplicación de la técnica de reutilización de traducciones llamada «memoria de traducción» que se aplique para la documentación. Este es un gran problema porque seguirá siendo muy poca la documentación traducida y actualizada disponible. Y es que sin contar con ayudas suficientes es un trabajo muy costoso.

Carencias en las herramientas y asistentes. Siguen faltando herramientas. Por ejemplo para poder usar memorias de traducción con documentación. También conviene perfeccionar al límite los correctores ortográficos. Y hay un vacío absoluto de correctores gramaticales, de gestores de terminología, diccionarios, asesores de estilo, etc.

Objetivos generales

El proyecto L10N.net se marca los siguientes objetivos generales.

Simplificar en lo posible el uso de la jerga informática para los usuarios más legos. Hasta ahora los esfuerzos para normalizar la, con frecuencia, extravagante jerga informática han prestado más atención al uso dentro de la profesión, por poco elegante que sea, que a un esfuerzo serio pero práctico. En palabras de Xosé Castro Roig: “Debemos ser conscientes de que nuestra responsabilidad con el idioma es muy grande y que los traductores y los lingüistas tan sólo somos una minoría; la mayoría restante no sabe qué es Internet ni una computadora ni un neologismo ni el espanglish, ni falta que les hace.”.

Crear una cultura metodológica de calidad en la traducción. Dado que la inmensa mayoría de los traductores de aplicaciones de software libre son personas con perfiles técnicos en informática autoformados en cuestiones de lengua precisan de toda la ayuda posible para conocer y poder poner en práctica metodologías de calidad, que les ayuden en su trabajo y mejoren la calidad final. Además servirán para que traductores de carrera también mejoren su eficacia al trabajar en este dominio de conocimiento.

Crear una cultura tecnológica.  Exactamente de la misma manera se precisa apoyar a las metodologías con juegos de herramientas para los mismos fines de facilidad, rapidez y calidad final.

Enseñar a reutilizar traducciones de documentación. Es imprescindible difundir el uso de las memorias de traducción para los documentos, divulgando su uso y perfeccionando las herramientas disponibles (libres, por supuesto) hasta alcanzar criterios de funcionamiento mínimamente aceptables.

Homogeneizar los trabajos de traducción. Al hacer esfuerzos para refinar las terminologías y para reutilizar trabajos de traducción previos ocurre un fenómeno de homogeneización léxica que será muy beneficioso para los futuros lectores neófitos: todas las indicaciones de «usabilidad» del software recomiendan simplificarlo en lo posible.

I+D de recursos lingüísticos para la traducción.  Se pretende crear toda una comunidad, de desarrolladores de aplicaciones lingüísticas y programadores, para la creación y mantenimiento de herramientas y recursos lingüísticos libres, aprovechando entornos de trabajo en grupo y con objetivos claros y delimitados. Es la única manera de poder crear la infraestructura tecnológica que se pretende.

Crear un centro de referencia de trabajos de L10N.  Se pretende que L10N.net sea el lugar donde los desarrolladores de recursos lingüísticos libres y los traductores se encuentren mutuamente, dispongan de herramientas, documentación, trabajos de traducción realizados y poder consultarlos y reutilizarlos a placer.

Al servicio de los diferentes proyectos de software libre.  Uno de los retos más importantes es trabajar para que los grandes proyectos de software libre (GNOME, KDE, GNU, Fedora, Debian, OpenOffice…) adopten esta propuesta de cultura de trabajo y hagan suyos los servicios de L10N.net. Esto exigirá un esfuerzo divulgativo muy importante que merece atención especial.

Promotores

TLDP-ES«The Libre Documentation Project» en español es un esfuerzo para la publicación de documentación técnica sobre software libre en español. Es una referencia única en su género y en su seno ha surgido un esfuerzo de investigación y desarrollo en recursos lingüísticos para intentar solventar los problemas de la autoría y del ciclo editorial en general y del español en particular usando software libre.

GNOME HispanoEntre otras cosas los miembros de Gnome Hispano trabajan para la perfecta adaptación al español del entorno de usuario y de programación GNOME.

HispalinuxHispalinux es la asociación de usuarios españoles de Linux. Entre sus objetivos estatutarios están la «divulgación y promoción de las aplicaciones informáticas con licencia libre, en particular, pero no limitándose a `Linux'; en español».

Fases

En principio parece interesante organizar una primera fase experimental alrededor del idioma español. En cuanto se supere un periodo de viabilidad se procurará vincular a todos los idiomas y proyectos de software libre posibles. Esto exigirá un importante esfuerzo de divulgación internacional

Metodología

  • A las organizaciones que se adscriban a L10N.net se les rogará que adopten un protocolo de trabajo y compromiso mínimo para divulgar y adoptar en su seno las recomendaciones, herramientas y servicios de L10N.net y, si lo desean, para participar activamente en su mantenimiento y desarrollo.

  • Se recomienda que se tomen las decisiones con sentido práctico y con el mayor consenso posible.

  • Los grupos puros de l10n se agruparían por lenguas/dialectos, de forma auto-organizada. Se recomienda la mayor cohesión posible pero cada grupo de trabajo será completamente autónomo del resto de lenguas y dialectos.

  • Se usarían códigos ISO 639 para identificar a cada grupo de trabajo (pueden encontrarse en el manual info de gettext).

  • El idioma de trabajo para el mantenimiento de los servicios será el inglés. También lo será para el desarrollo de los recursos lingüísticos, excepto para aquellos que obviamente sean exclusivos de una lengua o dialecto.

  • Cuando se elaboren documentos de metodologías de trabajo, recibirán la calificación de recomendaciones.

Esfuerzos de estandarización complementarios

Se pretende mantenerse en sintonía con otros esfuerzos de estandarización, especialmente los relativos a i18n.

  • Free Standards Group, que es el esfuerzo principal para la creación de estándares técnicos para el software libre y la plataforma Linux.

  • Freedesktop.org, que es un grupo de trabajo para perfeccionar las tecnologías de los escritorios gráficos libres.

  • The Free Standards Group Open Internationalization Initiative, que forma parte del «Free Standards Group» y que se centra en la «internacionalización» o adaptación del software (libre) para ser traducido y adaptado a su vez a diferentes realidades culturales y lingüísticas.

Grupos de trabajo

Se consideran que estos pueden ser los objetivos concretos iniciales en torno a los cuales pueden organizarse los primeros grupos de trabajo. Se enumerarán sin ningún orden particular:

  • Corpus de nomenclaturas. Se pretende recuperar todas las etiquetas y cadenas de texto usadas en los programas (en inglés) con la idea de que los desarrolladores, al crear otras nuevas en sus programas puedan reutilizar las antiguas en lo posible, agilizando a su vez su traducción si éstas ya están traducidas en algún idioma.

  • Nomenclatura común. Se pretende crear una recomendación de nomenclatura (en inglés, por ser el idioma usado en el desarrollo de software libre) para que sea adoptado por todos los proyectos de que se adscriban a L10N.net. Las ventajas inmediatas de usar una nomenclatura común es la reducción de las cadenas a traducir, la reutilización de las traducciones y la unificación y simplificación de los interfaces de usuario.

  • Manual de estilo de traducción. Confeccionar unas recomendaciones a tener en cuenta para realizar el trabajo de traducción de documentos y de programas. Esta será una herramienta valiosísima para los traductores auto-formados que hayan tenido una formación más técnica. También podría servir como referencia para las empresas que están incorporándose al desarrollo de software libre y que ya tienen manuales de estilo propios. Obviamente este documento tendrá muchas partes exclusivas a cada lengua.

  • Estudio legal de propiedad intelectual y licencias para los trabajos de traducción. Si se quiere promover la reutilización masiva de conocimiento en la forma de traducciones es preciso hacer un estudio legal que defina un marco de trabajo internacional que lo facilite. Hay muchos esfuerzos en Internet, como FSF, EFF o Creative Commons en donde probablemente podría encontrarse la base legal necesaria.

  • Publicación y compartición de glosarios y memorias de traducción. 

    • para documentos

    • para aplicaciones

    lo cual constituiría una herramienta formidable, no sólo por agilizar enormemente los trabajos de traducción o por incorporar las memorias de traducción a la documentación libre o por ayudar a homogeneizar las terminologías y textos sino porque constituiría de hecho un corpus lingüístico de muy alta calidad y enorme interés científico y técnico para aplicaciones futuras de procesamiento de lenguaje natural.

  • Referencia y publicación de tecnologías y estándares. Para asegurar que los activistas y colaboradores encuentren rápidamente toda la información que necesitan para hacer su trabajo de la mejor manera posible.

  • Referencia y publicación de herramientas.  Se pretende recopilar, recomendar e indicar herramientas concretas dentro de los objetivos y necesidades de L10N.net. La idea es estandarizar, simplificar y reutilizar al máximo estas escasas tecnologías. Algunas herramientas pueden ser:

    • Estadística de traducciones. Una herramienta web para conocer el estado de progreso y del mantenimiento de los trabajos de traducción. Algo muy importante en un entorno de desarrollo tan dinámico como es el del software libre.

    • Correctores ortográficos. El corrector ortográfico es una herramienta de valor incalculable y muy asequible técnicamente para el software libre ya que hay implementaciones de mucho valor que se pueden perfeccionar mucho más con relativa facilidad y que deben estandarizarse al máximo para poder reutilizarlas en las diferentes plataformas y esfuerzos de desarrollo existentes (por ejemplo ispell/aspell, Mozilla y OpenOffice).

    • Patrones de unión con guiones. Debe estudiarse el estado del arte de las tecnologías de unión con guiones usadas en diferentes herramientas con la idea de permitir la confección de una recomendación por cada lengua que puedan ser adoptadas en cada esfuerzo de desarrollo (Tex/LaTeX, OpenOffice, GNOME, KDE, Gtroff, XSL-FO, etc).

  • Creación de otras herramientas .  Además de los casos anteriores, donde hay importantes trabajos previos desde los que partir hay otras necesidades en las que hay que partir desde cero, como por ejemplo:

    • Sincronización GUI-documentación. Para facilitar la congruencia de la documentación y el software y dado que Docbook se ha generalizado como la herramienta XML para componer y estructurar la documentación del software libre pueden explotarse las marcas docbook dedicadas al interfaz gráfico para comprobar que todas las referencias al GUI usadas en un texto existen realmente. Esta herramienta puede servir tanto para el original en inglés como las respectivas traducciones.

    • Comprobador de atajos de teclado para GUI. Desde el momento en el que se usan ficheros XML para definir los menús de las aplicaciones puede comprobarse automáticamente que no se usa un mismo atajo de teclado dos veces en un mismo menú. Esta comprobación es todavía más útil en el caso de las traducciones, donde se observa con mucha frecuencia como la traducción de los atajos crea conflictos de esta clase. En la web se puede encontrar una propuesta,

    • Detectores de falsos amigos. Mediante la creación de tesauros especiales y una herramienta analizadora podría crearse con relativa poca complejidad una herramienta para asistir en la revisión de textos y localizar posibles «falsos amigos» en la traducción.

    • Detectores de formas pasivas. Uno de los defectos más típicos de los malos traductores EN>ES es el uso y abuso de las formas pasivas. Podría intentarse la codificación de un asistente que intente detectar en textos al menos los casos más típicos de este defecto.

    • Detectores de expresiones malsonantes según áreas lingüísticas. Dentro de un mismo idioma existen expresiones o términos que cambian radicalmente de sentido de una región a otra hasta el punto de lo que en un sitio es de un uso exquisito en otro lugar puede ser insultante u ofensivo. La creación de tesauros especializados y de una herramienta analizadora podría servir para que los autores detecten estos casos y los resuelvan si es su deseo.

    • Detectores ortotipográficos. La ortotipografía es una disciplina implicada con varias de las fases del ciclo de edición. Entre ellas está la fase de creación donde con frecuencia el autor desconoce muchos de los convenios de uso común en su lengua, como el uso de los espacios y de los signos de puntuación. Parece conveniente trabajar en herramientas que corrijan o asistan al autor en esta lid.

    • Traductores automáticos. Si bien esta sería una tecnología muchísimo más compleja, los últimos desarrollos y la labor investigadora realizada en la universidad podría servir para crear herramientas eficaces para dominios muy concretos, como podría ser tal vez la traducción de programas.

    • Correctores gramaticales. Otra herramienta muy compleja pero extremadamente necesaria y conveniente, especialmente si estando disponible como software libre pudiera generalizarse su uso.

    • Correctores semánticos. El más difícil todavía: una herramienta que comprenda los textos y se atreva a proporcionar indicaciones sobre la elección de terminología.

    • Tesauro multilingüe de topónimos. Hemos observado en los topónimos lagunas muy grandes en las traducciones de software libre. Urge la recopilación de topónimos en las principales lenguas y su utilización sencilla para la traducción de textos, programas y configuraciones de los mismos.

    • etc

  • Otros esfuerzos ortotipográficos. Puede ser muy conveniente realizar auditorías y desarrollos para mejorar la calidad ortotipográfica de herramientas de uso común como el entorno de desarrollo de docbook, las herramientas para visualizar HTML o herramientas de consulta de documentación como man/groff.

Organización:

  • Comité de coordinación

  • Equipos de desarrollo/servicio

Se pretende que el comité de coordinación funcione como un medio de contacto entre los diferentes equipos y de discusión y decisión de objetivos. Los equipos de desarrollo o servicio serán auto-organizados al mejor estilo de los proyectos abiertos de software libre.

Servicios

Los servicios serían multilingües, osea, servicios equivalentes para cada lengua:

  • foro de discusión de terminología (por idioma, o dialecto) (nuevo o reutilización de otro existente)

  • Consulta de nomenclaturas

  • Servicio de estadísticas de traducciones

  • Corpus multilingüe

  • Publicación de terminologías y memorias de traducción

  • Publicación de documentos relacionados

Estado actual

El proyecto está en estado embrionario. Apenas estamos empezando a crear sinergias y este mismo documento servirá de piedra angular para su difusión y puesta en marcha. Los hitos iniciales ya resueltos o estado avanzado son:

  • borrador del proyecto (este documento) (Ismael Olea);

  • reserva del dominio l10n.net (Ismael Olea);

  • Guía de estilo de la traducción disponible en catalán (Softcatalà);

  • Trabajos iniciales de unificación de terminología y topónimos en español (F.J. Fernández Serrador)

  • Estadísticas de traducciones (Carlos Perelló Marín)

  • Foro propuesto para la discusión de terminología en la traducción de los proyectos de software libre.

Se busca

  • Desarrolladores

  • Traductores

  • Especialistas en lingüística computacional

  • Patrocinios económicos

Sólo incorporando a más activistas será posible alcanzar la masa crítica que un proyecto de esta clase necesita para funcionar con todo el rendimiento y valor que puede producir. El éxito está al alcance de la mano sencillamente colaborando con horas de trabajo, que no es poco, pero que también es asequible para muchos.

Por supuesto que si puede contarse con apoyos económicos o patriciones de administraciones o empresas será posible liberar a desarrolladores que puedan dedicarse parcial o completamente a trabajar en los objetivos del proyecto. Si está interesado no dude en ponerse en contacto con nosotros.

Bibliografía:

Otro material relacionado con este proyecto: