A LA CAZA
DEL PLAGIO EN LAS TRADUCCIONES
El algoritmo creado por investigadores de la
Politécnica de Valencia "aprende" cuáles son los cambios de un idioma a otro a
partir de grandes colecciones de documentos
En la Sociedad de la Información es muy fácil perder el origen inicial de una
idea, un texto o un tratado. Para mejorar la calidad de la información que
proporcionan los motores de búsqueda, expertos del Laboratorio de Ingeniería en
Lenguaje Natural (Lab NLE), integrado en el Grupo de Ingeniería del Lenguaje
Natural y Reconocimiento de Formas (ELiRF ) de la Universitat Politècnica de
València han desarrollado un nuevo método para la detección automática de textos
plagiados y, en concreto, de plagio traducido, dentro del proyecto Text-Enterprise
2.0, financiado por el Ministerio de Ciencia e Innovación.
Los resultados del trabajo se publicaron en febrero en Languages Resources and
Evaluation Journal. "En nuestros días, el problema del plagio, en particular el
de texto, se ha incrementado debido al fácil acceso a grandes fuentes de
información a través de medios electrónicos. Desafortunadamente, su detección es
prácticamente imposible de forma manual. Por ello, es importante desarrollar
mecanismos automatizados que permitan realizar la tarea de detección de plagio y
así combatir la creciente tentación de plagiar desde la web", apunta Paolo
Rosso, investigador del Lab NLE y padre del proyecto de investigación junto al
estudiante de doctorado Alberto Barrón-Cedeño.
El equipo trabaja con un "corpus de Tratados de la Unión Europea, prácticamente
en todos los idiomas más usados. Del inglés al español, del inglés al alemán, al
holandés, al francés y al polaco, pero no aún en valenciano. Se trata de un
algoritmo o programa, que aprende posibles traducciones del inglés al
castellano", explica Rosso. "Al algoritmo se le pasa un cantidad bastante grande
de pares de traducciones de un idioma a otro y cuando se le programa un texto
traducido al castellano, por ejemplo, la base de datos donde está la fuente en
inglés detecta cuántos similares o partes de ese texto hay en la traducción con
respecto a la fuente".
El programa, por tanto, no depende de un traductor. Sino que aprende de las
posibles traducciones; es decir, de los pares en los dos idiomas que se
analicen. "El plagio traducido se hace más frecuente cuando la información que
se busca no está disponible en la Web en el idioma materno, por ejemplo el
castellano. Si la detección de plagio en una misma lengua es de por sí
complicada, ya que una persona puede modificar el texto original, cuando este
cambio implica un cambio de lengua la dificultad es aún mayor. Pocos son los
métodos que han sido desarrollados para abordar este tipo de plagio", añade
Rosso.
El modelo creado por los investigadores de la UPV se basa concretamente en
modelos de traducción estadística, que "aprenden" cuáles son las potenciales
traducciones de un texto de un idioma a otro a partir de grandes colecciones de
documentos. "Con lo aprendido es posible calcular la similitud entre textos
escritos en distintos idiomas y, si esta similitud es muy alta, se puede
sospechar de la existencia de un caso de plagio traducido", apunta Barrón-Cedeño.
Entre las aplicaciones figura la investigación forense. "El objetivo es
proporcionar la evidencia necesaria para que un experto tenga las mejores
condiciones posibles para tomar una decisión final respecto a si ha habido o no
plagio", describe Rosso. El profesor imparte la semana próxima un curso de
detección de plagio para los alumnos del Master de Lingüística Forense de la
Universitat Pompeu Fabra, pero clarifica que los lingüistas computacionales no
tienen la presunción de sustituir a los lingüistas forenses. "Pero como el
plagio se puede hacer desde la web (copiar y pegar), es más difícil que el
forense pueda rastrear todas las similitudes en diferentes fragmentos de textos
supuestamente plagiados", puntualiza el investigador. "Nosotros como lingüistas
computacionales proporcionamos un subcojunto amplio de posibles fuentes de
documentos a partir de los cuales se ha producido el presunto plagio".
En el marco de esta línea de investigación, el Lab NLE de la UPV ha organizado,
conjuntamente con la Bauhaus Universitat Weimar (Alemania), y por tercer año
consecutivo, una competición internacional sobre detección automática de plagio,
patrocinada por Yahoo! Research. La próxima cita tendrá lugar en Amsterdam en
septiembre, dentro del foro europeo de evaluación del CLEF.
Fuente: www.elpais.com