SIN SABERLO, USTED PODRÍA SER UN PIRATA EN INTERNET
No lo saben, pero muchos navegantes de la red están contribuyendo a un inmenso negocio. Descifrando palabras en menos de 10 segundos, ayudan a digitalizar ingentes cantidades de literatura.
Internautas a quienes se pide que se resuelvan crucigramas con palabras distorsionadas para poder entrar en portales como Facebook están ayudando, sin saberlo, a compañías como New York Times Co. A convertir viejos artículos de la prensa al hoy usual formato digital.
Sin que los internautas lo adviertan, los científicos se están valiendo de millones de ellos por todo el mundo para convertir libros y artículos de antes de la era de Internet en documentos digitales. El método, que se viene usando desde hace un año, permite procesar 160 libros al día con casi perfecta fidelidad, según un estudio de la Universidad Carnegie Mellon, que creó el programa y lo suministra gratuitamente.
Las computadoras han podido leer libros viejos y periódicos archivados por años usando los llamados ciberprogramas de reconocimiento óptico de caracteres (OCR, por sus siglas en ingles). El nuevo método toma palabras distorsionadas o borrosas que el ciberprograma no reconoció y las presenta en portales electrónicos para que las personas las descifren.
“El problema es que el OCR no es perfecto”, indicó Luis Von Ahn, profesor adjunto del Departamento de Ciencias de la Información de Carnegie Mellon, en una entrevista. “En los libros verdaderamente viejos, digamos, anteriores a 1900, entre un 20 y un 30% de las palabras van a salir mal”.
Una larga ruta
El método fue elaborado a partir de una versión anterior llamada Captcha, que se usó por vez primera en el portal de Yahoo! Para impedir que las computadoras inscribieran direcciones falsas de correo electrónico. Esa versión, que aun se usa, emplea combinaciones sin sentido de letras y números en vez de palabras verdaderas.
Unas 45,000 paginas Web, entre ellas Facebook.com y Ticketmaster.com, usan ReCaptcha. A la persona suele pedírsele que resuelva uno de estos crucigramas para inscribirse en el portal. Los crucigramas tienen un filtro que rechaza los programas automatizados de las personas que envían “spam” o mensajes basura o aquellas que tratan de cometer fraude.
Diez segundos
A las personas les toma 10 segundos descifrar las palabras, lo que ahorra 150,000 horas de transcripción manual. A diario, se descifran unos cuatro millones de palabras con más de un 99% de acierto, según el estudio, publicado en la revista Science Express. En el primer año, el método facilito descifrar 440 millones de palabras o unos 17,600 libros.
El programa pide al usuario que descifre dos palabras. Una es la palabra que de hecho hay que descifrar, y la otra una que ya se conoce. Si el usuario descifra ambas, el programa da por sentado que ambas son correctas. Se les da la misma palabra muchos usuarios para mejorar las probabilidades de dar en el clavo.
“Durante esos 10 segundos, usted está haciendo algo que es asombroso”, señaló Von Ahn.
Beneficios
“Las nuevas tecnologías permiten además a las editoriales un incremento de la ventas en formato papel” afirma Javier Celaya, socio fundador del portal cultural Dosdoce.com y vicepresidente de la Asociación de Revistas Digitales de España (ARDE).
Hay autores que han elevado considerablemente sus ventas, gracias a “permitir a sus usuarios leer el libro entero en la red 30 días antes de que saliera al mercado”, explico Javier Celaya.
Fuente: Gestión