reCAPTCHA

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda
El logo de reCAPTCHA.

Recaptcha o reCAPTCHA es una extensión de la prueba Captcha que se utiliza para reconocer texto presente en imágenes. Emplea por tanto la prueba desafío-respuesta utilizada en computación para determinar cuándo el usuario es o no humano para, a su vez, mejorar la digitalización de textos.

Recaptcha se basa en el hecho de que para un ser humano puede ser simple determinar el texto presente en una imagen cuando para una máquina esta tarea resulta en ocasiones demasiado compleja.

Funcionamiento[editar]

Ejemplo de una prueba de Recaptcha que contiene las palabras del idioma inglés following finding.

El Recaptcha trata de solucionar un problema de partida: cuando se digitaliza un documento impreso se toman fotografías del mismo y esas fotografías se convierten a texto empleando sistemas OCR. Sin embargo, ocurre que hay palabras que presentan dificultades para ser reconocidas automáticamente: aquellas que contienen letras deformes, manchas producto de defectos en la impresión del papel, páginas con polvo, entre otras. Estas palabras pueden ser identificadas por personas de manera mucho más confiable que por un sistema OCR computarizado. Recaptcha emplea esta facilidad del ser humano, para así lograr un método de reconocimiento de texto mucho más confiable.

El uso de Recaptcha consiste en sustituir al sistema Captcha, colocando dos palabras a reconocer (en lugar de una que emplea típicamente la prueba Captcha). Una de las palabras es conocida y la otra es desconocida para el sistema. La palabra desconocida es una que no pudo ser obtenida de una imagen mediante un sistema OCR automatizado. El sistema pide al usuario (quien desconoce qué palabra es conocida y cuál no lo es) que introduzca ambas palabras como texto. Si la palabra conocida por el sistema es introducida correctamente por un humano, el sistema Recaptcha asume que hay probabilidades altas de que el usuario también haya introducido la palabra desconocida correctamente. Si la palabra desconocida recibe en múltiples ocasiones la misma transcripción humana (traducción de imagen a texto) se considera que esa transcripción es correcta. De esta forma, a la prueba desafío respuesta utilizada en computación para determinar cuándo el usuario es o no humano (prueba CAPTCHA) se le suma la utilidad de permitir mejorar la digitalización de textos.

Las palabras que fueron traducidas en muchas ocasiones de la misma manera, se pueden incorporar como palabras conocidas dentro del propio sistema.[1]

Actualmente reCAPTCHA es utilizado para digitalizar ediciones impresas del New York Times.[2] La compañía dueña del sistema reCAPTCHA fue adquirida por Google que podrá usar el sistema como apoyo para su proyecto Google Books.[3]

Google compra Recaptcha[editar]

Inicialmente escindida de un proyecto de investigación de la Universidad Carnegie Mellon, reCAPTCHA fue comprada al guatemalteco Luis von Ahn. Google ha aumentado sus capacidades de reconocimiento óptico de caracteres con la compra de reCAPTCHA, una compañía que se originó en un proyecto de investigación de la Universidad Carnegie Mellon y protege a 100.000 sitios web del spam y el fraude mediante imágenes distorsionadas que se supone que una máquina no puede comprender.

Desde Google explican que Captcha está diseñado para el ojo humano con el objetivo de impedir que programas maliciosos consigan millones de cuentas de correo electrónico para enviar spam. Un detalle que desvela Google es que la mayoría de los Captchas que ofrece la compañía proceden de periódicos y libros viejos escaneados. Por lo tanto para los ordenadores es difícil reconocer estas palabras porque la tinta y el papel se han degradado con el tiempo, de forma que la tecnología de la compañía también se puede utilizar para mejorar procesos de OCR para convertir imágenes escaneadas en texto plano.

La tecnología se puede utilizar para proyectos de escaneo de textos a gran escala como Google Books y Google News Archive Search. Tener la versión en texto de un documento es importante porque el texto plano se puede buscar, exportar a dispositivos móviles y mostrar visualmente a usuarios discapacitados.

Con la compra Google afirma que no sólo incrementará la protección ante el fraude y el spam de los productos de la compañía, sino que también mejorará el proceso de escaneado de sus libros y periódicos.[4]

A partir de 2012, Google empezó a incluir imágenes obtenidas de Google Street View, con el fin de que la palabra desconocida sean números o nombres de calles, para alimentar su base de datos y mejorar la precisión de direcciones.[5]

Referencias[editar]

  1. Timmer, John (14-08-2008). «CAPTCHAs work? for digitizing old, damaged texts, manuscripts». Ars Technica. Consultado el 09-12-2008.
  2. «Learn more». reCAPTCHA.net. Consultado el 23-11-2008.
  3. «Teaching computers to read: Google acquires reCAPTCHA». Google. Consultado el 16-09-2009.
  4. «Google compra Recaptcha - ITespresso.es».
  5. «Google utiliza reCAPTCHA para decodificar direcciones de Street View». Archivado desde el original el 2012-12-19.

Enlaces externos[editar]