"No soy un robot": la historia y el futuro de los captchas
Básicamente, cualquiera que haya utilizado Internet alguna vez sabe qué es un código de verificación. Estas letras, números y caracteres chinos torcidos se actualizan constantemente en varios sitios web todos los días, desafiando la vista de los internautas. La historia de esto es en realidad mucho más corta de lo que piensas, pero en solo una docena de años desde su nacimiento, ha pasado por varios giros y desarrollos inesperados. Ahora, con la ayuda de la moderna tecnología informática, el código de verificación también ha emprendido un nuevo camino.
El nombre en inglés del código de verificación es "CAPTCHA", que es la abreviatura de una frase genial: "Prueba de Turing pública completamente automatizada para distinguir entre computadoras y humanos", la traducción literal es "usada para distinguir computadoras y humanos"Prueba de Turing pública totalmente automatizada". Todo el mundo está familiarizado con la prueba de Turing. Es una prueba famosa propuesta por Turing. El experimentador hace una serie de preguntas a una máquina y a un humano. Si el experimentador no puede distinguir entre los dos, la máquina pasará la prueba.
El código de verificación es una versión simplificada inversa de la prueba de Turing. En lugar de que una persona juzgue si la otra parte es una máquina, la máquina juzga si la otra parte es un humano. En los primeros años de Internet, varios sitios web no tenían códigos de verificación. A lo sumo, algunos piratas informáticos escribían palabras deliberadamente de formas extrañas para evitar la detección de palabras confidenciales. Es como etiquetar a XXX como "un trabajador y un ciudadano". A principios del siglo XXI, con la prevalencia del spam y el software fraudulento, las empresas comenzaron a utilizar la idea de códigos de verificación para proteger sus sitios web. Por ejemplo, en 2001, PayPal pidió a los humanos que ingresaran letras retorcidas similares a un código de verificación.
El término código de verificación en realidad se inventó en 2003, mucho más tarde que muchos conceptos. Por ejemplo, muchas personas estudiaban las redes neuronales en la década de 1970. Luis von Ahn, Manuel Blum, Nicholas J. Hopper y otros de la Universidad Carnegie Mellon propusieron por primera vez el término "CAPTCHA". Hicieron una investigación en profundidad sobre el sistema de códigos de verificación y lo programaron. Desde entonces, se han aplicado una gran cantidad de códigos de verificación a los sitios web, impidiendo eficazmente la propagación del software de revendedor. Hoy en día, las personas ingresan más de 100 millones de códigos de verificación todos los días.
Luis inventó el CAPTCHA en 2003, y dos años después completó su tesis doctoral, en la que propuso el concepto de combinar capacidades humanas e informáticas para resolver problemas simultáneamente. Él cree que las computadoras son mejores que el cálculo de grandes cantidades de datos, pero las ventajas de los humanos en la percepción de imágenes y otros aspectos aún son difíciles de lograr para las computadoras con tantos códigos de verificación que se ingresan todos los días, es una lástima no hacerlo. ¡cualquier cosa!
El lema que gritaba Luis en ese momento era: "deja de spam, lee libros". En 2007, fundó el estudio reCAPTCHA para proporcionar un nuevo tipo de servicio de código de verificación, que se convirtió en el "sistema óptico de reconocimiento de caracteres" (reconocimiento óptico de caracteres, denominado OCP). Escanearon los libros en papel, luego utilizaron un software para cortarlos en palabras y agruparon el código de verificación con el código de verificación real, que fue ingresado por el usuario. Cuando varias personas etiquetan la misma imagen con la misma palabra, el software la grabará y la unirá con otras palabras para formar un libro electrónico completo. Si ha visto el logotipo rojo del código de verificación y el texto del código consta de dos párrafos, probablemente sea fácil saber de qué estoy hablando.
Esta es una gran idea. De esta manera, se pueden utilizar con éxito decenas de miles de códigos de verificación para convertir esos libros físicos sin tener que escribirlos manualmente. Google también descubrió la belleza de este sistema, por lo que decidió adquirirlos. En 2009, reCAPTCHA se convirtió en miembro de Google. Gracias a este sistema, Google digitalizó una gran cantidad de libros y los publicó en Google Books. En 2012, además de libros, reCAPTCHA también tradujo una gran cantidad de números de casas para Google Street View. Se puede decir que ha realizado contribuciones destacadas. La próxima vez que encuentres un código de verificación como este, sabrás que estás en algo interesante.
Los códigos de verificación son muy comunes, pero a casi todo el mundo le molestan. Después de todo, es un proceso muy problemático. De hecho, con el desarrollo de la tecnología de la información, los códigos de verificación enfrentan cada vez más desafíos.
En los primeros años, la forma de descifrar el código de verificación era muy simple y violenta, es decir, depender de personas para resolverlo. Algunas personas se especializan en establecer empresas tipo fábricas clandestinas en países del tercer mundo, recibiendo una gran cantidad de códigos de verificación y luego introduciéndolos y descifrándolos manualmente. Este tipo de empresa se denomina "granja CAPTCHA". En 2010, sólo costaba 1.000 dólares utilizar una granja de CAPTCHA para descifrar un millón de CAPTCHA. Este método es teóricamente irresoluble. Después de todo, la persona que está frente a ti es una persona real. Por supuesto, el costo también es el más alto.
Por otro lado, el aprendizaje automático, el procesamiento de imágenes y otras tecnologías se han desarrollado vigorosamente en los últimos años. Las computadoras son cada vez mejores en la detección de caracteres alfanuméricos en imágenes. Para hacer frente a esta amenaza, el código de verificación comenzó a desarrollarse en una dirección extraña, torciendo el texto, agregando líneas de interferencia, mezclando el color de fondo con el color del texto, etc. Incluso reCAPTCHA con cejas pobladas y ojos grandes agregó varias líneas. Esto tiene cierto efecto, pero es más perjudicial para el usuario. La probabilidad de una entrada fallida es cada vez mayor y todo el mundo quiere destrozar la computadora.
Lo que es aún más aterrador es que en la conferencia WOOT de 2014, Bursztein demostró un programa universal de descifrado de códigos de verificación. Este algoritmo basado en el aprendizaje por refuerzo tiene un buen efecto en los códigos de verificación de logaritmos grandes en el mercado. Esto demuestra que torcer el texto para aumentar la dificultad ya no es útil y sólo el usuario sale perjudicado.
Pero los usuarios se están volviendo locos. Sin mencionar a las personas discapacitadas con discapacidad visual, deterioro cognitivo y otras enfermedades, les resulta más difícil ingresar el código de verificación una vez. La gente no quiere captchas más complejos, quiere simplificarlos. Como resultado, se desarrollaron varias soluciones con la esperanza de bloquear las computadoras y simplificar los métodos. Incluyendo código de verificación deslizante, código de verificación de clic, etc. En cuanto al efecto... Al menos, 12306 es definitivamente un gran contraejemplo...
¿Aún recuerdas el reCAPTCHA que acabo de mencionar? ¡Esta vez, cambiaron su logo!
No, ese no es el punto. La cuestión es que revolucionaron por completo la vida de los códigos de verificación. reCAPTCHA ha desarrollado una nueva forma de dispositivo de código de verificación. Todo lo que tienes que hacer es hacer clic en el cuadro y la verificación estará completa. Muy sencillo y nada complicado. Incluso las páginas del sitio web se han vuelto refrescantes. ¡Y su tasa de éxito de interceptación es varias veces mayor que la de los códigos de verificación de texto tradicionales!
Entonces, ¿cómo funciona este nuevo reCAPTCHA? En pocas palabras, cuando ingresa a esta página, el software comienza a recopilar todo tipo de información sobre usted, incluida su IP, cookies, hora, resolución, movimientos del mouse, operaciones del teclado y otros datos diversos. Cuando hace clic en Listo, esta información. es procesado por el servidor y finalmente determina si usted es una persona real. Por lo tanto, el nuevo reCAPTCHA recopila más información que los códigos de verificación de texto tradicionales y es más difícil de descifrar.
Por lo general, un modelo de percepción de este tipo requiere una gran cantidad de datos para entrenarse con éxito. Afortunadamente, reCAPTCHA tiene un potente backend: Google. Google está promoviendo vigorosamente el desarrollo de este servicio y no les faltan datos de usuario. Hoy en día ya puedes verlo en los principales sitios web extranjeros, incluidos YouTube, Facebook, etc.
"Duro con los bots, fácil con los humanos", este es el lema de reCAPTCHA, y es cierto. Este servicio es completamente gratuito, sólo necesitas registrarte en su sitio web para obtener la interfaz. Si lo deseas, definitivamente puedes crear uno y reproducirlo en tu propio sitio web. ¡Es mucho más divertido que usar todo tipo de códigos de verificación feos!
Solo han pasado unos 15 años desde el nacimiento del código de verificación, y ya ha estado marcado por el gran desarrollo de la tecnología en la era de la información. El nuevo código de verificación desarrollado por Google nos permite vislumbrar un futuro más conveniente y más rápido. Más importante aún, el objetivo del desarrollo tecnológico debe ser hacer la vida de las personas más cómoda en lugar de agregar problemas. Por el contrario, ¿debería avergonzarse 12306?