La red neuronal Street View de Google ahora puede descifrar captchas mejor que un humano

Vista de calle

Actualizado a las 05:25 17 de abril: Cuatro meses después de la primera publicación de esta investigación (que se detalla en la historia a continuación), Google ahora está promocionando esta red neuronal profunda como una ventaja tanto para Street View como para su producto Recaptcha. Por lo que puedo decir, nada ha cambiado desde enero: Google acaba de enmarcarlo como 'nuestra red neuronal es tan avanzada que puede descifrar nuestros captchas así como un humano', en lugar de mejorar la capacidad de Street View para descifrar de forma dura. letreros de la casa para leer. El software puede descifrar el tipo más difícil de captchas de Recaptcha con un 99,8% de precisión (que es mucho mejor que mi propia precisión).

Historia original

Habiendo pasado algún tiempo en Internet, sin duda se ha visto obligado a demostrar su humanidad escribiendo palabras y números en un captcha. La propia variante Recaptcha de Google se ha utilizado no solo para mantener a raya a los bots, sino también para ayudar al gigante de las búsquedas a identificar el texto en libros escaneados y números de casas de Street View. Sin embargo, Google ya no se basa exclusivamente en secuestrar sus ciclos cerebrales. Un nuevo trabajo de investigación de Google detalla cómo la compañía entrenó una red neuronal para leer los millones de números de casas no identificados capturados por las cámaras de Street View sin intervención humana.

Una red neuronal artificial es un modelo computacional que busca replicar la naturaleza paralela de un cerebro vivo. Este sistema funciona directamente en las imágenes de píxeles que capturan los coches de Street View y funciona más como tu cerebro que muchos modelos anteriores. En lugar de dividir cada imagen de dirección en dígitos individuales y luego identificar cada uno, mira el número entero y lo reconoce, tal como lo hacemos nosotros.



Algunas Recaptchas resueltas por la red neuronal

Algunas Recaptchas resueltas por la red neuronal

Cuando escribe una dirección en Google Maps, espera que devuelva la ubicación correcta. Tener las direcciones correctas para cada estructura es esencial para eso, especialmente en áreas donde el número de edificios no es lineal. Por eso es valioso saber lo que realmente dice en la puerta principal y por qué la empresa se tomaría la molestia de construir un cerebro sintético para hacerlo.

Para entrenar su red neuronal, Google usó el conjunto de datos de Street View House Numbers (SVHN) disponible públicamente. Esto es exactamente lo que parece: un conjunto de datos masivo con 200.000 direcciones divididas en bloques numéricos para un total de 600.000 imágenes numéricas para entrenar un cerebro electrónico. El sistema tarda seis días en aprender el conjunto de datos y poder identificar los dígitos en las imágenes de Street View con un alto nivel de precisión.

Google simplificó el proceso al imponer algunas restricciones a las imágenes analizadas por la red neuronal. Las direcciones ya deben haber sido identificadas y recortadas automáticamente para que el número sea al menos un tercio del ancho total de la imagen final. También asumen que el número tiene cinco dígitos o menos, lo que funciona bien en la mayoría de las regiones. Dado que la red neuronal de Google no lee los dígitos lentamente, uno a la vez, el límite de longitud es esencial.

Errores

Ejemplos de números que la máquina no pudo reconocer.

Los humanos que transcriben los números de las imágenes de Street View tienen aproximadamente un 98% de precisión, por lo que ese es el umbral que Google está buscando con la máquina. Eso no significa necesariamente el 98% de todas las imágenes; se refiere a un subconjunto de imágenes que son adecuadas para que el sistema automatizado las identifique. Aproximadamente el 95% de las direcciones capturadas pertenecen a esta categoría y la red neuronal cumple con el requisito de precisión del 98% en ellas. Google dice que ha utilizado este sistema para leer 100 millones de números de calles físicas hasta aquí. (Trabajo de investigación:arxiv.org/abs/1312.6082- 'Reconocimiento de números de varios dígitos a partir de imágenes de Street View mediante redes neuronales convolucionales profundas')

Este modelo de computadora ha aliviado considerablemente la carga de los ojos humanos, pero todavía hay algunas imágenes que requieren una evaluación humana. A medida que se mejora la red neuronal, los investigadores de Google esperan que pueda ser útil para leer letreros de calles o números de teléfono en vallas publicitarias.

Copyright © Todos Los Derechos Reservados | 2007es.com