Finalmente: un complemento de navegador que te permite copiar y pegar texto de imágenes y memes

Proyecto Naptha, detectando texto en el meme doge

¿Alguna vez ha terminado en uno de esos horribles sitios web donde el texto se guarda como una imagen, lo que le impide seleccionarlo o copiarlo? ¿O tal vez desea compartir el texto de un cómic, captura de pantalla o meme sin transcribirlo minuciosamente? Ahora, con la extensión del navegador Project Naptha, puede usar el mouse para seleccionar el texto rasterizado de cualquier imagen que encuentre en la web y luego pegar ese texto en otro lugar. También puede seleccionar el texto y traducirlo a otro idioma, o intentar eliminar el texto por completo (al igual que la función de relleno según el contenido de Photoshop).

Proyecto Naptha, creado por el desarrollador Kevin “antimatter15” Kwok, es esencialmente un conjunto completo de detección de texto y OCR (reconocimiento óptico de caracteres) integrado en una extensión de navegador JavaScript. No es perfecto en su funcionalidad, y Kwok admite que probablemente va a la zaga de las herramientas de vanguardia actuales por 'algunos años', pero definitivamente es lo suficientemente bueno y, lo que es más importante, no podemos quejarnos. dado que no hay absolutamente nada parecido en el mercado.

GIF animado que muestra el Proyecto Naptha que le permite copiar texto de un meme

GIF animado que muestra el Proyecto Naptha que le permite copiar texto de un meme



Project Naptha, a pesar de su aparente simplicidad, es una pieza de software muy compleja. Primero, antes de que se pueda llevar a cabo el OCR, debe identificar realmente si hay bloques de texto en una imagen. Esto es bastante difícil, ya que el texto se puede superponer sobre cualquier número de fondos. Para hacer esto, Naptha utiliza Microsoft Research Transformación de ancho de trazo (SWT), un algoritmo muy rápido y simple que se basa en el hecho de que las fuentes suelen tener un ancho de trazo bastante uniforme y, por lo tanto, son fáciles de seleccionar. Naptha solo comienza esta fase de detección de texto cuando detecta que el puntero del mouse se mueve hacia una imagen; después de todo, sería muy costoso realizar SWT (y luego OCR) en cada imagen de la página. Trabajadores web (hilos de fondo múltiples paralelos) se utilizan para realizar la detección de texto sin afectar el rendimiento del navegador.

Si luego procede a seleccionar algún texto y presiona 'Copiar texto' (o Ctrl-C), se empaqueta y se envía a un servidor que ejecuta el motor OCR de código abierto. Ocrad intenta traducir el texto rasterizado, lo que puede tardar unos segundos, y luego envía los caracteres digitalizados para que luego pueda usar Pegar / Ctrl-V. Ocrad no es el mejor motor de OCR que existe, pero si hace clic con el botón derecho, puede seleccionar el motor Tesseract mucho más avanzado de Google en el menú Idioma.

Proyecto Naptha: traducción de un meme del inglés al ruso

Proyecto Naptha: traducción de un meme del inglés al ruso

Sin embargo, Naptha no se detiene ahí. Puede ir un paso más allá del OCR y traducir el texto a otro idioma, no solo para copiar / pegar, sino que también puede realizar una traducción in situ del texto en una imagen existente (consulte la imagen de arriba). Para hacer esta traducción in situ, Naptha usa 'inpainting' (piense Relleno según el contenido de Photoshop) para eliminar el texto original y luego intenta hacer coincidir la fuente del texto traducido. Alternativamente, en lugar de usar esta función para la traducción, puede usar el inpainting de Naptha para eliminar el texto de las imágenes.

En el futuro, no está del todo claro cuáles son las intenciones de Kwok para el Proyecto Naptha. La extensión requiere una potencia informática remota que Kwok tiene que pagar, y servicios como Tesseract y Google Translate cobran por uso. Sin embargo, la funcionalidad de Naptha es tan única y útil que estoy seguro de que hay muchas personas que pagarían una pequeña cantidad de dinero por ella.

Copyright © Todos Los Derechos Reservados | 2007es.com