El Mundo de Ubuntu: Gscan2pdf útil herramienta para extraer el texto de archivos pdf que han sido escaneados como imagen.

Gscan2pdf útil herramienta para extraer el texto de archivos pdf que han sido escaneados como imagen.

septiembre 07, 2013 0 comments

Les presento una herramienta muy útil para Debian, se trata de gscan2pdf.
Este sencillo programa permite extraer el texto de archivos pdf que han sido escaneados como imagen, de manera similar que algunos ORC's de Windows.
Su instalación es muy sencilla, viene en los repositorios de los discos y se puede instalar desde Synaptic, o se puede descargar de la página principal gscan2pdf.sourceforge.net/ . Además se va a necesitar el respectivo paquete de idioma que en mi caso es tesseract-orc-spa.

Como viene con interfaz gráfica es bastante intuitivo, pero de todas formas ahí va una pequeña intro de como sacarle el texto a un pdf formado de imagenes o una imagen.
1.- Abrimos la ventana principal.
2.- Despues vamos al menú Archivo y elegimos Importar, seleccionamos el archivo y abrir.
3.- Aparecerá una pequeña ventana indicandonos que páginas queremos analizar.

Esto es puede traer un poco de problemas porque algunos documentos e imagenes están formados por capas y cambia el orden de las páginas.
4.- Ahora se nos mostrará las imagenes de las páginas que elejimos antes.

5.- Por último, a lo que vine, buscamos la imagen que tenga texto, vamos al menú Herramientas, OCR y
se abre una ventana en la que elegimos el motor de busqueda y el idioma, seleccionamos Tessract.

6.- Automaticamente el texto en forma de imagen es extraido y está listo para copiarse.

En caso de querer sacarle texto a una imagen, en el paso 5, como motor elegimos GORC y se obtiene el texto aunque sin caracteres especiales ni tildes.
Espero que les sea útil y mas que todo les ahorre tiempo.
Capturas de pantallas.

Espero que esta publicación te haya gustado. Si tienes alguna duda, consulta o quieras complementar este post, no dudes en escribir en la zona de comentarios. También puedes visitar Facebook, Twitter, Linkedin, Instagram, Pinterest y Feedly donde encontrarás información complementaria a este blog. COMPARTE EN!

0 comments:

No insertes enlaces clicables, de lo contrario se eliminará el comentario. Si quieres ser advertido via email de los nuevos comentarios marca la casilla "Notificarme". Si te ayudé con la publicación o con las respuestas a los comentarios, compártelo en Facebook, Twitter, Tumblr, Google +, Pinterest o Instagram. Gracias.

El Mundo de Ubuntu

Gscan2pdf útil herramienta para extraer el texto de archivos pdf que han sido escaneados como imagen.

Autor: Hugo Luis Alberto Repetto

0 comments:

Ultimas entradas

Lo mas leído

Archivo

Mis favoritos en Instagram

Marcadores

El Mundo de Ubuntu en Pinterest

El Mundo de Ubuntu en Facebook

Mis preferidos

El Mundo de Ubuntu

Gscan2pdf útil herramienta para extraer el texto de archivos pdf que han sido escaneados como imagen.

Autor: Hugo Luis Alberto Repetto

0 comments:

El Mundo de Ubuntu en las Redes Sociales

Ultimas entradas

Lo mas leído

Archivo

Mis favoritos en Instagram

Marcadores

El Mundo de Ubuntu en Pinterest

El Mundo de Ubuntu en Facebook

Mis preferidos