[ubuntu-ar] PDFs de imagenes con OCR

Alberto Rosenberg licrosenberg at yahoo.com.ar
Fri May 21 12:41:21 BST 2010


Hola, primero quiero agradecer a todos por sus comentarios, la herramienta unpaper  me pareció genial no la conocía, les cuento que no es el problema del ocr, no me explique bien, el ocr lo realizo sin problemas con el software tesseract con el diccionario en español (por linea de comando), y me genera de cada imagen (yo utilizo tif) un txt, el tema es que tengo un scaner kodak i1220 (que es compatible con linux) pero el software de windows al digitalizar da la opción de crear pdf, y estos pdf dentro tienen la opción de buscar texto, porque previamente hace el ocr, cuando uno abre el documento pdf esta mirando la imagen digital de un texto, pero el acrobat reader permite hacer busques en el y marcar copiar y pegar en otro documento, yo sabía que el acrobar (creo que la versión 8) permitia realizar este tipo de pdf, lo que es poder hacer esto en linux.

Les dejo un documento digitalizado con el software de kodak (pesa 800kb aprox.) para que puedan ver el tipo de archivo final.
http://www.filedropper.com/kodak_1

Si tienen problema me pueden mandar un mail y yo les mando el pdf a sus cuentas

Muchas gracias
Alberto



      
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: https://lists.ubuntu.com/archives/ubuntu-ar/attachments/20100521/0b26aab3/attachment.htm 


More information about the Ubuntu-ar mailing list