[ubuntu-ar] Soft OCR
Jorge Fabián San Román
jsanroman at digisis.com.ar
Tue Mar 23 23:07:23 GMT 2010
On Tue, 23 Mar 2010 19:42:41 -0300, Mariano Mara wrote
> Excerpts from Guillermo's message of Tue Mar 23 19:22:30 -0300 2010:
> > El 23 de marzo de 2010 19:16, Mariano Mara <marplatense en ubuntu.com>escribió:
> >
> > > Alguien que se apiade de mi... me mandaron 4 detalles de llamadas
> > > escaneados en jpg y quieren que compare el costo de esas llamadas con
> > > otros valores. Ya probe y me instalé gscan2pdf y tesseract
> > > y no sale más que porquería en el archivo de resultados (corté
> > > las imagenes en gimp para quedarme solo con las columnas de datos) pero
> > > no tuve la menor suerte.
> > > ¿Alguien puede tirarme un tip luminoso que me salve de tener que ponerme
> > > a pasar número por número a mano?
> > >
> > >
> > Mirá, en este caso me voy a sacar la camiseta del software libre y me voy a
> > sincerar: No existe nada en el mundo del software libre que se compare con
> > la gran opción privativa que hay para estos casos. No te quiero poner el
> > nombre porque me parece que no da, pero si te digo que, en lo personal,
> > jamas encontre nada que se iguale.
> >
> > Todo lo que hay te va a dar mas dolor de cabeza nomas.
> >
>
> Gracias por las funestas noticias... a tipear se ha dicho.
Hola, bueno, a ver si puedo ayudar, yo también estoy interesado en OCR, probé
el Xsane que usa gocr de motor y tiene demasiados errores; pero buscando
encontré esta guía:
Primero instar los paquetes "tesseract 2.03-4" de
"http://download.tuxfamily.org/xcfaudio/tesseract/All%20languages/i386/",
"xsane2tess" de "http://download.tuxfamily.org/guadausers/guadaV4/" y
"imagemagick".
Luego crear la carpeta tmp en: /home/usuario/tmp
Después abrir Xsane para configurarlo, Preferencias--> Configuración-->
pestaña OCR y relleno lo siguiente:
Orden OCR --> xsane2tess -l spa
Opción del archivo de entrada --> -i
Opción del archivo de salida --> -o
Opción de salida-fd de interfaz --> -x
Aclaro que no lo pude usar porque el xsane2tess que encontré es de i386 y mi
sistema es X64, pero seguí buscando y encontré una interfaz gráfica para
Tesseract aquí: http://sourceforge.net/projects/tesseract-gui
esta sí me funcionó, pero escaneo el texto como imágen Tiff, guardo el
archivo, despúes desde Tesseract-GUI lo busco, lo abre y lo guarda como TXT y
allí lo trabajo con Open Office; tiene pocos errores.
Espero haber sido de utilidad. Saludos.
> --
> Ubuntu-ar lista de correo
> Ubuntu-ar en lists.ubuntu.com
> Modifica tus opciones o desuscribite en:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar Siempre leer,
> comprender y aplicar nuestra etiqueta:
https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML
More information about the Ubuntu-ar
mailing list