[ubuntu-ar] Soft OCR
Jorge Fabián San Román
jsanroman at digisis.com.ar
Wed Mar 24 15:37:33 GMT 2010
On Tue, 23 Mar 2010 22:41:05 -0300, Mariano Mara wrote
> Excerpts from Miguel Sajnovsky's message of Tue Mar 23 22:23:15 -
> 0300 2010:
> > El 23 de marzo de 2010 20:07, Jorge Fabián San Román <
> > jsanroman en digisis.com.ar> escribió
> > >
> > >
> > >
> > > Hola, bueno, a ver si puedo ayudar, yo también estoy interesado en OCR,
> > > probé
> > > el Xsane que usa gocr de motor y tiene demasiados errores; pero buscando
> > > encontré esta guía:
> > >
> > > Primero instar los paquetes "tesseract 2.03-4" de
> > > "http://download.tuxfamily.org/xcfaudio/tesseract/All%20languages/i386/",
> > > "xsane2tess" de "http://download.tuxfamily.org/guadausers/guadaV4/" y
> > > "imagemagick".
> > >
> > > Luego crear la carpeta tmp en: /home/usuario/tmp
> > >
> > > Después abrir Xsane para configurarlo, Preferencias--> Configuración-->
> > > pestaña OCR y relleno lo siguiente:
> > >
> > > Orden OCR --> xsane2tess -l spa
> > > Opción del archivo de entrada --> -i
> > > Opción del archivo de salida --> -o
> > > Opción de salida-fd de interfaz --> -x
> > >
> > > Aclaro que no lo pude usar porque el xsane2tess que encontré es de i386 y
> > > mi
> > > sistema es X64, pero seguí buscando y encontré una interfaz gráfica para
> > > Tesseract aquí: http://sourceforge.net/projects/tesseract-gui
> > >
> > > esta sí me funcionó, pero escaneo el texto como imágen Tiff, guardo el
> > > archivo, despúes desde Tesseract-GUI lo busco, lo abre y lo guarda como TXT
> > > y
> > > allí lo trabajo con Open Office; tiene pocos errores.
> > >
> > > Espero haber sido de utilidad. Saludos.
> > > > --
> > >
>
> Desde ya te agradezco la paciencia y el tiempo para detallar todos
> los pasos. Ya he andado con tesseract y convirtiendo jpgs a tifs: no
> tuve suerte pero no seguí los pasos tal cual lo indicas vos ni usé
> la GUI. Ya lo estoy descargando para hacer las pruebas a ver como me
> va. Esperen más noticias para este boletín.
>
Me acabo de dar cuenta que no aclaré que, cuando escaneo un texto como imágen
tiff, lo hago desde Xsane, configurado en una resolución de entre 300 a 400
dpi, luego los otros pasos detallados.
Saludos
Jorge Fabián San Román
> --
> Ubuntu-ar lista de correo
> Ubuntu-ar en lists.ubuntu.com
> Modifica tus opciones o desuscribite en:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-ar Siempre leer,
> comprender y aplicar nuestra etiqueta:
https://wiki.ubuntu.com/ArgentinaTeam/EtiquetaML
More information about the Ubuntu-ar
mailing list