(g)ocr

Vr Okt 23 06:27:59 UTC 2009

Op donderdag 22-10-2009 om 21:12 uur [tijdzone +0200], schreef Dieter:
> Op woensdag 21-10-2009 om 23:00 uur [tijdzone +0200], schreef Niels
> Egberts:
> > Ik gebruik zelf deze wel eens: http://www.free-ocr.com/
> > 
> > Dan gooi ik er gewoon een gescant document in, en dan moet je er wel
> > nog een keer overheen om de tikfouten eruit te halen. Maar dat is
> > altijd nog minder tijd dan alles zelf overtikken. De accuraatheid
> > verschilt nogal met de kwaliteit van je documentje.
> 
> Ik heb het formulier gescand met xsane, en dan met het ocr programma wat
> daarbij zit, een tekst bestand laten maken. Maar dat leek echt helemaal
> nergens op. Vermoedelijk is het ocr programma wat jij gebruikt hetzelfde
> wat in xsane wordt gebruikt.
> Wat voor parameters gebruik jij?
> 
> Groet, Dieter.
> 
> 
> 
Je kan ook gebruikmaken van tesseract: een vrijgegeven OCR-engine uit de
jaren 90 en dat sinds enkele jaren verder wordt ontwikkeld. Doet de job
beter dan gocr en clara. 
De meest gemakkelijk manier om hem te installeren is samen met
gscan2pdf. Kies dan vervolgens tesseract als OCR. 
Vergeet ook niet de nederlandstalige modules mee te installeren (anders
doet het engelstalige heuristiek). 

mvg, 

Koen Wybo