Ingyen optikai karakter felismerés, szkennelés - free OCR, scanner
Optical Character Recognition
(Dolgó Szilárd)
• Bevezető
Ingyenes, open source karakterfelismerő program letölthető a
http://www.szoftverbazis.hu/szoftver/freeocr-v2-6-VH14.html oldalról. Nyílt forráskódú konzolos programot
használ. A .net keretrendszerrel megírt alkalmazás pedig egy kezelőfelületet ad hozzá.
• Más nyelvek használata
A rendelkezésre álló nyelvekhez tartozó fájlokat a
http://code.google.com/p/tesseract-ocr/downloads/list
oldalon tölthetjük le. Kicsomagolva a "/WINDOWS/tessdata" könyvtárba kell másolni az állományokat, és a freeORC
program felismeri, alkalmazza. A magyar nyelvhez hasonló a spanyol, amely kis hibával jól felismeri a kisbetűs
karaktereket. Az ű-t ü-nek, az ő-t ö-nek mutatja. A nagy betűk felismerése sem teljesen korrekt.
• Kezelőfelület működése
Ha beszkenneltünk egy lapot, akkor a bal oldalon található ikonokkal forgathatunk a képen. Az egérkurzort a
szöveg fölé helyezve, és folyamatos bal egérgom nyomva tartása mellett egy szövegrészt jelölhetünk ki. Az OCR
ikonra kattintva csak ez a kis rész kerül beolvasásra. A felismert karakterek, szöveg a jobb oldalra íródnak.
Jobb oldalról a vágólapra másolhatjuk a szöveget.
• Magyar karakterek felismerése
Vannak a neten, igaz angol nyelvű leírások, amelyek elmagyarázzák, hogy egy adott fontkészlettel beolvasott
képfájlt hogyan lehet értelmezhetővé tenni a program számára. Itt nem csak a betűk összesége, hanem a fontkészlet
tipusa is számít a felismerhetőség szempontjából.
Itt található egy tutorial, hogyan készíthetünk magyar nyelvi modult:
http://www.scribd.com/doc/16747664/Tesseract-Trainingfor-Khmer-LanguageFor-Posting