Geçenlerde Pardus‘ ta tarayıcı konulu bir yazı yazmış ve OCR(Optik Karakter Okuma) konusundaki sıkıntılardan bahsetmiştim. Şimdi karakter tanıma programı olarak kullanılan Tesseract-Ocr programı kullanımı ve yeni geliştirilmeye başlanılan Lector adlı arayüzünden bahsetmek istiyorum.
Tesseract-OCR programı komut satırından kullanılmakta. Bu programla taradığınız belgeyi *.tif uzantısı ile kaydetmek zorundasınız. Kooka veya Xsane ile belgeyi tarayın, Xsane‘ de *.tiff uzantısı ile kayıt yapabilirsiniz, fakat Kooka‘ da bu uzantı desteklenmiyor ama sorun değil biz *.jpg olarak kaydedelim.
Kooka ile taradıysak hemen Alt+F2 tuş kombinasyonu ile açılan pencerede konsole yazarak komut satırını çalıştırıyoruz. imagemagick programını kullanarak *.jpg uzantılı dosyamızı *.tif haline çevirebiliriz. imagemagick programı depolarda mevcut. Sisteminizde yüklü değilse kurun. Sonra aşağıdaki komutu komut satırında yazarak dosyamızı dönüştürelim.
cd (dosyamızın olduğu dizin)






