Herşey Linux ile başladı.

Pardus deneyimlerim

Pardus-OCR-Tesseract-Lector

Posted by okursat Şubat 3, 2009


Geçenlerde Pardus‘ ta tarayıcı konulu bir yazı yazmış ve OCR(Optik Karakter Okuma) konusundaki sıkıntılardan bahsetmiştim. Şimdi karakter tanıma programı olarak kullanılan Tesseract-Ocr programı kullanımı ve yeni geliştirilmeye başlanılan Lector adlı arayüzünden bahsetmek istiyorum.mustek 1200 ub plus

Tesseract-OCR programı komut satırından kullanılmakta. Bu programla taradığınız belgeyi *.tif uzantısı ile kaydetmek zorundasınız. Kooka veya Xsane ile belgeyi tarayın, Xsane‘ de *.tiff uzantısı ile kayıt yapabilirsiniz, fakat Kooka‘ da bu uzantı desteklenmiyor ama sorun değil biz *.jpg olarak kaydedelim.

Kooka ile taradıysak hemen Alt+F2 tuş kombinasyonu ile açılan pencerede konsole yazarak komut satırını çalıştırıyoruz. imagemagick programını kullanarak *.jpg uzantılı dosyamızı *.tif haline çevirebiliriz. imagemagick programı depolarda mevcut. Sisteminizde yüklü değilse kurun. Sonra aşağıdaki komutu komut satırında yazarak dosyamızı dönüştürelim.

cd (dosyamızın olduğu dizin)

imagemagick convert dosyaadı.jpg dosyaadı.tif işlemi tamamlamış olduk. Şimdi sıra geldi *.tif uzantılı dosyamızı Tesseract ile okumaya, bunun içinde aşağıdaki komutu komut satırında yazıyoruz.

tesseract dosyaadı.tif dosyaadı -l eng komutunu yazdığımızda dosyamızın bulunduğu dizinde dosyadı.txt  isimli yeni bir dosya oluştuğunu göreceğiz. Bu dosyanın içeriğine baktığımızda taradığımız belgenin dosya içeriğine aktırıldığını görebiliriz.

Birde Lector programının kullanımına değineyim. Bu program kosoldan kullanılan Tesseract-OCR için yazılmış olan bir kullanıcı arayüzüdür. Fakat şuanda 0.2.1.1 sürümünde olup daha geliştirilmesi gerekiyor. Umut vaadeden bir program.

Ekran görüntüleri aşağıdaki gibi.

Programı proje sayfa olan buradan indirebilirsiniz. Programın arayüzünü Türkçe’ ye çevirdim. İsteyen Türkçe’ sini buradan indirebilir. Programın *.pisi paketi yok. Çalıştırmak için şu yolu izleyebiliriz. Programı indirdikten sonra Ark ya da başka bir arşiv programı ile herhangi bir dizine açalım. Açtığımız dizinin içerisine girerek F4 tuşuna basalım ve o dizinde konsolun açılmasını sağlayalım. Sonra aşağıdaki komutları yazalım.

chmod a+x lector.py

python lector.py

Dilediğiniz gibi kullanabilirsiniz.

4 Yanıt to “Pardus-OCR-Tesseract-Lector”

  1. mustafa demiş

    Bu pragrama bir de türkçe dil desteği eklenip depoya konsa çok güzel olacak.

  2. okursat demiş

    Dediğinize katılıyorum. Programı Türkçeleştirmek kolay, zaten py uzantılı dosyada gerekli yerlerle oynayarak Türkçeleştirmesini yapmıştım. İşin zor olan kısmı programın OCR desteğinin Türkçe karekterleri tanıması. Bu işi yapmak ise çok zor. Bir çok fontun program aracılığıyla tanıtılması gerekli ve buda ekip işi bunu Özgürlükiçin.com’ da dile getirmiştim. Fakat ilgi pek olmadı. Birde zaten Pardus 2009 sürümünün sonlarına doğru Pardusumuzun kendi özel tarayıcı programı olacak. Uğur bey programı yazıyor bildiğim kadarı ile. Bütün bunlara gerek kalmayacak. Ama alternatif olarak güzel bir program olabilir. İnşallah Fine Reader tadında güzel bir program olur.

  3. mustafa demiş

    merhaba.. uğur bey in bu programın ne kadarını geliştirdiğini, hangi aşama da olduğunu nasıl öğrenebiliriz. ülkemizin bence en büyük sorunu her işin ucundan ayrı ayrı tutup gücümüzü dağıtmamız. oysa açık kod olarak yazılmış bir program var. buna türkçe dil karekterlerinin tanıtılması. ingilizce ile türkçe arasındaki benzer karekterleri aynen alıp benzer olmayanları tanımasının sağlanarak bir an önce pardus daki bu eksikliğin giderilmesi. daha sonra daha iyisi ve tamamen türkçe dil ve tanıma destekli olan yazılım üzerinde çalışabiliriz.

  4. okursat demiş

    Dediklerinize katılıyorum. Özgürlükiçin.com’ da şu başlığı açmıştım. Uğur Tutar ile ilgili Geliştirici Kararlarına ise buradan ulaşabilirsiniz. Gelişim sürecini Özgürlükiçin.com topluluğu yöneticilerine e-posta yazarak öğrenebilirsiniz diye düşünüyorum.

Yorum yapın

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Değiştir )

Twitter picture

You are commenting using your Twitter account. Log Out / Değiştir )

Facebook photo

You are commenting using your Facebook account. Log Out / Değiştir )

Connecting to %s

 
Takip Et

Get every new post delivered to your Inbox.