Türkçe OCR Yazılımları Karşılaştırması: Hangisi Hangi Sektör İçin?

Optik Karakter Tanıma (OCR) yazılımları arasında Türkçe desteği konusunda büyük farklar var. Bazıları "ş" ile "s"yi karıştırır, bazıları noktalı harflerde çuvallar, bazıları ise el yazısı tanıma konusunda harika. Hangisi hangi sektör için doğru? Türk pazarındaki başlıca OCR çözümlerinin pratik karşılaştırması.

İçindekiler

OCR Nedir, Nasıl Çalışır?
Tesseract: Açık Kaynak Klasik
ABBYY FineReader: Endüstri Devi
Google Cloud Vision: Bulut Tabanlı Güç
AWS Textract: Belge Yapısı Analizi
Azure Computer Vision: Kurumsal Entegrasyon
Yan Yana Karşılaştırma Tablosu
Hangisi Hangi Sektör İçin?

OCR Nedir, Nasıl Çalışır?

Optik Karakter Tanıma, bir görseldeki yazıyı düzenlenebilir/aranabilir metne dönüştüren teknolojidir. Modern OCR motorları üç aşamada çalışır:

Görsel ön işleme: Eğriliği düzeltme, gürültü temizleme, ikili (binary) renge dönüştürme
Segmentasyon: Sayfayı satırlara, satırları kelimelere, kelimeleri karakterlere bölme
Tanıma: Her karakter veya kelimeyi yapay zekâ modeliyle metne çevirme

Türkçe için ana zorluklar:

Noktalı/noktasız i (ı/i, I/İ)
Şapkalı harfler eski metinlerde (â, î, û)
Türkçeye özgü karakterler (ç, ğ, ş, ö, ü)
Aglutinatif yapı (kelime sonlarındaki ekler tanıma sözlüğünü genişletir)

Tesseract: Açık Kaynak Klasik

Geliştirici: Google (önceden HP) | Lisans: Apache 2.0 (ücretsiz)

Türkiye'de en yaygın kullanılan OCR motoru. Açık kaynak olduğu için kurum içinde çalıştırılabilir, veriler dışarı çıkmaz — KVKK açısından büyük avantaj.

Güçlü yönleri:

Türkçe dil modeli mevcut (tur.traineddata)
Tamamen offline çalışır — internet bağlantısı gerekmez
Ücretsiz, sınırsız kullanım
100+ dil destekli
Linux/Windows/macOS — her yerde çalışır

Zayıf yönleri:

Yapay zekâ tabanlı modern rakiplerine göre doğruluk daha düşük (özellikle düşük kaliteli taramalarda)
El yazısı tanıma çok zayıf
Tablo yapılarını korumakta zorlanır
Kurulum ve konfigürasyon teknik bilgi gerektirir

Tipik doğruluk (Türkçe):

Temiz baskı evrak: %95-98
Eski/yıpranmış evrak: %85-92
El yazısı: %30-50 (önerilmez)

ABBYY FineReader: Endüstri Devi

Geliştirici: ABBYY (Rusya/Birleşik Krallık) | Lisans: Ticari (kullanıcı/sunucu başına)

Profesyonel OCR'da uzun yıllar standart kabul edilmiş ürün. Bankalar, sigorta şirketleri ve büyük arşiv projelerinde sık kullanılır.

Güçlü yönleri:

Çok yüksek doğruluk (%99 üstü temiz evrakta)
Tablo yapısını mükemmel korur
El yazısı tanıma (ABBYY FlexiCapture Cloud) mevcut
Türkçe dil desteği güçlü
PDF/A standardına uyumlu çıktı
Tarayıcı yazılımlarıyla entegrasyon kolay

Zayıf yönleri:

Pahalı — kullanıcı başına yıllık binlerce dolar olabilir
Lisans yönetimi karmaşık
Sunucu kurulumu büyük yatırım gerektirir
Politik nedenlerle Rusya kökenli yazılım kullanmak istemeyen kurumlar var

Google Cloud Vision: Bulut Tabanlı Güç

Geliştirici: Google | Lisans: Kullandıkça öde (sayfa başına)

Google'ın yapay zekâ altyapısını kullanan bulut OCR servisi. Sayfa başına ücretlendirme; küçük ölçekte ucuz, büyükte pahalı olabilir.

Güçlü yönleri:

Yapay zekâ tabanlı çok yüksek doğruluk
El yazısı tanıma mükemmel
Otomatik dil tespiti
200+ dil desteği
Görüntü açıları, eğri taramalar — sorun değil
API tabanlı, hızlı entegrasyon

Zayıf yönleri:

Veriler Google sunucularına gönderilir — KVKK açısından özellikle dikkat
İnternet bağlantısı şart
Yüksek hacimde maliyet hızla artar (1 milyon sayfa için aylık binlerce dolar)
Veri yerelliği zorunluluğu olan sektörler (kamu, finans) için problemli

AWS Textract: Belge Yapısı Analizi

Geliştirici: Amazon | Lisans: Kullandıkça öde

OCR'dan öte, belge yapısını da analiz eden bir servis. Faturalar, formlar, tablolar için özel modu var.

Güçlü yönleri:

Sadece metin değil, belge yapısı (tablo hücreleri, form alanları) çıkarır
Türkçe destekli (2024 sonrası)
Form alanları otomatik tespit edilir (anahtar-değer çiftleri)
AWS ekosistemine entegrasyon kolay (S3, Lambda)

Zayıf yönleri:

Türkçe desteği Google kadar olgun değil
Google Vision gibi veri yurtdışına gider
Salt OCR için pahalı; Textract Analyze daha pahalı

Azure Computer Vision: Kurumsal Entegrasyon

Geliştirici: Microsoft | Lisans: Kullandıkça öde

Azure içindeki Cognitive Services'in bir parçası. Microsoft 365 ile entegre çalışmak isteyen kurumlar için tercih edilir.

Güçlü yönleri:

Türkçe desteği güçlü
Microsoft ekosistemiyle (SharePoint, Power Automate) entegre
Form Recognizer özelliği fatura/makbuz için optimize
El yazısı tanıma kabul edilebilir seviyede
Türkiye'de Azure veri merkezi var (veri yerelliği)

Zayıf yönleri:

Lisanslama karmaşık (kullanıcı + sayfa + özellik bazlı)
Saf OCR doğruluğunda Google'ın gerisinde

Yan Yana Karşılaştırma Tablosu

Özellik	Tesseract	ABBYY	Google	AWS	Azure
Türkçe Doğruluk	İyi	Mükemmel	Mükemmel	İyi	Çok İyi
El Yazısı	Zayıf	İyi	Mükemmel	Orta	Orta
Tablo Yapısı	Zayıf	Mükemmel	İyi	Mükemmel	İyi
Offline Çalışır	✅ Evet	✅ Evet	❌ Hayır	❌ Hayır	❌ Hayır
KVKK Uyumlu	✅ Otomatik	✅ Otomatik	⚠️ Dikkat	⚠️ Dikkat	✅ TR DC ile
Maliyet (1M sayfa)	~0 ₺	Yüksek	Çok Yüksek	Yüksek	Yüksek
Kurulum Zorluğu	Orta	Düşük	Düşük (API)	Düşük (API)	Düşük (API)
Tablo Sonucu	—	—	—	JSON	JSON

Hangisi Hangi Sektör İçin?

Kamu Kurumları → Tesseract

Veri yurt dışına çıkmamalı, lisans bütçesi sınırlı, çoğunlukla yazılı resmi evrak işleniyor. Tesseract ihtiyaca en uygun. Doğruluk düşükse bile, devlet evraklarının çoğu net basılı — OCR doğruluğu yüksek olur.

Bankalar / Sigortacılar → ABBYY veya Hybrid

El yazılı imza ve formlar çok. Yüksek doğruluk şart. KVKK uyumu da kritik. ABBYY hem yerelde çalışır hem yüksek doğruluk verir. Bütçe yetmezse Tesseract + ABBYY hybrid kullanılır (toplu evrakta Tesseract, karmaşıkta ABBYY).

E-ticaret / Lojistik → Google Vision veya AWS Textract

İrsaliye, fatura, kargo etiketi gibi standart formlar çok. Bulut tabanlı, hızlı API çağrısı yapan AWS Textract veya Google Vision ideal.

Üniversite / Yayıncılık → Tesseract + Whisper Kombinasyonu

Akademik döküman taramada Tesseract yeterli. Ders/konferans videoları için OpenAI Whisper (transkript) kullanılır. Kombinasyon hem ucuz hem KVKK uyumlu.

Sağlık Sektörü → ABBYY (yerel kurulum)

Hasta dosyaları çok hassas, bulut servisleri tercih edilmez. ABBYY'nin yerel sunucu kurulumu en güvenli yol.

Karar Vermek İçin Hızlı Soru Seti

Sorun	Önerilen Çözüm
Veri kesinlikle dışarı çıkmamalı mı?	Tesseract veya ABBYY (yerel)
El yazısı tanımanız gerekli mi?	Google Vision veya Azure
Tablo yapısı kritik mi?	ABBYY veya AWS Textract
Bütçe sınırlı mı, hacim büyük mü?	Tesseract (Türkçe modeli iyileştirilmiş)
Microsoft 365 ekosisteminde misiniz?	Azure Computer Vision
Hızlı prototip mi yapacaksınız?	Google Vision veya AWS Textract (API tabanlı)

Akıllı Arşiv'in Yaklaşımı

Akıllı Arşiv | Belge sisteminde varsayılan olarak Tesseract kullanılır — KVKK uyumu, veri yerelliği ve maliyet avantajları için. Türkçe doğruluğu yıllar içinde iyileştirilmiş özel bir model kullanılır. İhtiyaca göre ABBYY veya bulut servisleri ile entegre çalışacak şekilde de konfigüre edilebilir.

Hangi OCR sizin için doğru — pratik bir demo istiyorsanız bize ulaşın, kendi belge örneklerinizle test edebilirsiniz.

Türkçe OCR Yazılımları Karşılaştırması: Hangisi Hangi Sektör İçin?

İçindekiler

OCR Nedir, Nasıl Çalışır?

Tesseract: Açık Kaynak Klasik

Güçlü yönleri:

Zayıf yönleri:

Tipik doğruluk (Türkçe):

ABBYY FineReader: Endüstri Devi

Güçlü yönleri:

Zayıf yönleri:

Google Cloud Vision: Bulut Tabanlı Güç

Güçlü yönleri:

Zayıf yönleri:

AWS Textract: Belge Yapısı Analizi

Güçlü yönleri:

Zayıf yönleri:

Azure Computer Vision: Kurumsal Entegrasyon

Güçlü yönleri:

Zayıf yönleri:

Yan Yana Karşılaştırma Tablosu

Hangisi Hangi Sektör İçin?

Kamu Kurumları → Tesseract

Bankalar / Sigortacılar → ABBYY veya Hybrid

E-ticaret / Lojistik → Google Vision veya AWS Textract

Üniversite / Yayıncılık → Tesseract + Whisper Kombinasyonu

Sağlık Sektörü → ABBYY (yerel kurulum)

Karar Vermek İçin Hızlı Soru Seti

Akıllı Arşiv'in Yaklaşımı

Bu konuda destek mi arıyorsunuz?