Teknobot AI Optik Karakter Tanıma (Optical Character Recognition)

Optik Karakter Tanıma (Optical Character Recognition)

Optik karakter tanıma veya optik karakter okuyucu (OCR), ister taranmış bir belgeden, ister bir belgenin fotoğrafından, ister bir sahne fotoğrafından (örneğin; bir manzara fotoğrafındaki tabelaların ve reklam panolarının üzerindeki metin) veya bir görüntünün üzerine bindirilmiş altyazı metninden (örneğin: bir televizyon yayınından).[1]

Pasaport belgeleri, faturalar, banka hesap özetleri, bilgisayarlı makbuzlar, kartvizitler, posta, statik verilerin çıktıları veya herhangi bir uygun belge olsun, basılı kağıt veri kayıtlarından veri girişi biçimi olarak yaygın olarak kullanılır – basılı dijitalleştirmenin yaygın bir yöntemidir. Böylece metinler elektronik olarak düzenlenebilir, aranabilir, daha kompakt bir şekilde saklanabilir, çevrimiçi görüntülenebilir ve bilişsel bilgi işlem, makine çevirisi, (çıkarılmış) metinden konuşmaya, önemli veriler ve metin madenciliği gibi makine süreçlerinde kullanılabilir. OCR, örüntü tanıma, yapay zeka ve bilgisayar görüşü alanlarında bir araştırma alanıdır.

İlk sürümlerin her karakterin görüntüleri ile eğitilmesi ve her seferinde bir yazı tipi üzerinde çalışılması gerekiyordu. Çoğu yazı tipi için yüksek derecede tanıma doğruluğu üretebilen gelişmiş sistemler artık yaygındır ve çeşitli dijital görüntü dosyası formatı girişlerini destekler.[2] Bazı sistemler, resimler, sütunlar ve diğer metinsel olmayan bileşenler dahil olmak üzere orijinal sayfaya çok benzeyen biçimlendirilmiş çıktılar üretebilir.

Tarihi

Erken optik karakter tanıma, telgrafı içeren ve körler için okuma cihazları yaratan teknolojilere kadar izlenebilir.[3] 1914’te Emanuel Goldberg, karakterleri okuyan ve bunları standart telgraf koduna dönüştüren bir makine geliştirdi.[4] Aynı zamanda Edmund Fournier d’Albe, basılı bir sayfada hareket ettirildiğinde belirli harflere veya karakterlere karşılık gelen tonlar üreten bir el tipi tarayıcı olan Optophone’u geliştirdi.[5]

1920’lerin sonlarında ve 1930’larda Emanuel Goldberg, bir optik kod tanıma sistemi kullanarak mikrofilm arşivlerini aramak için “İstatistiksel Makine” adını verdiği şeyi geliştirdi. 1931’de buluşu için kendisine 1.838.389 numaralı ABD Patenti verildi. Patent IBM tarafından satın alındı.

Ama ve görme engelli kullanıcılar

1974’te Ray Kurzweil, Kurzweil Computer Products, Inc. şirketini kurdu ve hemen hemen her yazı tipinde yazdırılan metni tanıyabilen tüm yazı tipi OCR’yi geliştirmeye devam etti (Kurzweil genellikle tüm yazı tipi OCR’yi icat etmekle anılır, ancak 1960’ların sonlarında ve 1970’lerde CompuScan dahil olmak üzere şirketler.[3][6]) Kurzweil, bu teknolojinin en iyi uygulamasının körler için bir okuma makinesi yaratmak olduğuna karar verdi, bu da görme engellilerin bir bilgisayar okuma metnine sahip olmasını sağlayacaktı. onlara yüksek sesle. Bu cihaz, iki etkinleştirme teknolojisinin icat edilmesini gerektirdi – CCD düz yataklı tarayıcı ve metinden konuşmaya sentezleyici. 13 Ocak 1976’da, başarılı bitmiş ürün, Kurzweil ve Ulusal Körler Federasyonu liderleri tarafından yönetilen geniş çapta bildirilen bir basın toplantısında tanıtıldı. 1978’de Kurzweil Computer Products, optik ürünün ticari bir versiyonunu satmaya başladı. karakter tanıma bilgisayar programı. LexisNexis ilk müşterilerden biriydi ve yeni oluşan çevrimiçi veritabanlarına yasal belge ve haber belgeleri yüklemek için programı satın aldı. İki yıl sonra Kurzweil, şirketini kağıttan bilgisayara metin dönüştürmeyi daha fazla ticarileştirmekle ilgilenen Xerox’a sattı. Xerox sonunda onu Nuance Communications ile birleşen Scansoft olarak döndürdü.

2000’lerde OCR, çevrimiçi bir hizmet olarak (WebOCR), bir bulut bilgi işlem ortamında ve bir akıllı telefonda yabancı dil işaretlerinin gerçek zamanlı çevirisi gibi mobil uygulamalarda kullanıma sunuldu. Akıllı telefonların ve akıllı gözlüklerin ortaya çıkmasıyla OCR, cihazın kamerası kullanılarak yakalanan metni çıkaran internet bağlantılı mobil cihaz uygulamalarında kullanılabilir. İşletim sistemine yerleşik OCR işlevine sahip olmayan bu cihazlar, cihaz tarafından yakalanan ve sağlanan görüntü dosyasından metin çıkarmak için tipik olarak bir OCR API kullanır.[7][8] OCR API, çıkarılan metni orijinal görüntüdeki algılanan metnin konumu hakkındaki bilgilerle birlikte daha fazla işlem (metinden konuşmaya dönüştürme gibi) veya görüntüleme için cihaz uygulamasına geri döndürür.

Latin, Kiril, Arapça, İbranice, Hintçe, Bengalce (Bangla), Devanagari, Tamilce, Çince, Japonca ve Korece karakterler dahil olmak üzere en yaygın yazı sistemleri için çeşitli ticari ve açık kaynaklı OCR sistemleri mevcuttur.

Uygulamalar

OCR motorları, makbuz OCR’si, fatura OCR’si, çek OCR’si, yasal faturalandırma belgesi OCR’si gibi birçok etki alanına özgü OCR uygulamasına göre geliştirilmiştir.

Şunlar için kullanılabilirler:

İş belgeleri için veri girişi, örn. Çek, pasaport, fatura, banka ekstresi ve makbuz
Otomatik plaka tanıma
Havaalanlarında, pasaport tanıma ve bilgi çıkarma için
Otomatik sigorta belgeleri anahtar bilgi çıkarma[kaynak belirtilmeli]
Trafik işareti tanıma[9]
Kartvizit bilgilerini bir kişi listesine çıkarma[10]
Basılı belgelerin metin sürümlerini daha hızlı oluşturun, örn. Gutenberg Projesi için kitap taraması
Basılı belgelerin elektronik görüntülerini aranabilir hale getirin, örn. Google Kitapları
Bir bilgisayarı kontrol etmek için el yazısını gerçek zamanlı olarak dönüştürme (kalemle hesaplama)
CAPTCHA anti-bot sistemlerini yenmek, ancak bunlar OCR’yi önlemek için özel olarak tasarlanmıştır.[11][12][13] Amaç, CAPTCHA anti-bot sistemlerinin sağlamlığını test etmek de olabilir.
Kör ve görme engelli kullanıcılar için yardımcı teknoloji
Gerçek zamanlı olarak değişen araç tasarımına uygun CAD görüntülerini bir veritabanında tanımlayarak araçlar için talimatların yazılması.
Taranan belgeleri aranabilir PDF’lere dönüştürerek aranabilir hale getirme

Türler

Optik karakter tanıma (OCR) – daktiloyla yazılmış metni tek seferde bir glif veya karakter olarak hedefler.
Optik kelime tanıma – daktiloyla yazılmış metni, her seferinde bir kelime olacak şekilde hedefler (sözcük ayırıcı olarak boşluk kullanan diller için). (Genellikle yalnızca “OCR” olarak adlandırılır.)
Akıllı karakter tanıma (ICR) – ayrıca, genellikle makine öğrenimini içeren, el yazısıyla yazılmış basılı metni veya el yazısıyla yazılmış metni tek seferde bir glif veya karakter olarak hedefler.
Akıllı sözcük tanıma (IWR) – aynı zamanda el yazısıyla yazılmış basılı metni veya bitişik eğik metni, her seferinde bir sözcük olmak üzere hedefler. Bu, özellikle gliflerin el yazısıyla ayrılmadığı diller için kullanışlıdır.

OCR genellikle statik bir belgeyi analiz eden “çevrimdışı” bir işlemdir. Çevrimiçi bir OCR API hizmeti sağlayan bulut tabanlı hizmetler vardır. El yazısı hareket analizi, el yazısı tanıma için girdi olarak kullanılabilir.[14] Bu teknik, yalnızca gliflerin ve kelimelerin şekillerini kullanmak yerine, parçaların çizilme sırası, yön ve kalemi yere koyup kaldırma şekli gibi hareketleri yakalayabilir. Bu ek bilgiler, uçtan uca süreci daha doğru hale getirebilir. Bu teknoloji aynı zamanda “çevrimiçi karakter tanıma”, “dinamik karakter tanıma”, “gerçek zamanlı karakter tanıma” ve “akıllı karakter tanıma” olarak da bilinir.

Teknikler

Ön işleme

OCR yazılımı, başarılı tanıma şansını artırmak için genellikle görüntüleri “ön işler”. Teknikler şunları içerir:[15]

Eğriliği Giderme – Belge tarandığında düzgün şekilde hizalanmamışsa, metin satırlarını tamamen yatay veya dikey yapmak için saat yönünde veya saat yönünün tersine birkaç derece eğilmesi gerekebilir.
Leke giderme – pozitif ve negatif noktaları giderin, kenarları yumuşatın
İkili hale getirme – Bir görüntüyü renkli veya gri tonlamadan siyah beyaza dönüştürün (iki renk olduğu için “ikili görüntü” olarak adlandırılır). İkili hale getirme görevi, metni (veya istenen başka bir görüntü bileşenini) arka plandan ayırmanın basit bir yolu olarak gerçekleştirilir.[16] Çoğu ticari tanıma algoritması, bunu yapmanın daha basit olduğu kanıtlandığından yalnızca ikili görüntüler üzerinde çalıştığı için ikilileştirme görevinin kendisi gereklidir.[17] Ek olarak ikili hale getirme adımının etkinliği, karakter tanıma aşamasının kalitesini önemli ölçüde etkiler ve belirli bir girdi görüntüsü tipi için kullanılan ikilileştirme seçiminde dikkatli kararlar verilir; çünkü ikili sonucu elde etmek için kullanılan ikili hale getirme yönteminin kalitesi girdi görüntüsünün türüne bağlıdır (taranan belge, sahne metin görüntüsü, tarihsel olarak bozulmuş belge vb.).[18][19]
Çizgi kaldırma – Glif olmayan kutuları ve çizgileri temizler
Düzen analizi veya “bölgelendirme” – Sütunları, paragrafları, alt yazıları vb. ayrı bloklar olarak tanımlar. Özellikle çok sütunlu düzenlerde ve tablolarda önemlidir.
Çizgi ve sözcük algılama – Sözcük ve karakter şekilleri için temel oluşturur, gerekirse sözcükleri ayırır.
Komut dosyası tanıma – Çok dilli belgelerde, komut dosyası sözcük düzeyinde değişebilir ve bu nedenle, belirli komut dosyasını işlemek için doğru OCR’nin çağrılabilmesi için komut dosyasının tanımlanması gereklidir.[20]
Karakter yalıtımı veya “segmentasyon” – Karakter başına OCR için, görüntü yapaylıkları nedeniyle bağlanan birden çok karakter ayrılmalıdır; eserler nedeniyle birden çok parçaya bölünmüş tek karakterler bağlanmalıdır.
En boy oranını ve ölçeği normalleştirin[21]

Sabit aralıklı yazı tiplerinin segmentasyonu, dikey ızgara çizgilerinin siyah alanları en az kesiştiği yere göre görüntüyü tek tip bir ızgaraya hizalayarak nispeten basit bir şekilde gerçekleştirilir. Orantılı yazı tipleri için daha karmaşık teknikler gereklidir çünkü harfler arasındaki boşluk bazen kelimeler arasındaki boşluktan daha fazla olabilir ve dikey çizgiler birden fazla karakteri kesebilir.[22]

Metin tanıma

Aday karakterlerin sıralı bir listesini üretebilen iki temel çekirdek OCR algoritması türü vardır.[23]

Matris eşleştirme, bir görüntüyü depolanmış bir glifle piksel piksel temelinde karşılaştırmayı içerir; aynı zamanda “kalıp eşleştirme”, “kalıp tanıma” veya “görüntü korelasyonu” olarak da bilinir. Bu, giriş glifinin görüntünün geri kalanından doğru şekilde izole edilmesine ve saklanan glifin benzer bir yazı tipinde ve aynı ölçekte olmasına bağlıdır. Bu teknik, daktiloyla yazılmış metinde en iyi şekilde çalışır ve yeni yazı tipleriyle karşılaşıldığında iyi çalışmaz. Bu, erken fiziksel fotosel tabanlı OCR’nin doğrudan uyguladığı tekniktir.
Özellik çıkarma, glifleri çizgiler, kapalı döngüler, çizgi yönü ve çizgi kesişimleri gibi “özelliklere” ayrıştırır. Çıkarma özellikleri, temsilin boyutsallığını azaltır ve tanıma sürecini hesaplama açısından verimli hale getirir. Bu özellikler, bir karakterin bir veya daha fazla glif prototipine indirgenebilen soyut bir vektör benzeri temsiliyle karşılaştırılır. Bilgisayar görüşündeki genel özellik algılama teknikleri, “akıllı” el yazısı tanımada ve aslında çoğu modern OCR yazılımında yaygın olarak görülen bu tür OCR’ye uygulanabilir.[24] K-en yakın komşu algoritması gibi en yakın komşu sınıflandırıcıları, görüntü özelliklerini kayıtlı glif özellikleriyle karşılaştırmak ve en yakın eşleşmeyi seçmek için kullanılır.[25]

Cuneiform ve Tesseract gibi yazılımlar, karakter tanıma için iki geçişli bir yaklaşım kullanır. İkinci geçiş, “uyarlamalı tanıma” olarak bilinir ve ikinci geçişte kalan harfleri daha iyi tanımak için ilk geçişte büyük bir güvenle tanınan harf şekillerini kullanır. Bu, alışılmadık yazı tipleri veya yazı tipinin bozuk olduğu (ör. bulanık veya soluk) düşük kaliteli taramalar için avantajlıdır.[22]

Modern OCR yazılımları arasında Google Docs OCR, ABBYY FineReader ve Transym bulunur.[26] OCRopus ve Tesseract gibi diğerleri, tek karakterlere odaklanmak yerine tüm metin satırlarını tanımak için eğitilmiş sinir ağlarını kullanır.

Yinelemeli OCR olarak bilinen yeni bir teknik, bir belgeyi otomatik olarak sayfa düzenine göre bölümlere ayırır. OCR, sayfa düzeyinde OCR doğruluğunu en üst düzeye çıkarmak için değişken karakter güven seviyesi eşikleri kullanılarak bölümlerde ayrı ayrı gerçekleştirilir. Bu yöntem için Amerika Birleşik Devletleri Patent Ofisi’nden bir patent alınmıştır[27]

OCR sonucu, standartlaştırılmış ALTO biçiminde, özel bir XML şemasında saklanabilir. Amerika Birleşik Devletleri Kongre Kütüphanesi. Diğer yaygın biçimler arasında hOCR ve PAGE XML bulunur.

Rötuş

Çıktı bir sözlükle (belgede geçmesine izin verilen sözcüklerin bir listesi) kısıtlanırsa OCR doğruluğu artırılabilir.[15] Bu, örneğin, İngilizce dilindeki tüm kelimeler veya belirli bir alan için daha teknik bir sözlük olabilir. Belge, özel isimler gibi sözlükte olmayan sözcükler içeriyorsa, bu teknik sorunlu olabilir. Tesseract, geliştirilmiş doğruluk için karakter bölümleme adımını etkilemek için kendi sözlüğünü kullanır.[22]

Çıkış akışı bir düz metin akışı veya karakter dosyası olabilir, ancak daha gelişmiş OCR sistemleri sayfanın orijinal düzenini koruyabilir ve örneğin, hem sayfanın orijinal görüntüsünü hem de aranabilir bir metin temsilini içeren açıklamalı bir PDF oluşturabilir. .

“Yakın komşu analizi”, belirli kelimelerin genellikle birlikte görüldüğüne dikkat çekerek hataları düzeltmek için birlikte oluşum sıklıklarını kullanabilir.[28] Örneğin, “Washington, D.C.” genellikle İngilizce’de “Washington DOC” kelimesinden çok daha yaygındır.

Taranmakta olan dilin dilbilgisi bilgisi ayrıca bir kelimenin fiil mi yoksa isim mi olduğunu belirlemeye yardımcı olabilir, örneğin daha fazla doğruluk sağlar.

Levenshtein Distance algoritması, bir OCR API’sinden alınan sonuçları daha da optimize etmek için OCR son işlemesinde de kullanılmıştır.[29]

Uygulamaya özel optimizasyonlar

Son yıllarda,[ne zaman?] başlıca OCR teknolojisi sağlayıcıları, belirli girdi türleriyle daha verimli bir şekilde başa çıkmak için OCR sistemlerini değiştirmeye başladı. Uygulamaya özgü bir sözlüğün ötesinde, iş kuralları, standart ifade, [açıklama gerekli] veya renkli görüntülerde yer alan zengin bilgiler dikkate alınarak daha iyi performans elde edilebilir. Bu stratejiye “Uygulamaya Yönelik OCR” veya “Özelleştirilmiş OCR” adı verilir ve plakaların, faturaların, ekran görüntülerinin, kimlik kartlarının, sürücü belgelerinin ve otomobil üretiminin OCR’sine uygulanmıştır.

New York Times, OCR teknolojisini, etkileşimli haber ekiplerinin gözden geçirilmesi gereken belgelerin işlenmesini hızlandırmasını sağlayan Document Helper adını verdikleri tescilli bir araca uyarladı. Muhabirlerin içeriği gözden geçirmesi için hazırlık olarak saatte 5.400 sayfaya varan bir miktarı işlemelerine olanak tanıdığını belirtiyorlar.[30]

Geçici çözümler
Geliştirilmiş OCR algoritmaları dışında, karakter tanıma problemini çözmek için çeşitli teknikler vardır.

Daha iyi girişi zorlamak

OCR-A, OCR-B veya MICR yazı tipleri gibi kesin olarak belirlenmiş boyutlandırma, boşluk ve ayırt edici karakter şekillerine sahip özel yazı tipleri, banka çeki işlemlerinde transkripsiyon sırasında daha yüksek bir doğruluk oranı sağlar. Bununla birlikte, ironik bir şekilde, bazı önde gelen OCR motorları, Arial veya Times New Roman gibi popüler yazı tiplerindeki metni yakalamak için tasarlandı ve özelleşmiş ve popüler olarak kullanılan yazı tiplerinden çok farklı olan bu yazı tiplerindeki metni yakalayamıyor. Google Tesseract yeni yazı tiplerini tanımak üzere eğitilebileceğinden, OCR-A, OCR-B ve MICR yazı tiplerini tanıyabilir.[31]

“Tarak alanları”, insanları daha okunaklı yazmaya teşvik eden önceden basılmış kutulardır – kutu başına bir glif.[28] Bunlar genellikle, OCR sistemi tarafından kolaylıkla kaldırılabilen bir “çıkarılan renkte” basılır.[28]

Palm OS, “Graffiti” olarak bilinen ve basılı İngilizce karakterlere benzeyen ancak platformun hesaplama açısından sınırlı donanımında daha kolay tanınması için basitleştirilmiş veya değiştirilmiş özel bir glif seti kullandı. Kullanıcıların bu özel glifleri nasıl yazacaklarını öğrenmeleri gerekir.

Bölge tabanlı OCR, görüntüyü bir belgenin belirli bir bölümüyle sınırlar. Buna genellikle “Şablon OCR” denir.
Kitle kaynak kullanımı

Karakter tanıma işlemini gerçekleştirmek için insanlardan kitle kaynak kullanımı, görüntüleri bilgisayar destekli OCR gibi hızlı bir şekilde işleyebilir, ancak görüntüleri tanımada bilgisayarlar yoluyla elde edilenden daha yüksek doğrulukla. Pratik sistemler arasında Amazon Mechanical Turk ve reCAPTCHA yer alır. Finlandiya Ulusal Kütüphanesi, kullanıcıların OCR’li metinleri standartlaştırılmış ALTO formatında düzeltmeleri için çevrimiçi bir arayüz geliştirmiştir.[32] Kalabalık kaynak kullanımı, doğrudan karakter tanıma gerçekleştirmek için değil, yazılım geliştiricilerini, örneğin sıralama turnuvaları aracılığıyla görüntü işleme algoritmaları geliştirmeye davet etmek için de kullanılmıştır.[33]

Kesinlik

ABD Enerji Bakanlığı (DOE) tarafından görevlendirilen Bilgi Bilimi Araştırma Enstitüsü (ISRI), makineyle yazdırılan belgeleri anlamak için otomatik teknolojilerin geliştirilmesini teşvik etme misyonuna sahipti ve 1992’den itibaren Yıllık OCR Doğruluğu Testinin en yetkilisini gerçekleştirdi. 1996’ya.[34]

Latin harfleriyle yazılmış, daktiloyla yazılmış metinlerin tanınması, net görüntülemenin mümkün olduğu yerlerde bile hala %100 doğru değildir. 19. ve 20. yüzyılın başlarındaki gazete sayfalarının tanınmasına dayanan bir çalışma, ticari OCR yazılımı için karakter karakter OCR doğruluğunun %81 ila %99 arasında değiştiği sonucuna vardı;[35] toplam doğruluk, insan incelemesi veya Veri Sözlüğü ile elde edilebilir kimlik doğrulama. El yazısı, bitişik el yazısı ve diğer yazılardaki (özellikle tek bir karakter için birçok çizgiye sahip Doğu Asya dili karakterleri) basılı metinlerin tanınması dahil olmak üzere diğer alanlar hala aktif araştırma konusudur. MNIST veritabanı, sistemlerin el yazısı rakamları tanıma yeteneğini test etmek için yaygın olarak kullanılır.

Doğruluk oranları çeşitli şekillerde ölçülebilir ve bunların nasıl ölçüldüğü, bildirilen doğruluk oranını büyük ölçüde etkileyebilir. Örneğin, var olmayan sözcükleri bulan yazılımı düzeltmek için sözcük bağlamı (temelde bir sözcük sözlüğü) kullanılmazsa, %1’lik bir karakter hata oranı (%99 doğruluk) %5’lik bir hata oranıyla sonuçlanabilir (%95 doğruluk) ) veya daha kötüsü, ölçüm her kelimenin yanlış harfler olmadan tanınıp tanınmadığına bağlıysa.[36] Sinir ağı tabanlı el yazısı tanıma çözümlerinde yeterince büyük bir veri kümesi kullanmak çok önemlidir. Öte yandan, doğal veri kümeleri oluşturmak çok karmaşık ve zaman alıcıdır.[37]

Eski metni sayısallaştırmanın doğasında var olan zorluklara bir örnek, OCR’nin “uzun s” ve “f” karakterleri arasında ayrım yapamamasıdır.[38]

El yazısı metinleri anında tanımak için web tabanlı OCR sistemleri, son yıllarda [ne zaman?] ticari ürünler olarak iyi bilinir hale geldi (Tablet PC geçmişine bakın). Düzgün, temiz elle basılmış karakterlerde %80 ila %90 doğruluk oranları kalem bilgi işlem yazılımıyla elde edilebilir, ancak bu doğruluk oranı yine de sayfa başına düzinelerce hata anlamına gelir ve bu da teknolojiyi yalnızca çok sınırlı uygulamalarda kullanışlı hale getirir.[kaynak belirtilmeli] ]

El yazısıyla yazılmış metnin tanınması, tanıma oranlarının el yazısı metinden bile daha düşük olduğu aktif bir araştırma alanıdır. Bağlamsal veya gramer bilgisi kullanılmadan genel bitişik eğik yazının daha yüksek oranda tanınması muhtemelen mümkün olmayacaktır. Örneğin, bir sözlükten tüm sözcükleri tanımak, komut dosyasından tek tek karakterleri ayrıştırmaya çalışmaktan daha kolaydır. Bir çekin Tutar satırını okumak (ki bu her zaman yazılı bir sayıdır), daha küçük bir sözlük kullanmanın tanıma oranlarını büyük ölçüde artırabileceği bir örnektir. Tek tek bitişik eğik karakterlerin şekilleri, tüm el yazısı bitişik eğik yazıları doğru bir şekilde (%98’den fazla) tanımak için yeterli bilgi içermez.

Çoğu program, kullanıcıların “güven oranları” belirlemesine izin verir. Bu, yazılım istenen doğruluk düzeyine ulaşamazsa, bir kullanıcının manuel inceleme için bilgilendirilebileceği anlamına gelir.

OCR taramasıyla ortaya çıkan bir hata bazen “tarama” olarak adlandırılır (“yazım hatası” terimine benzetilerek).[39][40]

Unicode

OCR’yi destekleyen karakterler, Haziran 1993’te 1.1 sürümünün piyasaya sürülmesiyle Unicode Standardına eklendi. Bu karakterlerden bazıları MICR, OCR-A veya OCR-B’ye özgü yazı tiplerinden eşlenmiştir.

https://www.unicode.org/charts/PDF/U2440.pdf

Kaynak: https://en.wikipedia.org/wiki/Optical_character_recognition

Wiki Kaynaklar:
1)OnDemand, HPE Haven. “OCR Document”. Archived from the original on April 15, 2016.
2)OnDemand, HPE Haven. “undefined”. Archived from the original on April 19, 2016.
3)Schantz, Herbert F. (1982). The history of OCR, optical character recognition. [Manchester Center, Vt.]: Recognition Technologies Users Association. ISBN 9780943072012.
4)Dhavale, Sunita Vikrant (2017). Advanced Image-Based Spam Detection and Filtering Techniques. Hershey, PA: IGI Global. p. 91. ISBN 9781683180142.
5)d’Albe, E. E. F. (July 1, 1914). “On a Type-Reading Optophone”. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences. 90 (619): 373–375. Bibcode:1914RSPSA..90..373D. doi:10.1098/rspa.1914.0061.
6)”The History of OCR”. Data Processing Magazine. 12: 46. 1970.
7)”Extracting text from images using OCR on Android”. June 27, 2015. Archived from the original on March 15, 2016.
8)”[Tutorial] OCR on Google Glass”. October 23, 2014. Archived from the original on March 5, 2016.
9)Zeng, Qing-An (2015). Wireless Communications, Networking and Applications: Proceedings of WCNA 2014. Springer. ISBN 978-81-322-2580-5.
10)”[javascript] Using OCR and Entity Extraction for LinkedIn Company Lookup”. July 22, 2014. Archived from the original on April 17, 2016.
11)”How To Crack Captchas”. andrewt.net. June 28, 2006. Retrieved June 16, 2013.
12)”Breaking a Visual CAPTCHA”. Cs.sfu.ca. December 10, 2002. Retrieved June 16, 2013.
13)Resig, John (January 23, 2009). “John Resig – OCR and Neural Nets in JavaScript”. Ejohn.org. Retrieved June 16, 2013.
14)Tappert, C. C.; Suen, C. Y.; Wakahara, T. (1990). “The state of the art in online handwriting recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 12 (8): 787. doi:10.1109/34.57669. S2CID 42920826.
15)”Optical Character Recognition (OCR) – How it works”. Nicomsoft.com. Retrieved June 16, 2013.
16)Sezgin, Mehmet; Sankur, Bulent (2004). “Survey over image thresholding techniques and quantitative performance evaluation” (PDF). Journal of Electronic Imaging. 13 (1): 146. Bibcode:2004JEI….13..146S. doi:10.1117/1.1631315. Archived from the original (PDF) on October 16, 2015. Retrieved May 2, 2015.
17)Gupta, Maya R.; Jacobson, Nathaniel P.; Garcia, Eric K. (2007). “OCR binarisation and image pre-processing for searching historical documents” (PDF). Pattern Recognition. 40 (2): 389. Bibcode:2007PatRe..40..389G. doi:10.1016/j.patcog.2006.04.043. Archived from the original (PDF) on October 16, 2015. Retrieved May 2, 2015.
18)Trier, Oeivind Due; Jain, Anil K. (1995). “Goal-directed evaluation of binarisation methods” (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 17 (12): 1191–1201. doi:10.1109/34.476511. Archived (PDF) from the original on October 16, 2015. Retrieved May 2, 2015.
19)Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Victor (2013). “Image binarisation for end-to-end text understanding in natural images” (PDF). Document Analysis and Recognition (ICDAR) 2013. 12th International Conference on: 128–132. doi:10.1109/ICDAR.2013.33. ISBN 978-0-7695-4999-6. S2CID 8947361. Archived (PDF) from the original on November 13, 2017. Retrieved May 2, 2015.
20)Pati, P.B.; Ramakrishnan, A.G. (May 29, 1987). “Word Level Multi-script Identification”. Pattern Recognition Letters. 29 (9): 1218–1229. doi:10.1016/j.patrec.2008.01.027.
21)”Basic OCR in OpenCV | Damiles”. Blog.damiles.com. November 20, 2008. Retrieved June 16, 2013.
22)Smith, Ray (2007). “An Overview of the Tesseract OCR Engine” (PDF). Archived from the original (PDF) on September 28, 2010. Retrieved May 23, 2013.
23)”OCR Introduction”. Dataid.com. Retrieved June 16, 2013.
24)”How OCR Software Works”. OCRWizard. Archived from the original on August 16, 2009. Retrieved June 16, 2013.
25)”The basic pattern recognition and classification with openCV | Damiles”. Blog.damiles.com. November 14, 2008. Retrieved June 16, 2013.
26)Assefi, Mehdi (December 2016). “OCR as a Service: An Experimental Evaluation of Google Docs OCR, Tesseract, ABBYY FineReader, and Transym”. ResearchGate.
27)”How the Best OCR Technology Captures 99.91% of Data”. www.bisok.com. Retrieved May 27, 2021.
28)”How does OCR document scanning work?”. Explain that Stuff. January 30, 2012. Retrieved June 16, 2013.
29)”How to optimize results from the OCR API when extracting text from an image? – Haven OnDemand Developer Community”. Archived from the original on March 22, 2016.
30)Fehr, Tiff, How We Sped Through 900 Pages of Cohen Documents in Under 10 Minutes, Times Insider, The New York Times, March 26, 2019
31)”Train Your Tesseract”. Train Your Tesseract. September 20, 2018. Retrieved September 20, 2018.
32)”What is the point of an online interactive OCR text editor? – Fenno-Ugrica”. February 21, 2014.
33)Riedl, C.; Zanibbi, R.; Hearst, M. A.; Zhu, S.; Menietti, M.; Crusan, J.; Metelsky, I.; Lakhani, K. (February 20, 2016). “Detecting Figures and Part Labels in Patents: Competition-Based Development of Image Processing Algorithms”. International Journal on Document Analysis and Recognition. 19 (2): 155. arXiv:1410.6751. doi:10.1007/s10032-016-0260-8. S2CID 11873638.
34)”Code and Data to evaluate OCR accuracy, originally from UNLV/ISRI”. Google Code Archive.
34)Holley, Rose (April 2009). “How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs”. D-Lib Magazine. Retrieved January 5, 2014.
36)Suen, C.Y.; Plamondon, R.; Tappert, A.; Thomassen, A.; Ward, J.R.; Yamamoto, K. (May 29, 1987). Future Challenges in Handwriting and Computer Applications. 3rd International Symposium on Handwriting and Computer Applications, Montreal, May 29, 1987. Retrieved October 3, 2008.
37)Mohseni, Ayda; Azmi, Reza; Maleki, Arvin and Layeghi, Kamran (2019). Comparison of Synthesized and Natural Datasets in Neural Network Based Handwriting Solutions. ITCT.
38)Kapidakis, Sarantos; Mazurek, Cezary and Werla, Marcin (2015). Research and Advanced Technology for Digital Libraries. Springer. p. 257. ISBN 9783319245928.
39)Atkinson, Kristine H. (2015). “Reinventing nonpatent literature for pharmaceutical patenting”. Pharmaceutical Patent Analyst. 4 (5): 371–375. doi:10.4155/ppa.15.21. PMID 26389649.
40)http://www.hoopoes.com/jargon/entry/scanno.shtml

 

 

İlgili Yazılar

Doğal Dil İşlemeDoğal Dil İşleme

Doğal Dil İşleme, yaygın olarak NLP (Natural Language Processing) olarak bilinen yapay zekâ ve dilbilim alt kategorisidir. Türkçe, İngilizce, Almanca, Fransızca gibi doğal dillerin işlenmesi ve kullanılması amacı ile araştırma