Bazen MT[1] kısaltmasıyla anılan makine çevirisi (bilgisayar destekli çeviri, makine destekli insan çevirisi veya etkileşimli çeviri ile karıştırılmamalıdır), çevirmek için yazılım kullanımını araştıran hesaplamalı dilbilimin bir alt alanıdır. bir dilden diğerine metin veya konuşma.
Temel düzeyde MT, bir dildeki sözcüklerin başka bir dildeki sözcüklerle mekanik olarak yer değiştirmesini gerçekleştirir, ancak bu tek başına nadiren iyi bir çeviri üretir çünkü hedef dildeki tüm tümcelerin ve bunların en yakın karşılıklarının tanınması gerekir. Bir dildeki tüm kelimelerin başka bir dilde karşılığı yoktur ve birçok kelimenin birden fazla anlamı vardır.
Bu sorunu derlem istatistiksel ve nöral tekniklerle çözmek, hızla büyüyen ve daha iyi çevirilere, dilbilimsel tipolojideki farklılıkların ele alınmasına, deyimlerin çevirisine ve anormalliklerin yalıtılmasına yol açan bir alandır.[2][başarısız doğrulama].
Mevcut makine çevirisi yazılımı genellikle etki alanına veya mesleğe göre özelleştirmeye (hava durumu raporları gibi) izin vererek, izin verilen ikamelerin kapsamını sınırlayarak çıktıyı iyileştirir. Bu teknik, özellikle resmi veya kalıplaşmış dilin kullanıldığı alanlarda etkilidir. Hükümet ve yasal belgelerin makine çevirisinin, konuşmaların veya daha az standartlaştırılmış metnin makine çevirisine göre daha kolay kullanılabilir çıktı ürettiği sonucu çıkar.
İyileştirilmiş çıktı kalitesi, insan müdahalesiyle de elde edilebilir: örneğin, bazı sistemler, eğer kullanıcı metindeki hangi kelimelerin özel adlar olduğunu açık bir şekilde belirlediyse, daha doğru çeviri yapabilir. Bu tekniklerin yardımıyla, MT’nin insan çevirmenlere yardımcı olacak bir araç olarak yararlı olduğu kanıtlanmıştır ve çok sınırlı sayıda durumda olduğu gibi kullanılabilecek çıktılar bile üretebilir (örneğin, hava durumu raporları).
Makine çevirisinin ilerlemesi ve potansiyeli, tarihi boyunca çok tartışıldı. 1950’lerden bu yana, başta Yehoshua Bar-Hillel olmak üzere birçok bilim insanı,[3] yüksek kalitede tam otomatik makine çevirisi elde etme olasılığını sorguladı.[4]
Tarihi
Kökenler
Makine çevirisinin kökenleri, modern makine çevirisinde kullanılan kriptanaliz, frekans analizi ve olasılık ve istatistik dahil olmak üzere sistemik dil çevirisi için teknikler geliştiren dokuzuncu yüzyılda Arap bir kriptograf olan Al-Kindi’nin çalışmasına kadar izlenebilir. [5] Makine çevirisi fikri daha sonra 17. yüzyılda ortaya çıktı. 1629’da René Descartes, farklı dillerdeki eşdeğer fikirlerin bir sembolü paylaştığı evrensel bir dil önerdi.[6]
Doğal dillerin çevirisi için dijital bilgisayarların kullanılması fikri, 1946 gibi erken bir tarihte İngiltere’den A.D. Booth ve aynı zamanda Rockefeller Foundation’dan Warren Weaver tarafından önerildi. “1949’da Warren Weaver tarafından yazılan memorandum, makine çevirisinin ilk günlerinde belki de en etkili tek yayındır.”[7][8] Bunu diğerleri izledi. 1954’te Birkbeck College’da (Londra Üniversitesi) APEXC makinesinde İngilizcenin Fransızcaya ilkel bir çevirisinin bir gösterimi yapıldı. O zamanlar konuyla ilgili birkaç makale ve hatta popüler dergilerde makaleler yayınlandı (örneğin, Cleave ve Zacharov’un Wireless World’ün Eylül 1955 sayısında yazdığı bir makale). O dönemde Birkbeck Koleji’nde de öncülük edilen benzer bir uygulama, Braille metinlerini bilgisayarda okuyor ve oluşturuyordu.
1950’ler
Alandaki ilk araştırmacı Yehoshua Bar-Hillel, araştırmalarına MIT’de başladı (1951). Profesör Michael Zarechnak liderliğindeki bir Georgetown Üniversitesi MT araştırma ekibi, bunu (1951) 1954’te Georgetown-IBM deney sisteminin halka açık bir gösterimiyle izledi. Japonya[9][10] ve Rusya’da (1955) MT araştırma programları ortaya çıktı, ve ilk MT konferansı Londra’da yapıldı (1956).[11][12]
David G. Hays “1957 gibi erken bir tarihte bilgisayar destekli dil işleme hakkında yazdı” ve “1955’ten 1968’e kadar Rand’da hesaplamalı dilbilim proje lideriydi.”[13]
1960–1975
ABD’de Makine Çevirisi ve Hesaplamalı Dilbilim Derneği kurulduğunda (1962) ve Ulusal Bilimler Akademisi MT’yi incelemek için Otomatik Dil İşleme Danışma Komitesi’ni (ALPAC) kurduğunda (1964) araştırmacılar bu alana katılmaya devam ettiler. Ancak gerçek ilerleme çok daha yavaştı ve on yıllık araştırmanın beklentileri karşılamadığını ortaya koyan ALPAC raporundan (1966) sonra, fon büyük ölçüde azaldı.[14] Savunma Araştırma ve Mühendislik Direktörü’nün (DDR&E) 1972 tarihli bir raporuna göre, büyük ölçekli MT’nin uygulanabilirliği, Logos MT sisteminin bu çatışma sırasında askeri kılavuzları Vietnamca’ya çevirmedeki başarısıyla yeniden tesis edildi.
Fransız Tekstil Enstitüsü ayrıca özetleri Fransızca, İngilizce, Almanca ve İspanyolca’ya çevirmek için MT’yi kullandı (1970); Brigham Young Üniversitesi, Mormon metinlerini otomatik çeviri yoluyla çevirmek için bir proje başlattı (1971).
1975 ve sonrası
1960’larda “ABD hükümetinin sözleşmeleri kapsamında bu alana öncülük eden”[1] SYSTRAN, Xerox tarafından teknik kılavuzları çevirmek için kullanıldı (1978). 1980’lerin sonlarından başlayarak, hesaplama gücü arttıkça ve daha ucuz hale geldikçe, makine çevirisi için istatistiksel modellere daha fazla ilgi gösterildi. MT, bilgisayarların ortaya çıkışından sonra daha popüler hale geldi.[15] SYSTRAN’ın ilk uygulama sistemi, 1988 yılında Fransız Posta Servisi’nin Minitel adlı çevrimiçi hizmeti tarafından uygulandı.[16] MT ile aynı olmasa da, Çeviri Belleği teknolojisini ilk geliştiren ve pazarlayan Trados (1984) (1989) dahil olmak üzere çeşitli bilgisayar tabanlı çeviri şirketleri de piyasaya sürüldü. Rusça / İngilizce / Almanca-Ukraynaca için ilk ticari MT sistemi Kharkov Devlet Üniversitesi’nde geliştirildi (1991).
1998’e gelindiğinde, “29.95$ gibi düşük bir fiyata”, bir bilgisayarda çalıştırmak üzere “İngilizce ve seçtiğiniz başlıca Avrupa dillerinden biri arasında tek yönde çeviri yapmak için bir program” satın alınabiliyordu.[1]
Web üzerinde MT, SYSTRAN’ın küçük metinlerin ücretsiz çevirisini sunmasıyla başladı (1996) ve ardından bunu günde 500.000 istek toplayan AltaVista Babelfish[1] aracılığıyla sağladı (1997).[17] Web’deki ikinci ücretsiz çeviri hizmeti, Lernout & Hauspie’nin GlobaLink’iydi.[1] Atlantic Magazine 1998’de “Systran’dan Babelfish ve GlobaLink’ten Comprende”nin “Yetkin bir performansla” “Buna güvenme”yi ele aldığını yazdı.[18]
Franz Josef Och (Google’da Çeviri Geliştirme bölümünün gelecekteki başkanı) DARPA’nın hızlı MT yarışmasını kazandı (2003).[19] Bu süre zarfındaki diğer yenilikler arasında MOSES, açık kaynaklı istatistiksel MT motoru (2007), Japonya’da cep telefonları için bir metin/SMS çeviri hizmeti (2008) ve İngilizce için yerleşik konuşmadan konuşmaya çeviri işlevine sahip bir cep telefonu yer aldı. , Japonca ve Çince (2009). 2012’de Google, Google Çeviri’nin kabaca bir günde 1 milyon kitabı dolduracak kadar metin çevirdiğini duyurdu.
Çeviri süreci
İnsan çevirisi süreci şu şekilde tanımlanabilir:
Kaynak metnin anlamının çözümlenmesi; ve
Bu anlamı hedef dilde yeniden kodlamak.
Görünüşte basit olan bu prosedürün arkasında karmaşık bir bilişsel operasyon yatmaktadır. Kaynak metnin anlamını bir bütün olarak çözmek için, çevirmen metnin tüm özelliklerini yorumlamalı ve analiz etmelidir; bu, kaynak dilin grameri, anlamı, sözdizimi, deyimleri vb. hakkında derinlemesine bilgi gerektiren bir süreçtir. , hem de konuşmacılarının kültürü. Çevirmen, hedef dildeki anlamı yeniden kodlamak için aynı derinlemesine bilgiye ihtiyaç duyar.[20]
Makine çevirisindeki zorluk burada yatmaktadır: Bir metni bir kişinin anladığı gibi “anlayacak” ve hedef dilde sanki bir kişi tarafından yazılmış gibi ses çıkaran yeni bir metin “yaratacak” bir bilgisayarın nasıl programlanacağı. Bir ‘bilgi tabanı’ tarafından desteklenmediği sürece MT, orijinal metnin kusurlu olsa da yalnızca genel bir tahminini sağlar ve metnin “özünü” alır (“ana fikir oluşturma” adı verilen bir süreç). Bu, toplam doğruluğun vazgeçilmez olduğu durumlar için ayrılmış, bir insan çevirmenin sınırlı ve pahalı zamanından en iyi şekilde yararlanmak da dahil olmak üzere birçok amaç için yeterlidir.
Yaklaşımlar
Makine çevirisi, dil kurallarına dayalı bir yöntem kullanabilir, bu da kelimelerin dilbilimsel bir şekilde çevrileceği anlamına gelir – hedef dilin en uygun (sözlü) kelimeleri kaynak dildeki kelimelerin yerini alacaktır.[kaynak belirtilmeli]
Makine çevirisinin başarısının önce doğal dil anlama sorununun çözülmesini gerektirdiği sıklıkla tartışılır.[21]
Genel olarak, kural tabanlı yöntemler bir metni ayrıştırır, genellikle hedef dildeki metnin üretildiği aracı, sembolik bir temsil oluşturur. Aracı temsilin doğasına göre diller arası makine çevirisi veya aktarıma dayalı makine çevirisi olarak bir yaklaşım tanımlanmaktadır. Bu yöntemler, morfolojik, sözdizimsel ve anlamsal bilgileri ve büyük kural kümelerini içeren kapsamlı sözlükler gerektirir.
Yeterince veri verildiğinde, makine çevirisi programları genellikle bir dili anadili olarak konuşan birinin diğer anadili tarafından yazılanların yaklaşık anlamını alması için yeterince iyi çalışır. Zorluk, belirli bir yöntemi desteklemek için doğru türden yeterli veriyi elde etmektir. Örneğin, istatistiksel yöntemlerin çalışması için gereken çok dilli büyük veri külliyatı, dilbilgisine dayalı yöntemler için gerekli değildir. Ancak dilbilgisi yöntemlerinin kullandıkları dilbilgisini dikkatli bir şekilde tasarlaması için yetenekli bir dilbilimciye ihtiyacı vardır.
Yakından ilişkili diller arasında çeviri yapmak için kural tabanlı makine çevirisi olarak adlandırılan teknik kullanılabilir.
Kural tabanlı
Kural tabanlı makine çevirisi paradigması, aktarım tabanlı makine çevirisi, diller arası makine çevirisi ve sözlük tabanlı makine çevirisi paradigmalarını içerir. Bu çeviri türü çoğunlukla sözlüklerin ve gramer programlarının oluşturulmasında kullanılır. Diğer yöntemlerden farklı olarak, RBMT, her iki dilin morfolojik ve sözdizimsel kurallarını ve anlamsal analizini kullanarak kaynak ve hedef dillerin dilbilimi hakkında daha fazla bilgi içerir. Temel yaklaşım, kaynak dil için bir ayrıştırıcı ve çözümleyici, hedef dil için bir oluşturucu ve gerçek çeviri için bir aktarım sözlüğü kullanarak giriş cümlesinin yapısını çıkış cümlesinin yapısıyla ilişkilendirmeyi içerir. RBMT’nin en büyük dezavantajı, her şeyin açık hale getirilmesi gerektiğidir: imla varyasyonu ve hatalı girdi, bununla başa çıkabilmek için kaynak dil analizcisinin bir parçası yapılmalı ve tüm belirsizlik durumları için sözcüksel seçim kuralları yazılmalıdır. Çekirdek dilbilgisi tüm alanlarda aynı olduğundan ve alana özgü ayarlama sözcüksel seçim ayarlamasıyla sınırlı olduğundan, yeni alanlara uyum sağlamak kendi başına o kadar da zor değildir.
Aktarım tabanlı makine çevirisi
Aktarım tabanlı makine çevirisi, orijinal cümlenin anlamını simüle eden bir ara temsilden bir çeviri oluşturması açısından diller arası makine çevirisine benzer. Diller arası MT’den farklı olarak, kısmen çeviride yer alan dil çiftine bağlıdır.
Dillerarası
Diller arası makine çevirisi, kural tabanlı makine çevirisi yaklaşımlarının bir örneğidir. Bu yaklaşımda kaynak dil, yani tercüme edilecek metin, diller arası bir dile, yani herhangi bir dilden bağımsız “dil nötr” bir temsile dönüştürülür. Hedef dil daha sonra interlingua’dan üretilir. Bu sistemin en büyük avantajlarından biri, çevrilebileceği hedef dil sayısı arttıkça interlingua’nın daha değerli hale gelmesidir. Ancak, ticari düzeyde işlevsel hale getirilen tek diller arası makine çevirisi sistemi, Caterpillar Teknik İngilizcesini (CTE) diğer dillere çevirmek için tasarlanmış KANT sistemidir (Nyberg ve Mitamura, 1992).
Sözlük tabanlı
Makine çevirisi, sözlük girişlerine dayalı bir yöntem kullanabilir; bu, sözcüklerin bir sözlük tarafından olduğu gibi çevrileceği anlamına gelir.
İstatistiksel
İstatistiksel makine çevirisi, Kanada Hansard külliyatı, Kanada parlamentosunun İngilizce-Fransızca kaydı ve Avrupa Parlamentosu kaydı EUROPARL gibi iki dilli metin külliyatına dayalı istatistiksel yöntemler kullanarak çeviriler üretmeye çalışır. Bu tür derlemlerin mevcut olduğu yerlerde, benzer metinleri çevirerek iyi sonuçlar elde edilebilir, ancak bu tür derlemler birçok dil çifti için hala nadirdir. İlk istatistiksel makine çevirisi yazılımı, IBM’den CANDIDE idi. Google, SYSTRAN’ı birkaç yıl kullandı, ancak Ekim 2007’de istatistiksel bir çeviri yöntemine geçti.[22] 2005 yılında Google, sistemlerini eğitmek için Birleşmiş Milletler materyallerinden yaklaşık 200 milyar kelime kullanarak dahili çeviri yeteneklerini geliştirdi; çeviri doğruluğu iyileştirildi.[23] Google Translate ve benzeri istatistiksel çeviri programları, daha önce insanlar tarafından çevrilmiş yüz milyonlarca belgedeki kalıpları tespit ederek ve bulgulara dayalı olarak akıllı tahminler yaparak çalışır. Genel olarak, belirli bir dilde ne kadar çok insan tarafından tercüme edilmiş belge varsa, çevirinin kaliteli olma olasılığı o kadar yüksektir.[24] METIS II ve PRESEMT gibi İstatistiksel Makine çevirisine yönelik daha yeni yaklaşımlar, minimum korpus boyutu kullanır ve bunun yerine örüntü tanıma yoluyla sözdizimsel yapının türetilmesine odaklanır. Daha fazla geliştirmeyle bu, istatistiksel makine çevirisinin tek dilli bir metin külliyatından çalışmasına izin verebilir.[25] SMT’nin en büyük düşüşü, çok miktarda paralel metne bağımlı olması, morfoloji açısından zengin dillerle (özellikle bu tür dillere çeviri yaparken) sorunları ve tekil hataları düzeltememesidir.
Örnek tabanlı
Örnek tabanlı makine çevirisi (EBMT) yaklaşımı, 1984 yılında Makoto Nagao tarafından önerildi.[26][27] Örnek tabanlı makine çevirisi, analoji fikrine dayanır. Bu yaklaşımda, kullanılan derlem zaten çevrilmiş olan metinleri içeren bir derlemdir. Çevrilecek bir cümle verildiğinde, bu külliyattan benzer alt cümle bileşenleri içeren cümleler seçilir.[28] Benzer cümleler daha sonra orijinal cümlenin alt cümle bileşenlerini hedef dile çevirmek için kullanılır ve bu ifadeler tam bir çeviri oluşturmak için bir araya getirilir.
Hibrit MT
Hibrit makine çevirisi (HMT), istatistiksel ve kural tabanlı çeviri metodolojilerinin güçlü yönlerinden yararlanır.[29] Birkaç MT kuruluşu, hem kuralları hem de istatistikleri kullanan hibrit bir yaklaşım iddia ediyor. Yaklaşımlar çeşitli şekillerde farklılık gösterir:
İstatistikler tarafından sonradan işlenmiş kurallar: Çeviriler, kurallara dayalı bir motor kullanılarak gerçekleştirilir. Daha sonra, kural motorundan çıktıyı ayarlamak/düzeltmek için istatistikler kullanılır.
Kurallar tarafından yönlendirilen istatistikler: İstatistik motorunu daha iyi yönlendirmek amacıyla verileri önceden işlemek için kurallar kullanılır. Kurallar, normalleştirme gibi işlevleri gerçekleştirmek için istatistiksel çıktıyı sonradan işlemek için de kullanılır. Bu yaklaşım çeviri yaparken çok daha fazla güce, esnekliğe ve kontrole sahiptir. Ayrıca, hem çeviri öncesi (ör. içeriğin ve çevrilemeyen terimlerin biçimlendirilmesi) hem de çeviri sonrası (ör. çeviri sonrası düzeltmeler ve ayarlamalar) sırasında içeriğin işlenme şekli üzerinde kapsamlı kontrol sağlar.
Daha yakın zamanlarda, Neural MT’nin gelişiyle birlikte, kuralların, istatistiksel ve nöral makine çevirisinin faydalarını birleştiren yeni bir hibrit makine çevirisi sürümü ortaya çıkıyor. Yaklaşım, NMT ve SMT’den yararlanmanın yanı sıra kural kılavuzlu bir iş akışında ön ve son işlemeden yararlanmaya olanak tanır. Dezavantajı, yaklaşımı yalnızca belirli kullanım durumları için uygun kılan doğal karmaşıklıktır.
Nöral MT
MT’ye derin öğrenmeye dayalı bir yaklaşım olan nöral makine çevirisi son yıllarda hızlı bir ilerleme kaydetti ve Google, çeviri hizmetlerinin artık önceki istatistiksel yöntemlerine göre bu teknolojiyi tercih ettiğini duyurdu.[30] Bir Microsoft ekibi, 2018’de WMT-2017’de (“EMNLP 2017 İkinci Makine Çevirisi Konferansı”) insan eşitliğine ulaştığını iddia ederek tarihi bir dönüm noktası oldu.[31][32] Ancak birçok araştırmacı, deneylerini yeniden düzenleyerek ve tartışarak bu iddiayı eleştirdi; mevcut fikir birliği, elde edilen sözde insan denkliğinin gerçek olmadığı, tamamen sınırlı alanlara, dil çiftlerine ve belirli test takımlarına dayandığıdır[33] yani, istatistiksel anlamlılık gücünden yoksundur.[34] NMT’nin gerçek insan parite performanslarına ulaşması için hala uzun bir yolculuk var.
Deyimsel tümce çevirisini, çok sözcüklü ifadeleri[35] ve düşük frekanslı sözcükleri (ayrıca OOV veya sözcük dışı sözcük çevirisi olarak da adlandırılır) ele almak için dil odaklı dilbilimsel özellikler, state-of-the- art nöral makine çevirisi (NMT) modelleri. Örneğin, Çince karakter ayrıştırmalarının radikallere ve vuruşlara[36][37] NMT’de çok kelimeli ifadeleri çevirmede yardımcı olduğu kanıtlanmıştır.
Büyük sorunlar
Anlam ayrımı
Kelime anlamı belirsizliği giderme, bir kelimenin birden fazla anlamı olabileceği durumlarda uygun bir çeviri bulmakla ilgilidir. Sorun ilk olarak 1950’lerde Yehoshua Bar-Hillel tarafından gündeme getirildi.[38] Bir “evrensel ansiklopedi” olmadan, bir makinenin bir kelimenin iki anlamı arasında asla ayrım yapamayacağını belirtti.[39] Bugün bu sorunun üstesinden gelmek için tasarlanmış çok sayıda yaklaşım var. Yaklaşık olarak “sığ” yaklaşımlar ve “derin” yaklaşımlar olarak ayrılabilirler.
Yüzeysel yaklaşımlar metin hakkında hiçbir bilgi sahibi olmadıklarını varsayar. Belirsiz kelimeyi çevreleyen kelimelere basitçe istatistiksel yöntemler uygularlar. Derin yaklaşımlar, kelimenin kapsamlı bir bilgisini varsayar. Şimdiye kadar sığ yaklaşımlar daha başarılı oldu.[40]
Birleşmiş Milletler ve Dünya Sağlık Örgütü’nde uzun süredir çevirmenlik yapan Claude Piron, makine çevirisinin en iyi ihtimalle çevirmenin işinin daha kolay olan kısmını otomatik hale getirdiğini yazdı; daha zor ve daha fazla zaman alan kısım, genellikle hedef dilin gramer ve sözlüksel zorunluluklarının çözülmesini gerektiren kaynak metindeki belirsizlikleri çözmek için kapsamlı araştırma yapmayı içerir:
Bir çevirmenin beş sayfayı çevirmek için neden bir veya iki saat değil de bütün bir iş gününe ihtiyacı var? ….. Ortalama bir metnin yaklaşık %90’ı bu basit koşullara karşılık gelir. Ama ne yazık ki, diğer %10’luk kısım var. Altı [daha fazla] saat çalışmayı gerektiren kısım. İnsanın çözmesi gereken belirsizlikler var. Örneğin, kaynak metnin yazarı olan Avustralyalı bir doktor, 2. Dünya Savaşı sırasında bir “Japon savaş esirleri kampında” ilan edilen bir salgın örneğini aktardı. Japon mahkumların olduğu bir Amerikan kampından mı yoksa Amerikalı mahkumların bulunduğu bir Japon kampından mı bahsediyordu? İngilizcenin iki anlamı vardır. Bu nedenle, belki Avustralya’ya bir telefon kadar araştırma yapmak gereklidir.[41]
İdeal derin yaklaşım, çeviri yazılımının bu tür anlam ayrımı için gerekli tüm araştırmayı kendi başına yapmasını gerektirir; ancak bu, henüz elde edilenden daha yüksek bir yapay zeka derecesi gerektirecektir. Piron’un bahsettiği muğlak İngilizce ifadenin anlamını basitçe tahmin eden sığ bir yaklaşım (belki de belirli bir külliyatta hangi tür savaş esiri kampından daha sık söz edildiğine dayanarak), yanlış tahminde bulunmak için makul bir şansa sahip olacaktır. sıklıkla. “Kullanıcıya her bir belirsizliği sormayı” içeren sığ bir yaklaşım, Piron’un tahminine göre, profesyonel bir çevirmenin işinin yalnızca yaklaşık %25’ini otomatik hale getirir ve daha zor olan %75’lik kısmı bir insan tarafından yapılmasına devam eder.
Standart dışı konuşma
MT’nin en büyük tuzaklarından biri, standart olmayan bir dili standart dille aynı doğrulukta çevirememesidir. Sezgisel veya istatistiksel tabanlı MT, bir dilin standart biçiminde çeşitli kaynaklardan girdi alır. Kural tabanlı çeviri, doğası gereği standart dışı yaygın kullanımları içermez. Bu, yerel bir kaynaktan veya konuşma diline çeviride hatalara neden olur. Gündelik konuşmadan çeviri üzerindeki sınırlamalar, mobil cihazlarda makine çevirisinin kullanımında sorunlar ortaya çıkarır.
Adlandırılmış varlıklar
Bilgi çıkarmada, adlandırılmış varlıklar, dar anlamda, gerçek dünyadaki kişiler, kuruluşlar, şirketler ve özel bir adı olan yerler gibi somut veya soyut varlıklara atıfta bulunur: George Washington, Chicago, Microsoft. Aynı zamanda 1 Temmuz 2011, 500$ gibi zaman, mekan ve miktar ifadelerine atıfta bulunur.
“Smith, Fabrionix’in başkanıdır” cümlesinde, hem Smith hem de Fabrionix, adlandırılmış varlıklardır ve ad veya diğer bilgiler aracılığıyla daha fazla nitelendirilebilir; “başkan” değildir, çünkü Smith daha önce Fabrionix’te başka bir pozisyonda olabilirdi, örn. Başkan Vekili. Katı gösterge terimi, istatistiksel makine çevirisinde analiz için bu kullanımları tanımlayan şeydir.
Adlandırılmış varlıklar önce metinde tanımlanmalıdır; değilse, yanlışlıkla ortak isimler olarak çevrilebilirler, bu da büyük olasılıkla çevirinin BLEU derecelendirmesini etkilemez, ancak metnin insan tarafından okunabilirliğini değiştirir.[42] Metnin okunabilirliği ve mesajı üzerinde de etkileri olabilecek çıktı çevirisinden çıkarılabilirler.
Transliterasyon, kaynak dildeki isme en yakın karşılık gelen hedef dildeki harfleri bulmayı içerir. Ancak bunun bazen çevirinin kalitesini kötüleştirdiği belirtildi.[43] “Güney Kaliforniya” için ilk kelime doğrudan çevrilmeli, ikinci kelime ise transliterasyon yapılmalıdır. Makineler genellikle her ikisini de çevirir çünkü onlara tek bir varlık gibi davranırlar. Bunun gibi sözcükleri, harf çevirisi bileşeni olan makine çevirmenleri için bile işlemek zordur.
Aynı nihai hedefe sahip bir “tercüme etme” listesinin kullanılması – çeviri yerine harf çevirisi.[44] hala adlandırılmış varlıkların doğru tanımlanmasına dayanır.
Üçüncü bir yaklaşım, sınıf temelli bir modeldir. Adlandırılmış varlıklar, “sınıflarını” temsil edecek bir belirteçle değiştirilir; “Ted” ve “Erica”, “person” sınıf belirteci ile değiştirilecektir. Daha sonra “Ted” ve “Erica” dağılımlarına ayrı ayrı bakmak yerine genel olarak kişi adlarının istatistiksel dağılımı ve kullanımı analiz edilebilir, böylece belirli bir adın belirli bir dilde olma olasılığı atanan olasılığı etkilemez. bir çeviri. Stanford tarafından bu çeviri alanını geliştirmeye yönelik bir çalışma, farklı tekrar sayıları nedeniyle İngilizce için hedef dil olarak “David is going for a walk” ve “Ankit is go to a walk” ifadelerine farklı olasılıkların atanacağına dair örnekler vermektedir. eğitim verilerindeki her ad için. Stanford tarafından yapılan aynı çalışmanın (ve adlandırılmış tanıma çevirisini iyileştirmeye yönelik diğer girişimlerin) sinir bozucu bir sonucu, çoğu zaman çeviri için BLEU puanlarındaki düşüşün, adlandırılmış varlık çevirisi için yöntemlerin dahil edilmesinden kaynaklanmasıdır.[44]
“Sütlü çay içmek” ve “Molly ile çay içmek” ifadeleri biraz bağlantılıdır.
Çok paralel kaynaklardan çeviri
3 veya daha fazla dile çevrilmiş bir metin bütünü olan multiparallel corpora’nın kullanımıyla ilgili bazı çalışmalar yapılmıştır. Bu yöntemler kullanılarak, 2 veya daha fazla dile çevrilmiş bir metin, bu kaynak dillerden yalnızca birinin tek başına kullanılmasına kıyasla üçüncü bir dile daha doğru bir çeviri sağlamak için kombinasyon halinde kullanılabilir.[45][46][ 47]
MT’deki ontolojiler
Ontoloji, bir alandaki kavramları (nesneler, süreçler vb.) ve bunlar arasındaki bazı ilişkileri içeren bilginin resmi bir temsilidir. Depolanan bilgi dilsel nitelikteyse, bir sözlükten söz edilebilir.[48] NLP’de ontolojiler, makine çevirisi sistemleri için bir bilgi kaynağı olarak kullanılabilir. Geniş bir bilgi tabanına erişimle, sistemlerin birçok (özellikle sözcüksel) belirsizliği kendi başlarına çözmesi sağlanabilir. Aşağıdaki klasik örneklerde, insanlar olarak, sözlüklerimizde depolanan dünya bilgimizi kullandığımız için edat cümlesini bağlama göre yorumlayabiliyoruz:
Mikroskop/teleskop/dürbünle bir adam/yıldız/molekül gördüm.[48]
Sözdizimi değişmediği için bir makine çevirisi sistemi başlangıçta anlamlar arasında ayrım yapamaz. Bununla birlikte, bir bilgi kaynağı olarak yeterince geniş bir ontoloji ile, belirli bir bağlamda belirsiz kelimelerin olası yorumları azaltılabilir. NLP içindeki ontolojilerin diğer kullanım alanları arasında bilgi alma, bilgi çıkarma ve metin özetleme yer alır.[48]
Ontolojileri Düzenlemek
1993 yılında PANGLOSS bilgi tabanlı makine çevirisi sistemi için oluşturulan ontoloji, NLP amaçları için bir ontolojinin nasıl derlenebileceğine bir örnek teşkil edebilir:[49][50]
Makine çevirisi sisteminin aktif modüllerinde ayrıştırmaya yardımcı olmak için büyük ölçekli bir ontoloji gereklidir.
PANGLOSS örneğinde, yaklaşık 50.000 düğümün, ontolojinin daha küçük, elle oluşturulmuş üst (soyut) bölgesi altında toplanması amaçlandı. Boyutu nedeniyle otomatik olarak oluşturulması gerekiyordu.
Amaç, iki kaynağı LDOCE çevrimiçi ve WordNet’i birleştirerek her ikisinin de faydalarını birleştirmekti: Longman’dan kısa tanımlar ve WordNet’ten ontolojiye yarı otomatik taksonomiye izin veren semantik ilişkiler.
LDOCE ve WordNet’te bu anlamların tanımlarının ortak olduğu kelimelere dayanarak, iki çevrimiçi kaynak arasındaki belirsiz kelimelerin doğru anlamlarını otomatik olarak birleştirmek için bir tanım eşleştirme algoritması oluşturuldu. Algoritma, bir benzerlik matrisi kullanarak, bir güven faktörü de dahil olmak üzere anlamlar arasında eşleşmeler sağladı. Ancak bu algoritma tek başına tüm anlamlarla tek başına doğru bir şekilde eşleşmedi.
Bu nedenle, WordNet’te (derin hiyerarşiler) ve kısmen LDOCE’de (düz hiyerarşiler) bulunan taksonomik hiyerarşileri kullanan ikinci bir hiyerarşi eşleştirme algoritması yaratıldı. Bu, önce belirsiz olmayan anlamları eşleştirerek, ardından arama alanını yalnızca bu eşleşen anlamların ilgili ataları ve torunlarıyla sınırlandırarak çalışır. Böylece, algoritma yerel olarak belirsiz olmayan anlamlarla eşleşti (örneğin, mühür kelimesi kendi başına belirsizken, hayvan alt hiyerarşisinde sadece bir mühür anlamı vardır).
Her iki algoritma da birbirini tamamladı ve makine çevirisi sistemi için geniş ölçekli bir ontoloji oluşturmaya yardımcı oldu. LDOCE’nin eşleşen tanımlarıyla birleşen WordNet hiyerarşileri, ontolojinin üst bölgesine tabi kılındı. Sonuç olarak, PANGLOSS MT sistemi, bu bilgi tabanından, esas olarak üretim öğesinde yararlanabildi.
Uygulamalar
Hiçbir sistem sınırsız metnin tam otomatik yüksek kaliteli makine çevirisinin kutsal kâsesini sağlamazken, birçok tam otomatik sistem makul çıktılar üretir.[51][52][53] Alan kısıtlanır ve kontrol edilirse, makine çevirisinin kalitesi önemli ölçüde artar.[54]
İçsel sınırlamalarına rağmen, MT programları dünya çapında kullanılmaktadır. Muhtemelen en büyük kurumsal kullanıcı Avrupa Komisyonu’dur. Örneğin Göteborg Üniversitesi tarafından koordine edilen MOLTO projesi, AB dillerinin çoğunu kapsayan güvenilir bir çeviri aracı oluşturmak için AB’den 2.375 milyon avrodan fazla proje desteği aldı.[55] MT sistemlerinin daha da geliştirilmesi, insan çevirisindeki bütçe kesintilerinin AB’nin güvenilir MT programlarına bağımlılığını artırabileceği bir zamanda gelir.[56] Avrupa Komisyonu, önceki kural tabanlı makine çevirisi sisteminin yerini alacak, AB’nin idari ihtiyaçlarına göre uyarlanmış istatistiksel bir makine çevirisi programı olan MT@EC’nin oluşturulması için (ISA programı aracılığıyla) 3.072 milyon avro katkıda bulundu.[57]
2005 yılında Google, tescilli bir istatistiksel makine çevirisi motoru kullanılarak umut verici sonuçların elde edildiğini iddia etti.[58] Arapça <-> İngilizce ve Çince <-> İngilizce için Google dil araçlarında kullanılan istatistiksel çeviri motoru, National tarafından yürütülen testlerde IBM’in 0,3954’lük BLEU-4 puanı olan 0,3954’ün (Yaz 2006) üzerinde 0,4281 genel puana sahipti. Standartlar ve Teknoloji Enstitüsü.[59][60][61]
Son zamanlarda terörizme odaklanılmasıyla, Amerika Birleşik Devletleri’ndeki askeri kaynaklar doğal dil mühendisliğine önemli miktarda para yatırıyor. In-Q-Tel[62] (özel sektör girişimcileri aracılığıyla yeni teknolojileri teşvik etmek için büyük ölçüde ABD İstihbarat Topluluğu tarafından finanse edilen bir risk sermayesi fonu), Language Weaver gibi şirketler getirdi. Şu anda askeri topluluk, Arapça, Peştuca ve Dari gibi dillerin çevirisi ve işlenmesiyle ilgileniyor. Bu dillerde, cep telefonu uygulamalarının kullanımı yoluyla askeri üyeler ve siviller arasında anahtar ifadeler ve hızlı iletişim üzerinde odaklanılıyor. [63] DARPA’daki Bilgi İşlem Teknolojileri Ofisi, TIDES ve Babylon tercüman gibi programlara ev sahipliği yapıyor. ABD Hava Kuvvetleri, bir dil çeviri teknolojisi geliştirmek için 1 milyon dolarlık bir sözleşme imzaladı.[64]
Son yıllarda web’de sosyal ağların kayda değer yükselişi, Facebook gibi yardımcı programlarda veya Skype, GoogleTalk, MSN Messenger vb. birbirleriyle iletişim kurmak için farklı diller. Cep telefonları, cep bilgisayarları, PDA’lar vb. dahil olmak üzere çoğu mobil cihaz için makine çevirisi uygulamaları da piyasaya sürülmüştür. Taşınabilirlikleri nedeniyle, bu tür araçlar, farklı dilleri konuşan ortaklar arasında mobil iş ağı kurulmasını sağlayan mobil çeviri araçları olarak belirlenmeye başlandı veya hem yabancı dil öğrenimini hem de yabancı ülkelere refakatsiz seyahat etmeyi, bir insan çevirmenin aracılığına ihtiyaç duymadan kolaylaştırıyor.
1966’da Amerika Birleşik Devletleri hükümeti tarafından oluşturulan Otomatik Dil İşleme Danışma Komitesi tarafından insan çevirisine değersiz bir rakip olarak etiketlenmesine rağmen,[65] makine çevirisinin kalitesi artık çevrimiçi işbirliğinde ve tıp alanı araştırılmaktadır. Bu teknolojinin insan tercümanların bulunmadığı tıbbi ortamlarda uygulanması başka bir araştırma konusudur, ancak tıbbi teşhislerde doğru çevirilerin önemi nedeniyle zorluklar ortaya çıkmaktadır.[66]
Makine çevirisindeki kusurlar, eğlence değerleri nedeniyle de not edilmiştir. Nisan 2017’de YouTube’a yüklenen iki video, iki Japon hiragana karakterinin えぐ (e ve gu) Google Çeviri’ye tekrar tekrar yapıştırılmasını içeriyor ve sonuçta ortaya çıkan çeviriler hızla “DECEARING EGG” ve “Derin deniz sıkıştırma ağaçları” gibi anlamsız ifadelere dönüşüyor. [67][68] videonun tam uzunlukta versiyonu şu anda Mart 2022 itibarıyla 6,9 milyon kez izlendi.[69]
Değerlendirme
Makine çevirisi sistemlerinin nasıl değerlendirildiğini etkileyen birçok faktör vardır. Bu faktörler, çevirinin amaçlanan kullanımını, makine çevirisi yazılımının yapısını ve çeviri sürecinin doğasını içerir.
Farklı programlar farklı amaçlar için iyi çalışabilir. Örneğin, istatistiksel makine çevirisi (SMT) tipik olarak örnek tabanlı makine çevirisinden (EBMT) daha iyi performans gösterir, ancak araştırmacılar İngilizce’den Fransızca’ya çeviriyi değerlendirirken EBMT’nin daha iyi performans gösterdiğini bulmuşlardır.[70] Aynı kavram, resmi dilleri nedeniyle SMT tarafından daha kolay çevrilebilen teknik belgeler için de geçerlidir.
Bununla birlikte, belirli uygulamalarda, örneğin kontrollü bir dilde yazılmış ürün açıklamalarında, sözlük tabanlı bir makine çeviri sistemi, kalite denetimi dışında hiçbir insan müdahalesi gerektirmeyen tatmin edici çeviriler üretmiştir.[71]
Makine çevirisi sistemlerinin çıktı kalitesini değerlendirmenin çeşitli yolları vardır. En eskisi, bir çevirinin kalitesini değerlendirmek için insan yargıçların[72] kullanılmasıdır. İnsan değerlendirmesi zaman alıcı olsa da, kural tabanlı ve istatistiksel sistemler gibi farklı sistemleri karşılaştırmak için hala en güvenilir yöntemdir.[73] Otomatik değerlendirme araçları BLEU, NIST, METEOR ve LEPOR’u içerir.[74]
Yalnızca düzenlenmemiş makine çevirisine güvenmek, insan dilindeki iletişimin bağlama gömülü olduğu ve orijinal metnin bağlamını makul bir olasılıkla bir kişinin kavraması gerektiği gerçeğini göz ardı eder. Tamamen insan yapımı çevirilerin bile hataya açık olduğu kesinlikle doğrudur. Bu nedenle, makine tarafından oluşturulan bir çevirinin bir insan için faydalı olmasını ve yayınlanabilir kalitede çeviri elde edilmesini sağlamak için, bu tür çevirilerin bir insan tarafından gözden geçirilmesi ve düzenlenmesi gerekir.[75] Rahmetli Claude Piron, makine çevirisinin en iyi ihtimalle çevirmenin işinin daha kolay olan kısmını otomatikleştirdiğini yazdı; daha zor ve daha fazla zaman alan kısım, genellikle hedef dilin gramer ve sözlüksel zorunluluklarının çözülmesini gerektiren kaynak metindeki belirsizlikleri çözmek için kapsamlı araştırma yapmayı içerir. Bu tür bir araştırma, çıktının anlamsız olmayacağı şekilde makine çevirisi yazılımına girdi sağlamak için gerekli olan ön düzenleme için gerekli bir başlangıçtır.[76]
Belirsizliği giderme sorunlarına ek olarak, makine çevirisi programları için değişen eğitim verileri seviyeleri nedeniyle doğrulukta azalma meydana gelebilir. Hem örneğe dayalı hem de istatistiksel makine çevirisi, çeviri için temel olarak çok sayıda gerçek örnek cümleye dayanır ve çok fazla veya çok az cümle analiz edildiğinde doğruluk tehlikeye girer. Araştırmacılar, bir program 203.529 cümle eşleştirmesi üzerinde eğitildiğinde, doğruluğun gerçekten düştüğünü buldu.[70] Eğitim verilerinin optimal düzeyi 100.000 cümlenin biraz üzerinde gibi görünüyor, bunun nedeni muhtemelen eğitim verileri arttıkça olası cümlelerin sayısının artması ve bunun tam bir çeviri eşleşmesi bulmayı zorlaştırmasıdır.
Makine çevirisini bir öğretim aracı olarak kullanma
Makine çevirisinin doğruluğu konusunda endişeler olsa da, Manchester Üniversitesi’nden Dr. Ana Nino, makine çevirisinin sınıfta kullanılmasının bazı avantajlarını araştırdı. Böyle bir pedagojik yönteme “Kötü Model Olarak MT” kullanımı denir.[77] Kötü Model Olarak MT, dil öğrenen kişiyi bir çevirinin tutarsızlıklarını veya yanlış yönlerini belirlemeye zorlar; sırayla, birey (umarız) dili daha iyi kavrayacaktır. Dr. Nino, bu öğretim aracının 1980’lerin sonunda uygulandığını belirtiyor. Çeşitli dönemlerin sonunda Dr. Nino, MT’yi Kötü Model olarak kullanmış olan öğrencilerden (diğer modellerin yanı sıra) anket sonuçlarını elde edebildi. hedef dile güven.[77]
Makine çevirisi ve işaretli diller
2000’lerin başında, konuşma ve işaret dilleri arasındaki makine çevirisi seçenekleri ciddi şekilde sınırlıydı. Sağır bireylerin geleneksel tercümanları kullanabileceği yaygın bir inançtı. Ancak vurgu, tonlama, ses perdesi ve zamanlama konuşma dillerinde işaret dillerine göre çok daha farklı aktarılır. Bu nedenle, sağır bir kişi, konuşulan bir dile dayalı yazılı bir metnin anlamını yanlış yorumlayabilir veya kafası karışabilir.[78]
Araştırmacılar Zhao, et al. (2000), İngilizce’den Amerikan İşaret Dili’ne (ASL) çevirileri tamamlayan TEAM (İngilizce’den ASL’ye makine ile çeviri) adlı bir prototip geliştirdi. Program önce İngilizce metnin sözdizimsel, dilbilgisel ve morfolojik yönlerini analiz eder. Bu adımın ardından program, ASL için bir sözlük görevi gören bir işaret sentezleyiciye erişti. Bu sentezleyici, kişinin ASL işaretlerini tamamlamak için izlemesi gereken süreci ve bu işaretlerin anlamlarını barındırıyordu. Tüm metin analiz edildikten ve çeviriyi tamamlamak için gerekli işaretler sentezleyiciye yerleştirildikten sonra, bilgisayar tarafından oluşturulmuş bir insan ortaya çıktı ve İngilizce metni kullanıcıya imzalamak için ASL’yi kullanacaktı.[78]
Telif hakkı
Yalnızca orijinal eserler telif hakkı korumasına tabidir, bu nedenle bazı akademisyenler makine çevirisi sonuçlarının telif hakkı korumasına sahip olmadığını, çünkü MT’nin yaratıcılık içermediğini iddia etmektedir.[79] Söz konusu telif hakkı türetilmiş bir çalışma içindir; orijinal eserin orijinal dilindeki yazarı, bir eser çevrildiğinde haklarını kaybetmez: çevirmenin çeviriyi yayınlama izni olmalıdır.
Kaynak:
https://en.wikipedia.org/wiki/Machine_translation
Wiki Kaynaklar:
1)Budiansky, Stephen (December 1998). “Lost in Translation”. Atlantic Magazine. pp. 81–84.
2)Albat, Thomas Fritz. “Systems and Methods for Automatically Estimating a Translation Time.” US Patent 0185235, 19 July 2012.
3)Bar-Hillel, Yehoshua (1964). Language and Information: Selected Essays on Their Theory and Application. Reading, Massachusetts: Addison-Wesley. pp. 174–179.
4)Madsen, Mathias Winther (2009). The Limits of Machine Translation (MA thesis). University of Copenhagen. p. 5. Archived from the original on 17 October 2021.
5)DuPont, Quinn (January 2018). “The Cryptological Origins of Machine Translation: From al-Kindi to Weaver”. Amodern. Archived from the original on 14 August 2019. Retrieved 2 September 2019.
6)Knowlson, James (1975). Universal Language Schemes in England and France, 1600-1800. Toronto: University of Toronto Press. ISBN 0-8020-5296-7.
7)J. Hutchins (2000). “Warren Weaver and the launching of MT”. Early Years in Machine Translation (PDF). Semantic Scholar. Studies in the History of the Language Sciences. Vol. 97. p. 17. doi:10.1075/sihols.97.05hut. ISBN 978-90-272-4586-1. S2CID 163460375. Archived from the original (PDF) on 28 February 2020.
8)”Warren Weaver, American mathematician”. 13 July 2020. Archived from the original on 6 March 2021. Retrieved 7 August 2020.
9)上野, 俊夫 (13 August 1986). パーソナルコンピュータによる機械翻訳プログラムの制作 (in Japanese). Tokyo: (株)ラッセル社. p. 16. ISBN 494762700X. “わが国では1956年、当時の電気試験所が英和翻訳専用機「ヤマト」を実験している。この機械は1962年頃には中学1年の教科書で90点以上の能力に達したと報告されている。(translation (assisted by Google Translate): In 1959 Japan, the National Institute of Advanced Industrial Science and Technology(AIST) tested the proper English-Japanese translation machine Yamato, which reported in 1964 as that reached the power level over the score of 90-point on the textbook of first grade of junior hi-school.)”
10)”機械翻訳専用機「やまと」-コンピュータ博物館”. Archived from the original on 19 October 2016. Retrieved 4 April 2017.
11)Nye, Mary Jo (2016). “Speaking in Tongues: Science’s centuries-long hunt for a common language”. Distillations. 2 (1): 40–43. Archived from the original on 3 August 2020. Retrieved 20 March 2018.
12)Gordin, Michael D. (2015). Scientific Babel: How Science Was Done Before and After Global English. Chicago, Illinois: University of Chicago Press. ISBN 9780226000299.
13)Wolfgang Saxon (28 July 1995). “David G. Hays, 66, a Developer Of Language Study by Computer”. The New York Times. Archived from the original on 7 February 2020. Retrieved 7 August 2020. “wrote about computer-assisted language processing as early as 1957.. was project leader on computational linguistics at Rand from 1955 to 1968.”
14)上野, 俊夫 (13 August 1986). パーソナルコンピュータによる機械翻訳プログラムの制作 (in Japanese). Tokyo: (株)ラッセル社. p. 16. ISBN 494762700X.
15)Schank, Roger C. (2014). Conceptual Information Processing. New York: Elsevier. p. 5. ISBN 9781483258799.
16)Farwell, David; Gerber, Laurie; Hovy, Eduard (29 June 2003). Machine Translation and the Information Soup: Third Conference of the Association for Machine Translation in the Americas, AMTA’98, Langhorne, PA, USA, October 28–31, 1998 Proceedings. Berlin: Springer. p. 276. ISBN 3540652590.
17)Barron, Brenda (18 November 2019). “Babel Fish: What Happened To The Original Translation Application?: We Investigate”. Digital.com. Archived from the original on 20 November 2019. Retrieved 22 November 2019.
18)and gave other examples too
19)Chan, Sin-Wai (2015). Routledge Encyclopedia of Translation Technology. Oxon: Routledge. p. 385. ISBN 9780415524841.
20)Bai Liping, “Similarity and difference in Translation.” Taken from Similarity and Difference in Translation: Proceedings of the International Conference on Similarity and Translation Archived 5 August 2020 at the Wayback Machine, pg. 339. Eds. Stefano Arduini and Robert Hodgson. 2nd ed. Rome: Edizioni di storia e letteratura, 2007. ISBN 9788884983749
21)John Lehrberger (1988). Machine Translation: Linguistic Characteristics of MT Systems and General Methodology of Evaluation. John Benjamins Publishing. ISBN 90-272-3124-9. Archived from the original on 17 October 2021. Retrieved 18 October 2020.
22)Chitu, Alex (22 October 2007). “Google Switches to Its Own Translation System”. Googlesystem.blogspot.com. Archived from the original on 29 April 2017. Retrieved 13 August 2012.
23)”Google Translator: The Universal Language”. Blog.outer-court.com. 25 January 2007. Archived from the original on 20 November 2008. Retrieved 12 June 2012.
24)”Inside Google Translate – Google Translate”. Archived from the original on 16 April 2014. Retrieved 14 April 2014.
25)Tambouratzis, George; Sofianopoulos, Sokratis; Vassiliou, Marina (2013). “Language-Independent Hybrid MT with PRESEMT”. Proceedings of the Second Workshop on Hybrid Approaches to Translation (PDF). Sofia: Association for Computational Linguistics. pp. 123–130. ISBN 978-1-937284-63-3. Archived from the original (PDF) on 13 April 2014.
26)Nagao, M. 1981. A Framework of a Mechanical Translation between Japanese and English by Analogy Principle, in Artificial and Human Intelligence, A. Elithorn and R. Banerji (eds.) North- Holland, pp. 173–180, 1984.
27)”the Association for Computational Linguistics – 2003 ACL Lifetime Achievement Award”. Association for Computational Linguistics. Archived from the original on 12 June 2010. Retrieved 10 March 2010.
28)”Kitt.cl.uzh.ch [CL Wiki]” (PDF). Archived (PDF) from the original on 7 January 2014. Retrieved 18 November 2013.
29)Adam Boretz (2 March 2009). “Boretz, Adam, “AppTek Launches Hybrid Machine Translation Software” SpeechTechMag.com (posted 2 MAR 2009)”. Speechtechmag.com. Archived from the original on 9 June 2009. Retrieved 12 June 2012.
30)”Google’s neural network learns to translate languages it hasn’t been trained on”. Archived from the original on 1 September 2017. Retrieved 4 September 2017.
31)Linn, Allison (14 March 2018). “Microsoft reaches a historic milestone, using AI to match human performance in translating news from Chinese to English”. Archived from the original on 2 March 2019. Retrieved 21 April 2021.
32)Hassan, Hany; Aue, Anthony; Chen, Chang; Chowdhary, Vishal; Clark, Jonathan; Federmann, Christian; Huang, Xuedong; Junczys-Dowmunt, Marcin; Lewis, William (2018). “Achieving Human Parity on Automatic Chinese to English News Translation”. arXiv:1803.05567 [cs.CL].
33)Antonio Toral, Sheila Castilho, Ke Hu, and Andy Way. 2018. Attaining the unattainable? reassessing claims of human parity in neural machine translation. CoRR, abs/1808.10432.
34)Yvette, Graham; Barry, Haddow; Koehn, Philipp (2019). “Translationese in Machine Translation Evaluation”. arXiv:1906.09833 [cs.CL].
35)”Multiword Expressions – ACL Wiki”. Archived from the original on 8 May 2021. Retrieved 8 May 2021.
36)Han, Lifeng, Jones, Gareth J.F., Smeaton, Alan F. and Bolzoni, Paolo (2021) Chinese character decomposition for neural MT with multi-word expressions. In: 23rd Nordic Conference on Computational Linguistics (NoDaLiDa 2021) | url=https://arxiv.org/abs/2104.04497 Archived 9 May 2021 at the Wayback Machine
37)Lifeng Han, Shaohui Kuang. (2018) incorporating Chinese Radicals Into Neural Machine Translation: Deeper Than Character Level | url= https://arxiv.org/pdf/1805.01565.pdf Archived 9 May 2021 at the Wayback Machine
38)Milestones in machine translation – No.6: Bar-Hillel and the nonfeasibility of FAHQT Archived 12 March 2007 at the Wayback Machine by John Hutchins
39)Bar-Hillel (1960), “Automatic Translation of Languages”. Available online at http://www.mt-archive.info/Bar-Hillel-1960.pdf Archived 28 September 2011 at the Wayback Machine
40)Hybrid approaches to machine translation. Costa-jussà, Marta R., Rapp, Reinhard, Lambert, Patrik, Eberle, Kurt, Banchs, Rafael E., Babych, Bogdan. Switzerland. 21 July 2016. ISBN 9783319213101. OCLC 953581497.
41)Claude Piron, Le défi des langues (The Language Challenge), Paris, L’Harmattan, 1994.
42)Babych, Bogdan; Hartley, Anthony (2003). Improving Machine Translation Quality with Automatic Named Entity Recognition (PDF). Paper presented at the 7th International EAMT Workshop on MT and Other Language Technology Tools… Archived from the original (PDF) on 14 May 2006. Retrieved 4 November 2013.
43)Hermajakob, U., Knight, K., & Hal, D. (2008). Name Translation in Statistical Machine Translation Learning When to Transliterate Archived 4 January 2018 at the Wayback Machine. Association for Computational Linguistics. 389–397.
44)Neeraj Agrawal; Ankush Singla. Using Named Entity Recognition to improve Machine Translation (PDF). Archived (PDF) from the original on 21 May 2013. Retrieved 4 November 2013.
45)Schwartz, Lane (2008). Multi-Source Translation Methods (PDF). Paper presented at the 8th Biennial Conference of the Association for Machine Translation in the Americas. Archived (PDF) from the original on 29 June 2016. Retrieved 3 November 2017.
46)Cohn, Trevor; Lapata, Mirella (2007). Machine Translation by Triangulation: Making Effective Use of Multi-Parallel Corpora (PDF). Paper presented at the 45th Annual Meeting of the Association for Computational Linguistics, June 23–30, 2007, Prague, Czech Republic. Archived (PDF) from the original on 10 October 2015. Retrieved 3 February 2015.
47)Nakov, Preslav; Ng, Hwee Tou (2012). “Improving Statistical Machine Translation for a Resource-Poor Language Using Related Resource-Rich Languages”. Journal of Artificial Intelligence Research. 44: 179–222. doi:10.1613/jair.3540.
48)Vossen, Piek: Ontologies. In: Mitkov, Ruslan (ed.) (2003): Handbook of Computational Linguistics, Chapter 25. Oxford: Oxford University Press.
49)Knight, Kevin (1993). “Building a Large Ontology for Machine Translation”. Human Language Technology: Proceedings of a Workshop Held at Plainsboro, New Jersey, March 21–24, 1993. Princeton, New Jersey: Association for Computational Linguistics. pp. 185–190. doi:10.3115/1075671.1075713. ISBN 978-1-55860-324-0.
50)Knight, Kevin; Luk, Steve K. (1994). Building a Large-Scale Knowledge Base for Machine Translation. Paper presented at the Twelfth National Conference on Artificial Intelligence. arXiv:cmp-lg/9407029.
51)Melby, Alan. The Possibility of Language (Amsterdam:Benjamins, 1995, 27–41). Benjamins.com. 1995. ISBN 9789027216144. Archived from the original on 25 May 2011. Retrieved 12 June 2012.
52)Wooten, Adam (14 February 2006). “A Simple Model Outlining Translation Technology”. T&I Business. Archived from the original on 16 July 2012. Retrieved 12 June 2012.
53)”Appendix III of ‘The present status of automatic translation of languages’, Advances in Computers, vol.1 (1960), p.158-163. Reprinted in Y.Bar-Hillel: Language and information (Reading, Mass.: Addison-Wesley, 1964), p.174-179″ (PDF). Archived from the original (PDF) on 28 September 2018. Retrieved 12 June 2012.
54)”Human quality machine translation solution by Ta with you” (in Spanish). Tauyou.com. 15 April 2009. Archived from the original on 22 September 2009. Retrieved 12 June 2012.
55)”molto-project.eu”. molto-project.eu. Archived from the original on 4 May 2010. Retrieved 12 June 2012.
56)SPIEGEL ONLINE, Hamburg, Germany (13 September 2013). “Google Translate Has Ambitious Goals for Machine Translation”. SPIEGEL ONLINE. Archived from the original on 14 September 2013. Retrieved 13 September 2013.
57)”Machine Translation Service”. 5 August 2011. Archived from the original on 8 September 2013. Retrieved 13 September 2013.
58)Google Blog: The machines do the translating Archived 23 March 2006 at the Wayback Machine (by Franz Och)
59)”Geer, David, “Statistical Translation Gains Respect”, pp. 18 – 21, IEEE Computer, October 2005″. Ieeexplore.ieee.org. 27 September 2011. doi:10.1109/MC.2005.353. S2CID 7088166.
60)Ratliff, Evan (4 January 2009). “Ratcliff, Evan “Me Translate Pretty One Day”, Wired December 2006″. Wired. Archived from the original on 14 May 2013. Retrieved 12 June 2012.
61)””NIST 2006 Machine Translation Evaluation Official Results”, November 1, 2006″. Itl.nist.gov. Archived from the original on 17 October 2021. Retrieved 12 June 2012.
62)”In-Q-Tel”. In-Q-Tel. Archived from the original on 20 May 2016. Retrieved 12 June 2012.
63)Gallafent, Alex (26 April 2011). “Machine Translation for the Military”. PRI’s the World. Archived from the original on 9 May 2013. Retrieved 17 September 2013.
64)Jackson, William (9 September 2003). “GCN – Air force wants to build a universal translator”. Gcn.com. Archived from the original on 16 June 2011. Retrieved 12 June 2012.
65)Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council (1966). Language and Machines: Computers in Translation and Linguistics (PDF) (Report). Washington, D. C.: National Research Council, National Academy of Sciences. Archived (PDF) from the original on 21 October 2013. Retrieved 21 October 2013.
66)Randhawa, Gurdeeshpal; Ferreyra, Mariella; Ahmed, Rukhsana; Ezzat, Omar; Pottie, Kevin (April 2013). “Using machine translation in clinical practice”. Canadian Family Physician. 59 (4): 382–383. PMC 3625087. PMID 23585608. Archived from the original on 4 May 2013. Retrieved 21 October 2013.
67)Abadi, Mark. “4 times Google Translate totally dropped the ball”. Business Insider.
68)”回数を重ねるほど狂っていく Google翻訳で「えぐ」を英訳すると奇妙な世界に迷い込むと話題に”. ねとらぼ.
69)”えぐ” – via www.youtube.com.
70)Way, Andy; Nano Gough (20 September 2005). “Comparing Example-Based and Statistical Machine Translation”. Natural Language Engineering. 11 (3): 295–309. doi:10.1017/S1351324905003888. S2CID 3242163.
71)Muegge (2006), “Fully Automatic High Quality Machine Translation of Restricted Text: A Case Study Archived 17 October 2011 at the Wayback Machine,” in Translating and the computer 28. Proceedings of the twenty-eighth international conference on translating and the computer, 16–17 November 2006, London, London: Aslib. ISBN 978-0-85142-483-5.
72)”Comparison of MT systems by human evaluation, May 2008″. Morphologic.hu. Archived from the original on 19 April 2012. Retrieved 12 June 2012.
73)Anderson, D.D. (1995). Machine translation as a tool in second language learning Archived 4 January 2018 at the Wayback Machine. CALICO Journal. 13(1). 68–96.
74)Han et al. (2012), “LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors Archived 4 January 2018 at the Wayback Machine,” in Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012): Posters, pages 441–450, Mumbai, India.
75)J.M. Cohen observes (p.14): “Scientific translation is the aim of an age that would reduce all activities to techniques. It is impossible however to imagine a literary-translation machine less complex than the human brain itself, with all its knowledge, reading, and discrimination.”
76)See the annually performed NIST tests since 2001 Archived 22 March 2009 at the Wayback Machine and Bilingual Evaluation Understudy
77)Nino, Ana. “Machine Translation in Foreign Language Learning: Language Learners’ and Tutors’ Perceptions of Its Advantages and Disadvantages[dead link]” ReCALL: the Journal of EUROCALL 21.2 (May 2009) 241–258.
78)Zhao, L., Kipper, K., Schuler, W., Vogler, C., & Palmer, M. (2000). A Machine Translation System from English to American Sign Language Archived 20 July 2018 at the Wayback Machine. Lecture Notes in Computer Science, 1934: 54–67.
79)”Machine Translation: No Copyright On The Result?”. SEO Translator, citing Zimbabwe Independent. Archived from the original on 29 November 2012. Retrieved 24 November 2012.
