Bilgisayar Görüşü (Computer Vision)

Bilgisayarla görme, bilgisayarların dijital görüntülerden veya videolardan nasıl üst düzey anlayış elde edebileceğiyle ilgilenen disiplinler arası bir bilimsel alandır. Mühendislik açısından, insan görsel sisteminin yapabileceği görevleri anlamayı ve otomatikleştirmeyi amaçlar.[1][2]

Bilgisayarla görme görevleri, dijital görüntüleri elde etme, işleme, analiz etme ve anlama yöntemlerini ve sayısal veya sembolik bilgi üretmek için gerçek dünyadan yüksek boyutlu verilerin çıkarılmasını içerir; karar formlarında.[3][4][5][6] Bu bağlamda anlamak, görsel imgelerin (retinanın girdisi), düşünce süreçleri için anlam ifade eden ve uygun eylemi ortaya çıkarabilen dünya tanımlarına dönüştürülmesi anlamına gelir. Bu görüntü anlayışı, geometri, fizik, istatistik ve öğrenme teorisinin yardımıyla oluşturulan modeller kullanılarak görüntü verilerinden sembolik bilgilerin çözülmesi olarak görülebilir.

Bilgisayarla görmenin bilimsel disiplini, görüntülerden bilgi çıkaran yapay sistemlerin arkasındaki teoriyle ilgilenir. Görüntü verileri, video dizileri, birden çok kameradan alınan görüntüler, bir 3B tarayıcıdan alınan çok boyutlu veriler veya tıbbi tarama cihazları gibi birçok biçimde olabilir. Bilgisayarla görmenin teknolojik disiplini, teorilerini ve modellerini bilgisayarla görme sistemlerinin inşasına uygulamayı amaçlamaktadır.

Bilgisayarla görmenin alt alanları, sahne yeniden oluşturma, nesne algılama, olay algılama, video izleme, nesne tanıma, 3B poz tahmini, öğrenme, indeksleme, hareket tahmini, görsel servolama, 3B sahne modelleme ve görüntü restorasyonunu içerir.

Tanım

Bilgisayarla görme, dijital görüntülerden veya videolardan üst düzey anlayış elde etmek için bilgisayarların nasıl yapılabileceği ile ilgilenen disiplinler arası bir alandır. Mühendislik açısından, insan görsel sisteminin yapabileceği görevleri otomatikleştirmeye çalışır.[1][2][7] “Bilgisayarla görme, tek bir görüntüden veya bir dizi görüntüden yararlı bilgilerin otomatik olarak çıkarılması, analizi ve anlaşılması ile ilgilidir. Otomatik görsel anlayışa ulaşmak için teorik ve algoritmik bir temelin geliştirilmesini içerir.”[8] Bilimsel bir disiplin olarak , bilgisayar görüşü, görüntülerden bilgi çıkaran yapay sistemlerin arkasındaki teori ile ilgilidir. Görüntü verileri, video dizileri, birden fazla kameradan alınan görüntüler veya tıbbi bir tarayıcıdan alınan çok boyutlu veriler gibi birçok biçimde olabilir.[9] Teknolojik bir disiplin olarak bilgisayarla görme, bilgisayarla görme sistemlerinin inşası için teorilerini ve modellerini uygulamaya çalışır.

Tarihi

1960’ların sonunda, yapay zekaya öncülük eden üniversitelerde bilgisayarla görme başladı. Robotlara akıllı davranışlar kazandırmak için bir basamak olarak insanın görsel sistemini taklit etmesi gerekiyordu.[10] 1966’da bunun bir yaz projesiyle, bilgisayara bir kamera bağlayıp “gördüklerini anlatmasını” sağlayarak sağlanabileceğine inanılıyordu.[11][12]

Bilgisayar görüşünü o dönemde yaygın olan dijital görüntü işleme alanından ayıran şey, tam sahne anlayışına ulaşmak amacıyla görüntülerden üç boyutlu yapıyı çıkarma arzusuydu. 1970’lerde yapılan çalışmalar, görüntülerden kenarların çıkarılması, çizgilerin etiketlenmesi, çokyüzlü olmayan ve çokyüzlü modelleme, nesnelerin daha küçük yapıların ara bağlantıları olarak temsil edilmesi, optik akış ve hareket tahmini.[10]

Sonraki on yılda, bilgisayarla görmenin daha titiz matematiksel analizine ve nicel yönlerine dayanan çalışmalar görüldü. Bunlar, ölçek-uzay kavramını, gölgeleme, doku ve odak gibi çeşitli ipuçlarından şekil çıkarımı ve yılan olarak bilinen kontur modellerini içerir. Araştırmacılar ayrıca, bu matematiksel kavramların birçoğunun düzenlileştirme ve Markov rasgele alanları gibi aynı optimizasyon çerçevesi içinde ele alınabileceğini fark ettiler.[13] 1990’lara gelindiğinde, önceki araştırma konularından bazıları diğerlerinden daha aktif hale geldi. Projektif 3 boyutlu rekonstrüksiyon araştırmaları, kamera kalibrasyonunun daha iyi anlaşılmasına yol açtı. Kamera kalibrasyonu için optimizasyon yöntemlerinin ortaya çıkmasıyla, fotogrametri alanından demet ayarlama teorisinde pek çok fikrin zaten araştırıldığı fark edildi. Bu, birden çok görüntüden sahnelerin seyrek 3-D rekonstrüksiyonları için yöntemlere yol açtı. Yoğun stereo yazışma sorunu ve daha fazla çoklu görüntü stereo teknikleri konusunda ilerleme kaydedildi. Aynı zamanda, görüntü bölümlemesini çözmek için grafik kesme varyasyonları kullanıldı. Bu on yıl, aynı zamanda, görüntülerdeki yüzleri tanımak için pratikte istatistiksel öğrenme tekniklerinin ilk kez kullanıldığı zaman oldu (bkz. Eigenface). 1990’ların sonlarına doğru bilgisayar grafikleri ve bilgisayarla görme alanları arasındaki etkileşimin artmasıyla birlikte önemli bir değişim yaşandı. Bu, görüntü tabanlı oluşturma, görüntü dönüştürme, görünüm enterpolasyonu, panoramik görüntü birleştirme ve erken ışık alanı oluşturmayı içeriyordu.[10]

Son çalışmalar, makine öğrenimi teknikleri ve karmaşık optimizasyon çerçeveleriyle birlikte kullanılan özellik tabanlı yöntemlerin yeniden canlandığını gördü.[14][15] Derin Öğrenme tekniklerinin ilerlemesi, bilgisayarla görme alanına daha fazla yaşam getirdi. Derin öğrenme algoritmalarının, sınıflandırma,[16] segmentasyon ve optik akıştan çeşitli görevler için çeşitli karşılaştırmalı bilgisayar görüşü veri kümelerindeki doğruluğu, önceki yöntemleri geride bıraktı.[kaynak belirtilmeli][17]

İlgili alanlar

Katı hal fiziği
Katı hal fiziği, bilgisayar görüşü ile yakından ilgili başka bir alandır. Çoğu bilgisayarla görme sistemi, tipik olarak görünür veya kızılötesi ışık biçiminde olan elektromanyetik radyasyonu algılayan görüntü sensörlerine güvenir. Sensörler kuantum fiziği kullanılarak tasarlanmıştır. Işığın yüzeylerle etkileşime girme süreci fizik kullanılarak açıklanır. Fizik, çoğu görüntüleme sisteminin temel bir parçası olan optiğin davranışını açıklar. Sofistike görüntü sensörleri, görüntü oluşturma sürecinin tam olarak anlaşılmasını sağlamak için kuantum mekaniği bile gerektirir.[10] Ayrıca, fizikteki çeşitli ölçüm problemleri, örneğin sıvılardaki hareket gibi bilgisayar görüşü kullanılarak ele alınabilir.

Nörobiyoloji

Nörobiyoloji, bilgisayarla görme algoritmalarının gelişimini büyük ölçüde etkilemiştir. Geçen yüzyılda, hem insanlarda hem de çeşitli hayvanlarda görsel uyaranları işlemeye adanmış gözler, nöronlar ve beyin yapıları üzerine kapsamlı bir çalışma yapılmıştır. Bu, görmeyle ilgili belirli görevleri çözmek için doğal görme sistemlerinin nasıl çalıştığına dair kaba ama dolambaçlı bir açıklamaya yol açtı. Bu sonuçlar, yapay sistemlerin farklı karmaşıklık düzeylerinde biyolojik sistemlerin işlenmesini ve davranışını taklit etmek için tasarlandığı bilgisayar görüşü içinde bir alt alana yol açmıştır. Ayrıca, bilgisayarla görme kapsamında geliştirilen öğrenme tabanlı yöntemlerden bazılarının (örneğin sinir ağı ve derin öğrenme tabanlı görüntü ve özellik analizi ve sınıflandırma) nörobiyolojide geçmişi vardır. 1970’lerde Kunihiko Fukushima tarafından geliştirilen bir sinir ağı olan Neocognitron, nörobiyolojiden, özellikle birincil görsel korteksten doğrudan ilham alan bilgisayarla görmenin erken bir örneğidir.

Bilgisayarlı görü araştırmalarının bazı kolları, biyolojik görme çalışmasıyla yakından ilişkilidir – tıpkı yapay zeka araştırmalarının birçoğunun insan zekası araştırmalarıyla ve görsel bilgiyi yorumlamak, bütünleştirmek ve kullanmak için depolanmış bilginin kullanımıyla yakından bağlantılı olması gibi. Biyolojik görme alanı, insanlarda ve diğer hayvanlarda görsel algının ardındaki fizyolojik süreçleri inceler ve modeller. Bilgisayarla görme ise yapay görme sistemlerinin arkasındaki yazılım ve donanımda uygulanan algoritmaları geliştirir ve açıklar. Biyolojik ve bilgisayarla görme arasındaki disiplinler arası alışverişin her iki alan için de verimli olduğu kanıtlanmıştır.[18]

Sinyal işleme
Bilgisayarlı görü ile ilgili bir başka alan da sinyal işlemedir. Tek değişkenli sinyallerin, tipik olarak zamansal sinyallerin işlenmesine yönelik birçok yöntem, doğal bir şekilde iki değişkenli sinyallerin veya çok değişkenli sinyallerin bilgisayar görüşünde işlenmesine kadar genişletilebilir. Bununla birlikte, görüntülerin kendine özgü doğası nedeniyle, tek değişkenli sinyallerin işlenmesinde benzeri olmayan, bilgisayarla görme içinde geliştirilmiş birçok yöntem vardır. Sinyalin çok boyutluluğu ile birlikte bu, bilgisayar görüşünün bir parçası olarak sinyal işlemede bir alt alan tanımlar.

Robotik navigasyon

Robot navigasyonu bazen robotik sistemlerin bir ortamda gezinmesi için otonom yol planlama veya müzakere ile ilgilenir.[19] Bu ortamlarda gezinmek için bu ortamların ayrıntılı bir şekilde anlaşılması gerekir. Çevre hakkında bilgi, bir görüş sensörü görevi gören ve çevre ve robot hakkında üst düzey bilgiler sağlayan bir bilgisayar görme sistemi tarafından sağlanabilir.

Diğer alanlar
Bilgisayarla görme konusunda yukarıda belirtilen görüşlerin yanı sıra, ilgili araştırma konularının birçoğu tamamen matematiksel bir bakış açısıyla da incelenebilir. Örneğin, bilgisayarla görmedeki birçok yöntem istatistik, optimizasyon veya geometriye dayalıdır. Son olarak, alanın önemli bir kısmı bilgisayarla görmenin uygulama yönüne ayrılmıştır; çeşitli yazılım ve donanım kombinasyonlarında mevcut yöntemlerin nasıl gerçekleştirilebileceği veya çok fazla performans kaybetmeden işlem hızı kazanmak için bu yöntemlerin nasıl değiştirilebileceği. Bilgisayar görüşü moda e-ticaretinde, envanter yönetiminde, patent aramada, mobilyada ve güzellik endüstrisinde de kullanılmaktadır.

Ayrımlar

Bilgisayarla görü ile en yakından ilgili alanlar görüntü işleme, görüntü analizi ve makine görüşüdür. Bunların kapsadığı teknikler ve uygulamalar aralığında önemli bir örtüşme vardır. Bu, bu alanlarda kullanılan ve geliştirilen temel tekniklerin benzer olduğu anlamına gelir; bu, farklı adlara sahip yalnızca bir alan olduğu şeklinde yorumlanabilir. Öte yandan, araştırma gruplarının, bilimsel dergilerin, konferansların ve şirketlerin kendilerini bu alanlardan birine özgü olarak sunmaları veya pazarlamaları ve dolayısıyla her alanı diğerlerinden ayıran çeşitli nitelendirmelerin olması gerekli görünmektedir. sunuldu. Görüntü işlemede girdi bir görüntüdür ve çıktı da bir görüntüdür, oysa bilgisayarla görüde bir görüntü veya video girdi olarak alınır ve çıktı geliştirilmiş bir görüntü, bir görüntünün içeriğinin anlaşılması olabilir. hatta böyle bir anlayışa dayalı bir bilgisayar sisteminin davranışı.

Bilgisayar grafikleri, 3B modellerden görüntü verileri üretir ve bilgisayar görüşü, genellikle görüntü verilerinden 3B modeller üretir.[20] Örneğin artırılmış gerçeklikte keşfedildiği gibi, iki disiplinin bir kombinasyonuna yönelik bir eğilim de vardır.

Aşağıdaki nitelendirmeler alakalı görünmektedir ancak evrensel olarak kabul edilmemelidir:

Görüntü işleme ve görüntü analizi, 2B görüntülere, örneğin kontrast geliştirme gibi piksel tabanlı işlemlerle, kenar çıkarma veya gürültü giderme gibi yerel işlemlerle veya görüntüyü döndürme gibi geometrik dönüşümlerle bir görüntünün diğerine nasıl dönüştürüleceğine odaklanma eğilimindedir. . Bu nitelendirme, görüntü işleme/analizinin ne varsayımlar gerektirdiğini ne de görüntü içeriği hakkında yorumlar ürettiğini ima eder.
Bilgisayarla görme, 2B görüntülerden 3B analiz içerir. Bu, bir veya daha fazla görüntüye yansıtılan 3B sahneyi analiz eder; örneğin, bir veya daha fazla görüntüden 3B sahne hakkındaki yapının veya diğer bilgilerin nasıl yeniden yapılandırılacağı. Bilgisayar görüşü genellikle bir görüntüde tasvir edilen sahne hakkında az çok karmaşık varsayımlara dayanır.
Yapay görme, endüstriyel uygulamalarda görüntüleme tabanlı otomatik inceleme, süreç kontrolü ve robot rehberliği[21] sağlamak için bir dizi teknoloji ve yöntemi uygulama sürecidir.[18] Yapay görme, esas olarak imalattaki uygulamalara odaklanma eğilimindedir; örneğin, görüş tabanlı inceleme, ölçüm veya toplama (kutu toplama[22] gibi) için görüş tabanlı robotlar ve sistemler. Bu, görüntü sensörü teknolojilerinin ve kontrol teorisinin genellikle bir robotu kontrol etmek için görüntü verilerinin işlenmesiyle entegre edildiği ve gerçek zamanlı işlemenin donanım ve yazılımdaki verimli uygulamalar aracılığıyla vurgulandığı anlamına gelir. Ayrıca, aydınlatma gibi dış koşulların, farklı algoritmaların kullanılmasına olanak sağlayabilen genel bilgisayar görüşüne göre yapay görmede daha fazla kontrol edilebileceğini ve genellikle daha fazla kontrol edildiğini ima eder.
Ayrıca, öncelikle görüntü üretme sürecine odaklanan, ancak bazen görüntülerin işlenmesi ve analizi ile de ilgilenen görüntüleme adı verilen bir alan vardır. Örneğin, tıbbi görüntüleme, tıbbi uygulamalarda görüntü verilerinin analizine ilişkin önemli çalışmaları içerir.
Son olarak, örüntü tanıma, temel olarak istatistiksel yaklaşımlara ve yapay sinir ağlarına dayanan, genel olarak sinyallerden bilgi çıkarmak için çeşitli yöntemler kullanan bir alandır.[23] Bu alanın önemli bir kısmı, bu yöntemlerin görüntü verilerine uygulanmasına ayrılmıştır.

Fotogrametri ayrıca bilgisayarla görme ile örtüşür, örneğin stereofotogrammetriye karşı bilgisayar stereo görüşü.

Uygulamalar

Uygulamalar, örneğin bir üretim hattında hızla geçen şişeleri inceleyen endüstriyel yapay görme sistemleri gibi görevlerden, çevrelerindeki dünyayı kavrayabilen yapay zeka ve bilgisayarlar veya robotlar üzerine araştırmalara kadar uzanır. Bilgisayar görüşü ve makine görüşü alanları önemli ölçüde örtüşüyor. Bilgisayarla görme, birçok alanda kullanılan otomatikleştirilmiş görüntü analizinin temel teknolojisini kapsar. Yapay görme genellikle endüstriyel uygulamalarda otomatik denetim ve robot rehberliği sağlamak için otomatik görüntü analizini diğer yöntem ve teknolojilerle birleştirme sürecini ifade eder. Birçok bilgisayarlı görü uygulamasında, bilgisayarlar belirli bir görevi çözmek için önceden programlanmıştır, ancak öğrenmeye dayalı yöntemler artık giderek daha yaygın hale gelmektedir. Bilgisayarla görme uygulamalarının örnekleri aşağıdakileri içeren sistemleri içerir:

Otomatik denetim, örneğin imalat uygulamalarında;
Tanımlama görevlerinde insanlara yardım etmek, örneğin bir tür tanımlama sistemi;[24]
Kontrol süreçleri, örneğin bir endüstriyel robot;
Olayların tespit edilmesi, örneğin görsel gözetim veya kişi sayımı, örneğin restoran endüstrisinde;
Etkileşim, örneğin bilgisayar-insan etkileşimi için bir cihaza girdi olarak;
Nesneleri veya ortamları modelleme, örneğin tıbbi görüntü analizi veya topografik modelleme;
Navigasyon, örneğin otonom bir araç veya mobil robot ile;
Bilgilerin düzenlenmesi, örneğin, görüntü veritabanlarının ve görüntü dizilerinin indekslenmesi için.
Artırılmış Gerçeklik deneyimlerine olanak sağlamak için yüzeyleri veya düzlemleri 3B koordinatlarda izleme.

İlaç

En belirgin uygulama alanlarından biri, bir hastayı teşhis etmek için görüntü verilerinden bilgilerin çıkarılmasıyla karakterize edilen tıbbi bilgisayar görüşü veya tıbbi görüntü işlemedir. Buna bir örnek, tümörlerin, arteriyosklerozun veya diğer habis değişikliklerin saptanmasıdır; organ boyutları, kan akışı vb. ölçümleri başka bir örnektir. Aynı zamanda yeni bilgiler sağlayarak tıbbi araştırmaları destekler: örneğin beynin yapısı veya tıbbi tedavilerin kalitesi hakkında. Tıbbi alandaki bilgisayarla görme uygulamaları, gürültünün etkisini azaltmak için insanlar tarafından yorumlanan görüntülerin (örneğin, ultrasonik görüntüler veya X-ışını görüntüleri) iyileştirilmesini de içerir.

Makine vizyonu

Bilgisayarlı görüde ikinci bir uygulama alanı, bir üretim sürecini desteklemek amacıyla bilgilerin çıkarıldığı, bazen yapay görme olarak adlandırılan endüstridir. Bir örnek, kusurları bulmak için ayrıntıların veya nihai ürünlerin otomatik olarak denetlendiği kalite kontroldür. Bu tür denetim için en yaygın alanlardan biri, bir bilgisayar çipinin kullanılamaz bir şekilde piyasaya çıkmasını önlemek için her bir Gofret’in ölçüldüğü ve yanlışlıklar veya kusurlar açısından incelendiği Gofret endüstrisidir. Başka bir örnek, bir robot kolu tarafından alınacak ayrıntıların konumu ve yönünün ölçülmesidir. Yapay görme, tarımsal işlemlerde, istenmeyen gıda maddelerini toplu malzemeden çıkarmak için yoğun bir şekilde kullanılır; bu işlem, optik ayırma adı verilen bir işlemdir.[25]

Askeri
Askeri uygulamalar muhtemelen bilgisayar görüşünün en geniş alanlarından biridir[kaynak belirtilmeli]. Bariz örnekler, düşman askerlerinin veya araçlarının tespiti ve füze yönlendirmesidir. Füze güdümü için daha gelişmiş sistemler, füzeyi belirli bir hedef yerine bir alana gönderir ve hedef seçimi, yerel olarak elde edilen görüntü verilerine dayanarak füze bölgeye ulaştığında yapılır. “Savaş alanı farkındalığı” gibi modern askeri kavramlar, görüntü sensörleri de dahil olmak üzere çeşitli sensörlerin, stratejik kararları desteklemek için kullanılabilecek bir savaş sahnesi hakkında zengin bir bilgi seti sağladığını ima eder. Bu durumda, karmaşıklığı azaltmak ve güvenilirliği artırmak için birden çok sensörden gelen bilgileri birleştirmek için verilerin otomatik olarak işlenmesi kullanılır.

Otonom araçlar

Daha yeni uygulama alanlarından biri, dalgıçlar, kara tabanlı araçlar (tekerlekli küçük robotlar, arabalar veya kamyonlar), hava araçları ve insansız hava araçları (İHA) içeren otonom araçlardır. Özerklik düzeyi, tamamen otonom (insansız) araçlardan bilgisayar görüşü tabanlı sistemlerin bir sürücüyü veya pilotu çeşitli durumlarda desteklediği araçlara kadar değişir. Tam otonom araçlar tipik olarak navigasyon için, örneğin nerede olduklarını bilmek veya çevrelerini haritalamak (SLAM), engelleri tespit etmek ve/veya otomatik olarak seyir güvenliğini sağlamak için bilgisayar görüşünü kullanır.[26] Orman yangınlarını arayan bir İHA gibi belirli göreve özgü olayları tespit etmek için de kullanılabilir. Destekleyici sistemlere örnek olarak arabalardaki engel uyarı sistemleri ve uçakların otonom iniş sistemleri verilebilir. Birçok otomobil üreticisi otomobillerin otonom sürüşü için sistemler ortaya koydu ancak bu teknoloji henüz piyasaya sürülebilecek seviyeye gelmedi. Keşif görevleri veya füze rehberliği için gelişmiş füzelerden İHA’lara kadar çok sayıda askeri otonom araç örneği var. Uzay araştırmaları, NASA’nın Curiosity ve CNSA’nın Yutu-2 gezgini gibi bilgisayar görüşü kullanan otonom araçlarla zaten yapılıyor.

Dokunsal geri dönüş

Kauçuk ve silikon gibi malzemeler, mikro dalgalanmaları algılama ve robotik elleri kalibre etme gibi uygulamalara izin veren sensörler oluşturmak için kullanılıyor. Bir parmağın üzerine yerleştirilebilen bir kalıp oluşturmak için kauçuk kullanılabilir, bu kalıbın içinde birden fazla gerinim ölçer olacaktır. Parmak kalıbı ve sensörler daha sonra bir dizi lastik pim içeren küçük bir lastik levhanın üzerine yerleştirilebilir. Bir kullanıcı daha sonra parmak kalıbını takabilir ve bir yüzeyi izleyebilir. Bir bilgisayar daha sonra gerinim ölçerlerden gelen verileri okuyabilir ve bir veya daha fazla pimin yukarı doğru itilip itilmediğini ölçebilir. Bir pim yukarı doğru itiliyorsa, bilgisayar bunu yüzeydeki bir kusur olarak algılayabilir. Bu tür bir teknoloji, çok geniş bir yüzeydeki kusurlarla ilgili doğru verileri almak için kullanışlıdır.[27] Bu parmak kalıbı sensörünün başka bir varyasyonu, silikon içinde asılı bir kamera içeren sensörlerdir. Silikon, kameranın dış çevresinde bir kubbe oluşturur ve silikonun içine gömülü, eşit aralıklı nokta işaretleridir. Bu kameralar daha sonra bilgisayarın son derece hassas dokunsal verileri almasına izin vermek için robotik eller gibi cihazlara yerleştirilebilir.[28]

Diğer uygulama alanları şunları içerir:

Sinema ve yayın için görsel efekt oluşturma desteği, örneğin kamera izleme (maç taşıma).
Gözetim.
Sürücü uyuşukluğu algılama[29][30][31]
Biyolojik bilimlerde organizmaları izleme ve sayma[32]

Tipik görevler

Yukarıda açıklanan uygulama alanlarının her biri, bir dizi bilgisayarlı görü görevi kullanır; çeşitli yöntemler kullanılarak çözülebilen az çok iyi tanımlanmış ölçüm sorunları veya işleme sorunları. Tipik bilgisayarla görme görevlerinin bazı örnekleri aşağıda sunulmuştur.

Bilgisayarla görme görevleri, dijital görüntüleri elde etme, işleme, analiz etme ve anlama yöntemlerini ve örneğin karar biçimlerinde sayısal veya sembolik bilgi üretmek için gerçek dünyadan yüksek boyutlu verilerin çıkarılmasını içerir.[3][4] [5][6] Bu bağlamda anlamak, görsel imgelerin (retinanın girdisi), diğer düşünce süreçleriyle arayüz oluşturabilen ve uygun eylemi ortaya çıkarabilen dünyanın tanımlarına dönüştürülmesi anlamına gelir. Bu görüntü anlayışı, geometri, fizik, istatistik ve öğrenme teorisinin yardımıyla oluşturulmuş modeller kullanılarak görüntü verilerinden sembolik bilgilerin çözülmesi olarak görülebilir.[33]

Tanıma

Bilgisayar görüşü, görüntü işleme ve makine görüşündeki klasik problem, görüntü verilerinin belirli bir nesne, özellik veya aktivite içerip içermediğini belirlemektir. Tanıma probleminin farklı çeşitleri literatürde açıklanmıştır.[34]

Nesne tanıma (nesne sınıflandırması olarak da adlandırılır) – bir veya birkaç önceden belirlenmiş veya öğrenilmiş nesne veya nesne sınıfı, genellikle görüntüdeki 2B konumları veya sahnedeki 3B pozlarıyla birlikte tanınabilir. Blippar, Google Goggles ve LikeThat, bu işlevi gösteren bağımsız programlar sağlar.
Tanımlama – bir nesnenin tek bir örneği tanınır. Örnekler, belirli bir kişinin yüzünün veya parmak izinin tanımlanmasını, el yazısı rakamların tanımlanmasını veya belirli bir aracın kimliğini içerir.
Algılama – görüntü verileri belirli bir koşul için taranır. Örnekler, tıbbi görüntülerde olası anormal hücrelerin veya dokuların tespitini veya otomatik yol geçiş ücreti sisteminde bir aracın tespitini içerir. Nispeten basit ve hızlı hesaplamalara dayalı algılama bazen, doğru bir yorum elde etmek için hesaplama açısından daha zorlu tekniklerle daha fazla analiz edilebilen ilginç görüntü verilerinin daha küçük bölgelerini bulmak için kullanılır.

Şu anda, bu tür görevler için en iyi algoritmalar evrişimli sinir ağlarına dayanmaktadır. Yeteneklerinin bir örneği, ImageNet Büyük Ölçekli Görsel Tanıma Yarışmasında verilmiştir; bu, yarışmada kullanılan milyonlarca görüntü ve 1000 nesne sınıfı ile nesne sınıflandırması ve tespitinde bir ölçüttür.[35] Evrişimli sinir ağlarının ImageNet testlerindeki performansı artık insanlarınkine yakın.[35] En iyi algoritmalar, bir çiçeğin gövdesindeki küçük bir karınca veya elinde tüy kalem tutan bir kişi gibi küçük veya ince nesnelerle hâlâ mücadele etmektedir. Ayrıca filtrelerle bozulan görüntülerde de sorun yaşıyorlar (modern dijital kameralarda giderek yaygınlaşan bir durum). Aksine, bu tür görüntüler insanları nadiren rahatsız eder. Bununla birlikte, insanlar başka sorunlarla sorun yaşama eğilimindedir. Örneğin, nesneleri belirli bir köpek türü veya kuş türü gibi ayrıntılı sınıflara ayırmada iyi değiller, oysa evrişimli sinir ağları bunu kolaylıkla hallediyor.[kaynak belirtilmeli]

Tanımaya dayalı birkaç özel görev vardır, örneğin:

İçerik tabanlı görüntü alma – belirli bir içeriğe sahip daha büyük bir görüntü kümesindeki tüm görüntüleri bulma. İçerik, farklı şekillerde belirtilebilir, örneğin, ters görüntü arama teknikleri kullanılarak bir hedef görüntüye göre benzerlik açısından (bana görüntü X’e benzer tüm görüntüleri verin) veya metin girişi olarak verilen üst düzey arama kriterleri açısından. (çok sayıda ev içeren, kışın çekilmiş ve içinde araba olmayan tüm resimleri bana verin).

Poz tahmini – belirli bir nesnenin kameraya göre konumunu veya yönünü tahmin etme. Bu teknik için örnek bir uygulama, bir montaj hattı durumunda bir taşıma bandından nesneleri alırken veya bir çöp kutusundan parçaları toplarken bir robot koluna yardımcı olabilir.
Optik karakter tanıma (OCR) – genellikle metni düzenlemeye veya indekslemeye daha uygun bir formatta (örn. ASCII) kodlamak amacıyla, basılı veya el yazısı metnin görüntülerindeki karakterleri tanımlama.
2B kod okuma – veri matrisi ve QR kodları gibi 2B kodların okunması.
Yüz tanıma – dijital görüntülerdeki veya video çerçevelerindeki yüzlerin bir yüz veri tabanıyla eşleştirilmesini sağlayan bir teknoloji; bu teknoloji artık cep telefonu yüz kilidi, akıllı kapı kilitleme vb. için yaygın olarak kullanılıyor.[36]
Şekil Tanıma Teknolojisi (SRT), insanları (baş ve omuz modelleri) nesnelerden ayıran insan sayma sistemlerinde

Hareket analizi

Çeşitli görevler, görüntüdeki veya 3B sahnedeki veya hatta görüntüleri üreten kameranın her noktasındaki hızın bir tahminini üretmek için bir görüntü dizisinin işlendiği hareket tahminiyle ilgilidir. Bu tür görevlere örnekler:

Egomotion – kamera tarafından üretilen bir görüntü dizisinden kameranın 3B katı hareketini (döndürme ve öteleme) belirleme.
İzleme – görüntü dizisindeki (genellikle) daha küçük ilgi noktaları veya nesnelerin (ör. araçlar, nesneler, insanlar veya diğer organizmalar[32]) hareketlerini takip etme. Yüksek çalışan makinelerin çoğu bu şekilde izlenebildiğinden, bunun çok geniş endüstri uygulamaları vardır.
Optik akış – görüntüdeki her nokta için, bu noktanın görüntü düzlemine göre nasıl hareket ettiğini, yani görünen hareketini belirlemek için. Bu hareket, hem karşılık gelen 3B noktanın sahnede nasıl hareket ettiğinin hem de kameranın sahneye göre nasıl hareket ettiğinin bir sonucudur.

Sahne rekonstrüksiyonu

Bir sahnenin bir veya (tipik olarak) daha fazla görüntüsü veya bir video verildiğinde, sahne rekonstrüksiyonu sahnenin 3B modelini hesaplamayı amaçlar. En basit durumda, model bir dizi 3B nokta olabilir. Daha sofistike yöntemler, eksiksiz bir 3B yüzey modeli üretir. Hareket veya tarama gerektirmeyen 3 boyutlu görüntülemenin ve ilgili işleme algoritmalarının ortaya çıkışı, bu alanda hızlı ilerlemeler sağlıyor. Izgara tabanlı 3B algılama, birden fazla açıdan 3B görüntüler elde etmek için kullanılabilir. Algoritmalar artık birden çok 3B görüntüyü nokta bulutları ve 3B modeller halinde birleştirmek için kullanılabilir.[20]
Görüntü restorasyonu
Görüntü restorasyonunun amacı görüntülerdeki gürültünün (sensör gürültüsü, hareket bulanıklığı vb.) giderilmesidir. Gürültü giderme için mümkün olan en basit yaklaşım, alçak geçiren filtreler veya medyan filtreler gibi çeşitli filtre türleridir. Daha sofistike yöntemler, onları gürültüden ayırmak için yerel görüntü yapılarının nasıl göründüğüne dair bir model varsayar. Önce görüntü verilerini çizgiler veya kenarlar gibi yerel görüntü yapıları açısından analiz ederek ve ardından analiz adımındaki yerel bilgilere dayalı olarak filtrelemeyi kontrol ederek, daha basit yaklaşımlara kıyasla genellikle daha iyi bir gürültü giderme düzeyi elde edilir.

Sistem yöntemleri

Bir bilgisayarlı görü sisteminin organizasyonu büyük ölçüde uygulamaya bağlıdır. Bazı sistemler, belirli bir ölçüm veya algılama problemini çözen bağımsız uygulamalardır, diğerleri ise örneğin mekanik aktüatörlerin kontrolü, planlama, bilgi veritabanları, insan- makine arabirimleri, vb. Bir bilgisayarlı görü sisteminin özel uygulaması ayrıca, işlevselliğinin önceden belirlenmiş olup olmadığına veya işletim sırasında bir kısmının öğrenilip değiştirilemeyeceğine de bağlıdır. Birçok işlev uygulamaya özeldir. Bununla birlikte, birçok bilgisayarlı görü sisteminde bulunan tipik işlevler vardır.

Görüntü elde etme – Çeşitli ışığa duyarlı kamera türlerinin yanı sıra menzil sensörleri, tomografi cihazları, radar, ultrasonik kameralar vb. içeren bir veya birkaç görüntü sensörü tarafından dijital bir görüntü üretilir. Sensörün türüne bağlı olarak, ortaya çıkan görüntü verileri, sıradan bir 2B görüntü, bir 3B hacim veya bir görüntü dizisidir. Piksel değerleri tipik olarak bir veya birkaç spektral banttaki (gri görüntüler veya renkli görüntüler) ışık yoğunluğuna karşılık gelir, ancak derinlik, sonik veya elektromanyetik dalgaların soğurulması veya yansıması veya nükleer manyetik rezonans gibi çeşitli fiziksel ölçülerle de ilişkili olabilir. [25]
Ön işleme – Belirli bir bilgi parçasını çıkarmak için görüntü verilerine bir bilgisayarla görme yöntemi uygulanmadan önce, yöntemin ima ettiği belirli varsayımları karşıladığından emin olmak için genellikle verilerin işlenmesi gerekir. Örnekler:
Görüntü koordinat sisteminin doğru olduğundan emin olmak için yeniden örnekleme.
Sensör gürültüsünün yanlış bilgi vermemesini sağlamak için gürültü azaltma.
İlgili bilgilerin algılanabilmesini sağlamak için kontrast geliştirme.
Görüntü yapılarını yerel olarak uygun ölçeklerde geliştirmek için alan temsilini ölçeklendirin.
Özellik çıkarma – Çeşitli karmaşıklık düzeylerindeki görüntü özellikleri, görüntü verilerinden çıkarılır.[25] Bu tür özelliklerin tipik örnekleri şunlardır:
Çizgiler, kenarlar ve çıkıntılar.
Köşeler, lekeler veya noktalar gibi yerelleştirilmiş ilgi noktaları.

Daha karmaşık özellikler doku, şekil veya hareketle ilgili olabilir.

Tespit/segmentasyon – İşlemenin bir noktasında, görüntünün hangi noktalarının veya bölgelerinin ileri işleme için ilgili olduğuna dair bir karar verilir.[25] Örnekler:
Belirli bir ilgi noktaları kümesinin seçimi.
Belirli bir ilgilenilen nesneyi içeren bir veya daha fazla görüntü bölgesinin segmentasyonu.
Görüntünün ön plan, nesne grupları, tek nesneler veya göze çarpan nesne[37] parçalarından (uzaysal-takson sahne hiyerarşisi olarak da anılır)[38] oluşan iç içe geçmiş sahne mimarisine ayrılması, görsel belirginlik ise genellikle uzamsal ve zamansal dikkat olarak uygulanır.
Zamansal semantik sürekliliğini korurken, bir veya daha fazla videonun bir dizi çerçeve başına ön plan maskesine bölünmesi veya ortak bölümlenmesi.[39][40]
Üst düzey işleme – Bu adımda girdi tipik olarak küçük bir veri kümesidir, örneğin bir noktalar kümesi veya belirli bir nesneyi içerdiği varsayılan bir görüntü bölgesi.[25] Kalan işleme, örneğin aşağıdakilerle ilgilenir:
Verilerin model tabanlı ve uygulamaya özel varsayımları karşıladığının doğrulanması.
Nesne duruşu veya nesne boyutu gibi uygulamaya özgü parametrelerin tahmini.
Görüntü tanıma – algılanan bir nesneyi farklı kategorilere ayırma.
Görüntü kaydı – aynı nesnenin iki farklı görünümünün karşılaştırılması ve birleştirilmesi.
Karar verme Başvuru için gerekli nihai kararın verilmesi[25] Örneğin:
Otomatik denetim uygulamalarında başarılı/başarısız.
Tanıma uygulamalarında eşleşme/eşleşmeme.
Tıbbi, askeri, güvenlik ve tanıma uygulamalarında daha fazla insan incelemesi için işaretleyin.

Görüntü anlama sistemleri

Görüntü anlama sistemleri (IUS), aşağıdaki gibi üç soyutlama düzeyi içerir: düşük düzey, kenarlar, doku öğeleri veya bölgeler gibi görüntü ilkellerini içerir; ara seviye sınırları, yüzeyleri ve hacimleri içerir; ve yüksek seviye nesneleri, sahneleri veya olayları içerir. Bu gereksinimlerin çoğu, tamamen daha fazla araştırma için konulardır.

Bu seviyeler için IUS’un tasarımındaki temsil gereklilikleri şunlardır: prototipik kavramların temsili, kavram organizasyonu, uzamsal bilgi, zamansal bilgi, ölçekleme ve karşılaştırma ve farklılaştırma yoluyla açıklama.

Çıkarım, şu anda bilinen gerçeklerden açıkça temsil edilmeyen yeni gerçeklerin türetilmesi sürecini ifade ederken, kontrol, işlemenin belirli bir aşamasında birçok çıkarım, arama ve eşleştirme tekniğinden hangisinin uygulanması gerektiğini seçen süreci ifade eder. IUS için çıkarım ve kontrol gereksinimleri şunlardır: arama ve hipotez aktivasyonu, eşleştirme ve hipotez testi, beklentilerin oluşturulması ve kullanımı, dikkatin değiştirilmesi ve odaklanması, inancın kesinliği ve gücü, çıkarım ve hedef tatmini.[41]

Donanım

Pek çok çeşit bilgisayarlı görü sistemi vardır; ancak hepsi şu temel unsurları içerir: bir güç kaynağı, en az bir görüntü alma cihazı (kamera, ccd vb.), bir işlemci ve kontrol ve iletişim kabloları veya bir tür kablosuz ara bağlantı mekanizması. Ek olarak, pratik bir görüş sistemi, sistemi izlemek için bir ekranın yanı sıra bir yazılım içerir. İç mekanlar için görüş sistemleri, çoğu endüstriyel olanlarda olduğu gibi, bir aydınlatma sistemi içerir ve kontrollü bir ortama yerleştirilebilir. Ayrıca tamamlanmış bir sistem, kamera destekleri, kablolar ve konektörler gibi birçok aksesuar içerir.

Bilgisayarlı görü sistemlerinin çoğu, bir sahneyi saniyede en fazla 60 karelik (genellikle çok daha yavaş) kare hızlarında pasif olarak görüntüleyen görünür ışıklı kameralar kullanır.

Birkaç bilgisayarlı görü sistemi, yapılandırılmış ışık 3B tarayıcılar, termografik kameralar, hiperspektral görüntüleyiciler, radar görüntüleme, lidar tarayıcılar, manyetik rezonans görüntüleri, yandan taramalı sonar gibi aktif aydınlatma veya görünür ışıktan veya her ikisinden başka bir şeyle görüntü toplama donanımı kullanır. , sentetik açıklıklı sonar vb.

Geleneksel yayın ve tüketici video sistemleri saniyede 30 kare hızında çalışırken, dijital sinyal işleme ve tüketici grafik donanımındaki gelişmeler, gerçek zamanlı sistemler için yüksek hızlı görüntü elde etmeyi, işlemeyi ve görüntülemeyi mümkün kıldı. saniyede binlerce kare. Robotik uygulamalar için hızlı, gerçek zamanlı video sistemleri kritik öneme sahiptir ve genellikle belirli algoritmalar için gereken işlemeyi basitleştirebilir. Yüksek hızlı bir projektörle birleştirildiğinde hızlı görüntü alma, 3B ölçüm ve özellik izlemenin gerçekleştirilmesine olanak tanır.[42]

Egocentric görüş sistemleri, otomatik olarak birinci şahıs bakış açısıyla fotoğraf çeken giyilebilir bir kameradan oluşur.

2016 itibariyle, görüntü işleme birimleri, bu rolde CPU’ları ve grafik işleme birimlerini (GPU’lar) tamamlamak için yeni bir işlemci sınıfı olarak ortaya çıkıyor.[43]

Kaynaklar:
https://en.wikipedia.org/wiki/Computer_vision
https://en.wikipedia.org/wiki/Computer_vision#/media/File:DenseCap_(Johnson_et_al.,_2016)_(cropped).png

Wiki References
1)Dana H. Ballard; Christopher M. Brown (1982). Computer Vision. Prentice Hall. ISBN 978-0-13-165316-0.
2)Huang, T. (1996-11-19). Vandoni, Carlo, E (ed.). Computer Vision : Evolution And Promise (PDF). 19th CERN School of Computing. Geneva: CERN. pp. 21–25. doi:10.5170/CERN-1996-008.21. ISBN 978-9290830955. Archived (PDF) from the original on 2018-02-07.
3)Reinhard Klette (2014). Concise Computer Vision. Springer. ISBN 978-1-4471-6320-6.
4)Linda G. Shapiro; George C. Stockman (2001). Computer Vision. Prentice Hall. ISBN 978-0-13-030796-5.
5)Tim Morris (2004). Computer Vision and Image Processing. Palgrave Macmillan. ISBN 978-0-333-99451-1.
6)Bernd Jähne; Horst Haußecker (2000). Computer Vision and Applications, A Guide for Students and Practitioners. Academic Press. ISBN 978-0-13-085198-7.
7)Milan Sonka; Vaclav Hlavac; Roger Boyle (2008). Image Processing, Analysis, and Machine Vision. Thomson. ISBN 978-0-495-08252-1.
8)http://www.bmva.org/visionoverview Archived 2017-02-16 at the Wayback Machine The British Machine Vision Association and Society for Pattern Recognition Retrieved February 20, 2017
9)Murphy, Mike (13 April 2017). “Star Trek’s “tricorder” medical scanner just got closer to becoming a reality”.
10)Richard Szeliski (30 September 2010). Computer Vision: Algorithms and Applications. Springer Science & Business Media. pp. 10–16. ISBN 978-1-84882-935-0.
11)Papert, Seymour (1966-07-01). “The Summer Vision Project”. MIT AI Memos (1959 – 2004). hdl:1721.1/6125.
12)Margaret Ann Boden (2006). Mind as Machine: A History of Cognitive Science. Clarendon Press. p. 781. ISBN 978-0-19-954316-8.
13)Takeo Kanade (6 December 2012). Three-Dimensional Machine Vision. Springer Science & Business Media. ISBN 978-1-4613-1981-8.
14)Nicu Sebe; Ira Cohen; Ashutosh Garg; Thomas S. Huang (3 June 2005). Machine Learning in Computer Vision. Springer Science & Business Media. ISBN 978-1-4020-3274-5.
15)William Freeman; Pietro Perona; Bernhard Scholkopf (2008). “Guest Editorial: Machine Learning for Computer Vision”. International Journal of Computer Vision. 77 (1): 1. doi:10.1007/s11263-008-0127-7. ISSN 1573-1405.
16)LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). “Deep Learning”. Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
17)Jiao, Licheng; Zhang, Fan; Liu, Fang; Yang, Shuyuan; Li, Lingling; Feng, Zhixi; Qu, Rong (2019). “A Survey of Deep Learning-Based Object Detection” (PDF). IEEE Access. 7: 128837–128868. arXiv:1907.09408. doi:10.1109/ACCESS.2019.2939201. S2CID 198147317. Archived (PDF) from the original on 2021-01-19.
18)Steger, Carsten; Markus Ulrich; Christian Wiedemann (2018). Machine Vision Algorithms and Applications (2nd ed.). Weinheim: Wiley-VCH. p. 1. ISBN 978-3-527-41365-2. Retrieved 2018-01-30.
19)Murray, Don, and Cullen Jennings. “Stereo vision-based mapping and navigation for mobile robots.” Proceedings of International Conference on Robotics and Automation. Vol. 2. IEEE, 1997.
20)Soltani, A. A.; Huang, H.; Wu, J.; Kulkarni, T. D.; Tenenbaum, J. B. (2017). “Synthesizing 3D Shapes via Modeling Multi-View Depth Maps and Silhouettes With Deep Generative Networks”. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 1511–1519. doi:10.1109/CVPR.2017.269. hdl:1721.1/126644. ISBN 978-1-5386-0457-1. S2CID 31373273.
21)Turek, Fred (June 2011). “Machine Vision Fundamentals, How to Make Robots See”. NASA Tech Briefs Magazine. 35 (6). pages 60–62
22)”The Future of Automated Random Bin Picking”.
23)Chervyakov, N. I.; Lyakhov, P. A.; Deryabin, M. A.; Nagornov, N. N.; Valueva, M. V.; Valuev, G. V. (2020). “Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network”. Neurocomputing. 407: 439–453. doi:10.1016/j.neucom.2020.04.018. S2CID 219470398. “Convolutional neural networks (CNNs) represent deep learning architectures that are currently used in a wide range of applications, including computer vision, speech recognition, identification of albuminous sequences in bioinformatics, production control, time series analysis in finance, and many others.”
24)Wäldchen, Jana; Mäder, Patrick (2017-01-07). “Plant Species Identification Using Computer Vision Techniques: A Systematic Literature Review”. Archives of Computational Methods in Engineering. 25 (2): 507–543. doi:10.1007/s11831-016-9206-z. ISSN 1134-3060. PMC 6003396. PMID 29962832.
25)E. Roy Davies (2005). Machine Vision: Theory, Algorithms, Practicalities. Morgan Kaufmann. ISBN 978-0-12-206093-9.
26)Kakaletsis, Efstratios; Symeonidis, Charalampos; Tzelepi, Maria; Mademlis, Ioannis; Tefas, Anastasios; Nikolaidis, Nikos; Pitas, Ioannis (2021). “Computer Vision for Autonomous UAV Flight Safety: An Overview and a Vision-based Safe Landing Pipeline Example”. ACM Computing Surveys. New York, NY: ACM. 54 (9): 1–37. doi:10.1145/3472288. S2CID 241273504.
27)Ando, Mitsuhito; Takei, Toshinobu; Mochiyama, Hiromi (2020-03-03). “Rubber artificial skin layer with flexible structure for shape estimation of micro-undulation surfaces”. ROBOMECH Journal. 7 (1): 11. doi:10.1186/s40648-020-00159-0. ISSN 2197-4225.
28)Choi, Seung-hyun; Tahara, Kenji (2020-03-12). “Dexterous object manipulation by a multi-fingered robotic hand with visual-tactile fingertip sensors”. ROBOMECH Journal. 7 (1): 14. doi:10.1186/s40648-020-00162-5. ISSN 2197-4225.
29)Garg, Hitendra (2020-02-29). “Drowsiness Detection of a Driver using Conventional Computer Vision Application”. 2020 International Conference on Power Electronics & IoT Applications in Renewable Energy and Its Control (PARC): 50–53. doi:10.1109/PARC49193.2020.236556. ISBN 978-1-7281-6575-2. S2CID 218564267.
30)Hasan, Fudail; Kashevnik, Alexey (2021-05-14). “State-of-the-Art Analysis of Modern Drowsiness Detection Algorithms Based on Computer Vision”. 2021 29th Conference of Open Innovations Association (FRUCT): 141–149. doi:10.23919/FRUCT52173.2021.9435480. ISBN 978-952-69244-5-8. S2CID 235207036.
31)Balasundaram, A; Ashokkumar, S; Kothandaraman, D; kora, SeenaNaik; Sudarshan, E; Harshaverdhan, A (2020-12-01). “Computer vision based fatigue detection using facial parameters”. IOP Conference Series: Materials Science and Engineering. 981 (2): 022005. Bibcode:2020MS&E..981b2005B. doi:10.1088/1757-899x/981/2/022005. ISSN 1757-899X. S2CID 230639179.
32)Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (2018). “trackdem: Automated particle tracking to obtain population counts and size distributions from videos in r”. Methods in Ecology and Evolution. 9 (4): 965–973. doi:10.1111/2041-210X.12975. ISSN 2041-210X.
33)David A. Forsyth; Jean Ponce (2003). Computer Vision, A Modern Approach. Prentice Hall. ISBN 978-0-13-085198-7.
34)Forsyth, David; Ponce, Jean (2012). Computer vision: a modern approach. Pearson.
35)Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; Berg, Alexander C. (December 2015). “ImageNet Large Scale Visual Recognition Challenge”. International Journal of Computer Vision. 115 (3): 211–252. doi:10.1007/s11263-015-0816-y. hdl:1721.1/104944. ISSN 0920-5691. S2CID 2930547.
36)Quinn, Arthur (2022-10-09). “AI Image Recognition: Inevitable Trending of Modern Lifestyle”. TopTen.ai. Retrieved 2022-12-23.
37)A. Maity (2015). “Improvised Salient Object Detection and Manipulation”. arXiv:1511.02999 [cs.CV].
38)Barghout, Lauren. “Visual Taxometric Approach to Image Segmentation Using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions.” Information Processing and Management of Uncertainty in Knowledge-Based Systems. Springer International Publishing, 2014.
39)Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). “Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks” (PDF). IEEE Transactions on Image Processing. 27 (12): 5840–5853. Bibcode:2018ITIP…27.5840L. doi:10.1109/tip.2018.2859622. ISSN 1057-7149. PMID 30059300. S2CID 51867241. Archived from the original (PDF) on 2018-09-07. Retrieved 2018-09-14.
40)Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). “Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation” (PDF). Sensors. 18 (5): 1657. Bibcode:2018Senso..18.1657W. doi:10.3390/s18051657. ISSN 1424-8220. PMC 5982167. PMID 29789447. Archived (PDF) from the original on 2018-09-07.
41)Shapiro, Stuart C. (1992). Encyclopedia of Artificial Intelligence, Volume 1. New York: John Wiley & Sons, Inc. pp. 643–646. ISBN 978-0-471-50306-4.
42)Kagami, Shingo (2010). “High-speed vision systems and projectors for real-time perception of the world”. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition – Workshops. IEEE Computer Society Conference on Computer Vision and Pattern Recognition – Workshops. Vol. 2010. pp. 100–107. doi:10.1109/CVPRW.2010.5543776. ISBN 978-1-4244-7029-7. S2CID 14111100.
43)Seth Colaner (January 3, 2016). “A Third Type Of Processor For VR/AR: Movidius’ Myriad 2 VPU”. www.tomshardware.com.

Bilgisayar Görüşü (Computer Vision)

İlgili alanlar

Uygulamalar

İlgili Yazılar

Diller Arası Bilgi Erişimi (Cross-Language Information Retrieval)Diller Arası Bilgi Erişimi (Cross-Language Information Retrieval)

Derin Öğrenme Yazılımlarının KarşılaştırılmasıDerin Öğrenme Yazılımlarının Karşılaştırılması

Yapay Sinir AğlarıYapay Sinir Ağları