Teknobot AI Bilgi Çıkarma (Information Extraction)

Bilgi Çıkarma (Information Extraction)

Bilgi çıkarma (IE), yapılandırılmamış ve/veya yarı yapılandırılmış makine tarafından okunabilir belgelerden ve diğer elektronik olarak temsil edilen kaynaklardan yapılandırılmış bilgileri otomatik olarak çıkarma görevidir. Çoğu durumda bu faaliyet, insan dilindeki metinlerin doğal dil işleme (NLP) yoluyla işlenmesiyle ilgilidir. Görüntülerden/seslerden/videodan/belgelerden otomatik açıklama ve içerik çıkarma gibi multimedya belge işlemedeki son etkinlikler, bilgi çıkarma olarak görülebilir

Sorunun zorluğu nedeniyle, IE’ye yönelik mevcut yaklaşımlar (2010 itibariyle) dar bir şekilde sınırlandırılmış alanlara odaklanmaktadır. Bir örnek, resmi ilişki ile gösterilenler gibi kurumsal birleşmelerin haber teli raporlarından çıkarılmasıdır:

Birleştir_ikisini ( firma1 , firma2 , tarih ) ,

aşağıdaki gibi bir çevrimiçi haber cümlesinden:

“Dün, New York merkezli Foo Inc., Bar Corp’u satın aldığını duyurdu.”

IE’nin geniş bir amacı, önceden yapılandırılmamış veriler üzerinde hesaplama yapılmasına izin vermektir. Daha spesifik bir amaç, mantıksal muhakemenin girdi verilerinin mantıksal içeriğine dayalı olarak çıkarımlar yapmasına izin vermektir. Yapılandırılmış veriler, kategori ve bağlama göre yorumlanan, seçilen bir hedef alandan semantik olarak iyi tanımlanmış verilerdir.

Bilgi çıkarma, metin yönetimi için iletimi, depolanması ve görüntülenmesinin ötesinde otomatik yöntemler tasarlama sorunuyla ilgilenen daha büyük bir yapbozun parçasıdır. Bilgi alma disiplini (IR)[1], büyük belge koleksiyonlarını indekslemek ve belgeleri sınıflandırmak için tipik olarak istatistiksel bir çeşniye sahip otomatik yöntemler geliştirmiştir. Diğer bir tamamlayıcı yaklaşım, görevin büyüklüğünü hesaba katarak insan dili işlemeyi modelleme problemini önemli bir başarıyla çözen doğal dil işleme (NLP) yaklaşımıdır. Hem zorluk hem de vurgu açısından IE, hem IR hem de NLP arasındaki görevlerle ilgilenir. Girdi açısından IE, her belgenin bir şablonu takip ettiği bir dizi belgenin var olduğunu varsayar, örn. diğer belgelerdekilere benzer, ancak ayrıntılarda farklılık gösteren bir şekilde bir veya daha fazla varlığı veya olayı açıklar. Bir örnek olarak, her bir makalenin bir veya daha fazla terör eylemine dayandığı varsayılan Latin Amerika terörizmiyle ilgili bir grup haber makalesini ele alalım. Ayrıca, herhangi bir IE görevi için, tek bir belgede yer alan bilgileri tutmak için bir (veya bir dizi) durum çerçeve(ler)i olan bir şablon tanımlarız. Terörizm örneği için, bir şablonun terör eyleminin failine, kurbanına ve silahına ve olayın meydana geldiği tarihe karşılık gelen yuvaları olacaktır. Bu sorun için bir IE sistemi, yalnızca bu şablondaki yuvalara karşılık gelen verileri bulmaya yetecek kadar bir saldırı makalesini “anlamak” için gereklidir.

Tarihi

Bilgi çıkarma, NLP’nin ilk günlerinde 1970’lerin sonlarına kadar uzanır.[2] 1980’lerin ortalarından kalma erken bir ticari sistem, finans tüccarlarına gerçek zamanlı finansal haberler sağlamak amacıyla Carnegie Group Inc tarafından Reuters için inşa edilen JASPER idi.[3]

1987’den başlayarak IE, bir dizi Mesaj Anlama Konferansı tarafından teşvik edildi. MUC, aşağıdaki alanlara odaklanan rekabete dayalı bir konferanstır[4]:

MUC-1 (1987), MUC-3 (1989): Deniz operasyonları mesajları.
MUC-3 (1991), MUC-4 (1992): Latin Amerika ülkelerinde terörizm.
MUC-5 (1993): Ortak girişimler ve mikroelektronik alanı.
MUC-6 (1995): Yönetim değişiklikleriyle ilgili haber makaleleri.
MUC-7 (1998): Uydu fırlatma raporları.

ABD’den önemli destek geldi Terörle olası bağlantılar için gazeteleri taramak gibi hükümet analistleri tarafından gerçekleştirilen sıradan görevleri otomatikleştirmek isteyen Savunma İleri Araştırma Projeleri Ajansı (DARPA).

Şimdiki önemi

IE’nin mevcut önemi, yapılandırılmamış formda mevcut olan artan miktarda bilgi ile ilgilidir. World Wide Web’in mucidi Tim Berners-Lee, mevcut İnternet’ten belgeler ağı olarak söz eder [5] ve içeriğin daha fazlasının bir veri ağı olarak sunulmasını savunur.[6] Bu ortaya çıkana kadar, web büyük ölçüde anlamsal meta verilerden yoksun yapılandırılmamış belgelerden oluşur. Bu belgelerde yer alan bilgiler, ilişkisel forma dönüştürme veya XML etiketleriyle işaretleme yoluyla makine işlemesi için daha erişilebilir hale getirilebilir. Bir haber veri akışını izleyen akıllı bir aracı, IE’nin yapılandırılmamış verileri mantıklı bir şeye dönüştürmesini gerektirir. IE’nin tipik bir uygulaması, doğal bir dilde yazılmış bir dizi belgeyi taramak ve çıkarılan bilgilerle bir veritabanını doldurmaktır.[7]
Görevler ve alt görevler

Metne bilgi çıkarımının uygulanması, serbest metinde bulunan bilgilerin yapılandırılmış bir görünümünü oluşturmak için metin basitleştirme sorunuyla bağlantılıdır. Genel amaç, cümleleri işlemek için makine tarafından daha kolay okunabilen bir metin oluşturmaktır. Tipik IE görevleri ve alt görevleri şunları içerir:

Şablon doldurma: Bir belgeden sabit bir dizi alan çıkarma, örn. failleri, mağdurları, zamanı vb. bir terör saldırısıyla ilgili bir gazete makalesinden.
Olay çıkarma: Bir girdi belgesi verildiğinde, sıfır çıktı veya daha fazla olay şablonu. Örneğin, bir gazete makalesi birden fazla terör saldırısını tanımlayabilir.
Bilgi Tabanı Nüfusu: Bir dizi belge verildiğinde gerçeklerden oluşan bir veri tabanını doldurun. Tipik olarak veri tabanı üçüzler biçimindedir (varlık 1, ilişki, varlık 2), örn. (Barack Obama, Eş, Michelle Obama)
Adlandırılmış varlık tanıma: bilinen varlık adlarının (kişiler ve kuruluşlar için), yer adlarının, zamansal ifadelerin ve belirli sayısal ifade türlerinin, alanla ilgili mevcut bilgileri veya diğer cümlelerden çıkarılan bilgileri kullanarak tanınması.[8] Tipik olarak tanıma görevi, çıkarılan varlığa benzersiz bir tanımlayıcı atamayı içerir. Daha basit bir görev, varlık örnekleri hakkında mevcut herhangi bir bilgiye sahip olmadan varlıkları tespit etmeyi amaçlayan varlık tespiti olarak adlandırılır. Örneğin, “M. Smith balık tutmayı sever” cümlesini işlerken, adlı varlık tespiti, “M. Smith” ifadesinin bir kişiye atıfta bulunduğunu ancak belirli bir M hakkında herhangi bir bilgiye sahip olmadan (veya kullanmadan) tespit edildiğini gösterir. Bu cümlenin bahsettiği belirli kişi olan (veya “olabilir”) Smith.
Bağıntı çözünürlüğü: metin varlıkları arasındaki bağıntı ve anaforik bağların saptanması. IE görevlerinde, bu genellikle önceden çıkarılan adlandırılmış varlıklar arasındaki bağlantıları bulmakla sınırlıdır. Örneğin, “Uluslararası İş Makineleri” ve “IBM” aynı gerçek dünya varlığını ifade eder. “M. Smith balık tutmayı sever. Ama bisiklete binmeyi sevmez” şeklindeki iki cümleyi ele alırsak, “o”nun daha önce tespit edilen kişi “M. Smith”i kastettiğini tespit etmek faydalı olacaktır.
İlişki çıkarma: varlıklar arasındaki ilişkilerin tanımlanması,[8] örneğin:
KİŞİ, ORGANİZASYON için çalışıyor (“Fatura IBM için çalışıyor” cümlesinden alınmıştır.)
LOCATION konumunda bulunan PERSON (“Bill is in France” cümlesinden alınmıştır.)
Yayın yoluyla kaybolan bir tür bilgi yapısını geri yüklemeye çalışan herhangi bir IE’ye atıfta bulunabilen yarı yapılandırılmış bilgi çıkarma, örneğin:
Tablo çıkarma: belgelerden tablo bulma ve çıkarma.[9][10]
Tablo bilgileri çıkarma : tablolardan yapılandırılmış bir şekilde bilgi çıkarmak. Bu, tablo çıkarma işleminden daha karmaşık bir görevdir, çünkü tablo çıkarma yalnızca ilk adımdır, hücrelerin, satırların, sütunların rollerini anlamak, tablo içindeki bilgileri ilişkilendirmek ve tabloda sunulan bilgileri anlamak tablo için gerekli ek görevlerdir. bilgi çıkarma. [11][12][13]
Yorum çıkarma : her cümlenin yazarı arasındaki bağlantıyı geri yüklemek için makalenin gerçek içeriğinden yorumların çıkarılması
Dil ve sözcük analizi
Terminoloji çıkarma: belirli bir derlem için ilgili terimleri bulma
Ses çıkarma
Şablon tabanlı müzik çıkarma: belirli bir repertuardan alınan bir ses sinyalinde ilgili özelliği bulma; örneğin [14], bir müzik parçasının temel ritmik bileşenini temsil etmek için vurmalı seslerin oluşumlarının zaman indeksleri çıkarılabilir.

Bu listenin kapsamlı olmadığını ve IE faaliyetlerinin tam anlamının genel olarak kabul edilmediğini ve birçok yaklaşımın daha geniş bir hedefe ulaşmak için IE’nin birden çok alt görevini birleştirdiğini unutmayın. Makine öğrenimi, istatistiksel analiz ve/veya doğal dil işleme genellikle IE’de kullanılır.

Metin olmayan belgelerle ilgili IE, araştırmalarda [ne zaman?] giderek daha ilginç bir konu haline geliyor ve multime’den çıkarılan bilgiler dia belgeleri artık metin üzerinde olduğu gibi[ne zaman?] üst düzey bir yapıda ifade edilebilir. Bu, doğal olarak, çok sayıda belge ve kaynaktan çıkarılan bilgilerin kaynaşmasına yol açar.

Web uygulamaları

IE, MUC konferanslarının odak noktası olmuştur. Bununla birlikte, Web’in yaygınlaşması, insanların çevrimiçi olarak mevcut olan muazzam miktardaki verilerle başa çıkmalarına yardımcı olan IE sistemleri geliştirme ihtiyacını yoğunlaştırdı. Çevrimiçi metinden IE gerçekleştiren sistemler, düşük maliyet, geliştirmede esneklik ve yeni alanlara kolay adaptasyon gereksinimlerini karşılamalıdır. MUC sistemleri bu kriterleri karşılamıyor. Ayrıca, yapılandırılmamış metin için gerçekleştirilen dilbilimsel analiz, çevrimiçi metinlerde bulunan HTML/XML etiketlerinden ve düzen biçimlerinden yararlanmaz. Sonuç olarak, belirli bir sayfanın içeriğini ayıklayan son derece doğru kurallar kümesi olan sarmalayıcılar kullanılarak Web üzerinde IE için dilbilimsel olarak daha az yoğun yaklaşımlar geliştirilmiştir. Paketleyicileri manuel olarak geliştirmenin, yüksek düzeyde uzmanlık gerektiren, zaman alıcı bir görev olduğu kanıtlanmıştır. Denetimli veya denetimsiz makine öğrenimi teknikleri, bu tür kuralları otomatik olarak başlatmak için kullanılmıştır.

Sarmalayıcılar, tipik olarak, ürün katalogları ve telefon rehberleri gibi yüksek düzeyde yapılandırılmış web sayfaları koleksiyonlarını yönetir. Bununla birlikte, metin türü daha az yapılandırılmış olduğunda başarısız olurlar ki bu da Web’de yaygındır. Uyarlanabilir bilgi çıkarma konusundaki son çabalar, iyi yapılandırılmış metinden neredeyse serbest metne kadar farklı metin türlerini işleyebilen IE sistemlerinin geliştirilmesini motive eder – ortak sarmalayıcıların başarısız olduğu durumlarda – karışık türler dahil. Bu tür sistemler sığ doğal dil bilgisinden yararlanabilir ve bu nedenle daha az yapılandırılmış metinlere de uygulanabilir.

Yakın tarihli[ne zaman?] bir gelişme, bir web sayfasını bir tarayıcıda oluşturmaya ve oluşturulan web sayfasındaki bölgelerin yakınlığına dayalı kurallar oluşturmaya dayanan Visual Information Extraction[15][16]’dır. Bu, görsel bir model sergileyebilen ancak HTML kaynak kodunda fark edilebilir bir model içermeyen karmaşık web sayfalarından varlıkların çıkarılmasına yardımcı olur.

Yaklaşımlar

Aşağıdaki standart yaklaşımlar artık geniş çapta kabul görmektedir:

*Elle yazılmış normal ifadeler (veya iç içe geçmiş normal ifadeler grubu)

*Sınıflandırıcıları kullanma

  • Üretken: naif Bayes sınıflandırıcısı
  • Ayrımcı: Çok terimli lojistik regresyon gibi maksimum entropi modelleri

*Sıra modelleri

  • Tekrarlayan sinir ağları
  • Gizli Markov modeli
  • Koşullu Markov modeli (CMM) / Maksimum entropi Markov modeli (MEMM)
  • Koşullu rasgele alanlar (CRF), araştırma makalelerinden[17] bilgi çıkarmaya, gezinme talimatlarını çıkarmaya[18] kadar çeşitli görevler için IE ile birlikte yaygın olarak kullanılır.

Daha önce listelenen bazı standart yaklaşımları birleştiren hibrit yaklaşımlar da dahil olmak üzere IE için çok sayıda başka yaklaşım mevcuttur.

Ücretsiz veya açık kaynaklı yazılım ve hizmetler

Metin Mühendisliği için Genel Mimari (GATE), ücretsiz bir Bilgi Çıkarma sistemi ile birlikte gelir
Apache OpenNLP, doğal dil işleme için bir Java makine öğrenimi araç setidir
OpenCalais, Thomson Reuters tarafından sağlanan otomatikleştirilmiş bir bilgi çıkarma web hizmetidir (Ücretsiz sınırlı sürüm)
Machine Learning for Language Toolkit (Mallet), bilgi ayıklama da dahil olmak üzere çeşitli doğal dil işleme görevleri için Java tabanlı bir pakettir.
DBpedia Spotlight, Java/Scala’da (ve ücretsiz web hizmetinde) açık kaynaklı bir araçtır ve adlandırılmış varlık tanıma ve ad çözümlemesi için kullanılabilir.
Natural Language Toolkit, Python programlama dili için sembolik ve istatistiksel doğal dil işlemeye (NLP) yönelik bir kitaplıklar ve programlar paketidir.
Ayrıca bkz. CRF uygulamaları


Kaynak:

https://en.wikipedia.org/wiki/Information_extraction

Wiki Kaynaklar:

1)FREITAG, DAYNE. “Machine Learning for Information Extraction in Informal Domains” (PDF). 2000 Kluwer Academic Publishers. Printed in the Netherlands.
2)Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). “Automatic Extraction of Facts from Press Releases to Generate News Stories”. Proceedings of the third conference on Applied natural language processing -. pp. 170–177. CiteSeerX 10.1.1.14.7943. doi:10.3115/974499.974531. S2CID 14746386.
3)Cowie, Jim; Wilks, Yorick (1996). Information Extraction (PDF). p. 3. CiteSeerX 10.1.1.61.6480. S2CID 10237124. Archived from the original (PDF) on 2019-02-20.
4)Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. ISBN 978-1-84564-146-7
5)”Linked Data – The Story So Far” (PDF).
6)”Tim Berners-Lee on the next Web”.
7)R. K. Srihari, W. Li, C. Niu and T. Cornell,”InfoXtract: A Customizable Intermediate Level Information Extraction Engine”,Journal of Natural Language Engineering,[dead link] Cambridge U. Press, 14(1), 2008, pp.33-69.
8)Dat Quoc Nguyen and Karin Verspoor (2019). “End-to-end neural relation extraction using deep biaffine attention”. Proceedings of the 41st European Conference on Information Retrieval (ECIR). arXiv:1812.11275. doi:10.1007/978-3-030-15712-8_47.
9)Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). “A framework for information extraction from tables in biomedical literature”. International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
10)Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester.
11)Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). “A framework for information extraction from tables in biomedical literature”. International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
12)Milosevic N, Gregson C, Hernandez R, Nenadic G (June 2016). “Disentangling the structure of tables in scientific literature”. 21st International Conference on Applications of Natural Language to Information Systems. Lecture Notes in Computer Science. 21: 162–174. doi:10.1007/978-3-319-41754-7_14. ISBN 978-3-319-41753-0. S2CID 19538141.
13)Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester.
14)A.Zils, F.Pachet, O.Delerue and F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals, Proceedings of WedelMusic, Darmstadt, Germany, 2002.
15)Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). “WYSIWYE: An Algebra for Expressing Spatial and Textual Rules for Information Extraction”. arXiv:1506.08454 [cs.CL].
16)Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). “Visual Web Information Extraction with Lixto”: 119–128. CiteSeerX 10.1.1.21.8236.
17)Peng, F.; McCallum, A. (2006). “Information extraction from research papers using conditional random fields☆”. Information Processing & Management. 42 (4): 963. doi:10.1016/j.ipm.2005.09.002.
18)Shimizu, Nobuyuki; Hass, Andrew (2006). “Extracting Frame-based Knowledge Representation from Route Instructions” (PDF). Archived from the original (PDF) on 2006-09-01. Retrieved 2010-03-27.

İlgili Yazılar