Belge Sınıflandırması (Document Classification)

Belge sınıflandırması veya belge sınıflandırması, kütüphane bilimi, bilgi bilimi ve bilgisayar biliminde bir sorundur. Görev, bir belgeyi bir veya daha fazla sınıfa veya kategoriye atamaktır. Bu, “el ile” (veya “entelektüel olarak”) veya algoritmik olarak yapılabilir. Belgelerin entelektüel sınıflandırması çoğunlukla kütüphane biliminin alanı olurken, belgelerin algoritmik sınıflandırması daha çok bilgi bilimi ve bilgisayar bilimlerindedir. Ancak sorunlar örtüşüyor ve bu nedenle belge sınıflandırması üzerine disiplinler arası araştırmalar var.

Sınıflandırılacak belgeler metin, resim, müzik vb. olabilir. Her tür belgenin kendine özgü sınıflandırma sorunları vardır. Aksi belirtilmediğinde, metin sınıflandırması ima edilir.

Belgeler konularına göre veya diğer özelliklerine göre (belge türü, yazarı, basım yılı vb.) sınıflandırılabilir. Bu makalenin geri kalanında sadece konu sınıflandırması ele alınmıştır. Belgelerin konu sınıflandırmasına ilişkin iki ana felsefe vardır: içerik tabanlı yaklaşım ve istek tabanlı yaklaşım.

“İçerik tabanlı” ve “istek tabanlı” sınıflandırma

İçerik tabanlı sınıflandırma, bir belgede belirli konulara verilen ağırlığın, belgenin atandığı sınıfı belirlediği sınıflandırmadır. Örneğin, bir kitabın içeriğinin en az %20’sinin kitabın atandığı sınıfla ilgili olması, kütüphanelerde sınıflandırma için yaygın bir kuraldır.[1] Otomatik sınıflandırmada, verilen kelimelerin bir belgede görünme sayısı olabilir.

Talep yönelimli sınıflandırma (veya indeksleme), kullanıcılardan beklenen talebin belgelerin nasıl sınıflandırıldığını etkilediği sınıflandırmadır. Sınıflandırıcı kendine şunu sorar: “Bu varlık hangi tanımlayıcılar altında bulunmalı?” ve “olası tüm sorguları düşünün ve eldeki varlığın hangileriyle ilgili olduğuna karar verin” (Soergel, 1985, s. 230[2]).

İstek odaklı sınıflandırma, belirli bir kitleye veya kullanıcı grubuna yönelik sınıflandırma olabilir. Örneğin, feminist araştırmalar için bir kitaplık veya veri tabanı, belgeleri tarihsel bir kitaplıktan farklı şekilde sınıflandırabilir/dizinleyebilir. Bununla birlikte, istek odaklı sınıflandırmayı politika tabanlı sınıflandırma olarak anlamak muhtemelen daha iyidir: Sınıflandırma, bazı ideallere göre yapılır ve sınıflandırmayı yapan kitaplığın veya veritabanının amacını yansıtır. Bu şekilde, mutlaka kullanıcı çalışmalarına dayalı bir tür sınıflandırma veya indeksleme değildir. Yalnızca kullanım veya kullanıcılarla ilgili ampirik veriler uygulandığında, istek odaklı sınıflandırma, kullanıcı tabanlı bir yaklaşım olarak kabul edilmelidir.

Sınıflandırmaya karşı indeksleme

Bazen belgeleri sınıflara atamak (“sınıflandırma”) ile konuları belgelere atamak (“konu indeksleme”) arasında bir ayrım yapılır, ancak Frederick Wilfrid Lancaster’ın öne sürdüğü gibi, bu ayrım verimli değildir. “Bu terminolojik ayrımlar” diye yazıyor, “oldukça anlamsızdır ve yalnızca kafa karışıklığına neden olur” (Lancaster, 2003, s. 21[3]). Bu ayrımın tamamen yüzeysel olduğu görüşü, (cf., Aitchison, 1986,[4] 2004;[5] Broughton, 2008;[6] Riesthuis & Bliedung, 1991[7]). belge (kontrollü bir kelime dağarcığından bir belgeye bir terim atayarak) aynı zamanda o belgeyi o terim tarafından dizine eklenen belge sınıfına atamak içindir (X olarak dizine eklenen veya sınıflandırılan tüm belgeler aynı belge sınıfına aittir). Başka bir deyişle, bir belgeyi etiketlemek, onu o etiket altında indekslenen belge sınıfına atamakla aynı şeydir.

Otomatik belge sınıflandırması (ADC)

Otomatik belge sınıflandırma görevleri üç türe ayrılabilir: bazı harici mekanizmaların (insan geri bildirimi gibi) belgeler için doğru sınıflandırma hakkında bilgi sağladığı denetimli belge sınıflandırması, sınıflandırmanın yapılması gereken denetimsiz belge sınıflandırması (belge kümelemesi olarak da bilinir) tamamen harici bilgilere atıfta bulunmadan ve belgelerin bölümlerinin harici mekanizma tarafından etiketlendiği yarı denetimli belge sınıflandırması[8]. Çeşitli lisans modelleri altında çeşitli yazılım ürünleri mevcuttur.[9][10][11][12][13][14]

Teknikler

Otomatik belge sınıflandırma teknikleri şunları içerir:

Beklenti maksimizasyonu (EM)
Naive Bayes sınıflandırıcısı
tf–idf
Anında eğitilen sinir ağları
Gizli semantik indeksleme
Destek vektör makineleri (SVM)
yapay sinir ağı
K-en yakın komşu algoritmaları
ID3 veya C4.5 gibi karar ağaçları
Konsept Madenciliği
Kaba küme tabanlı sınıflandırıcı
Esnek küme tabanlı sınıflandırıcı
çoklu örnek öğrenme
Doğal dil işleme yaklaşımları

Uygulamalar

Sınıflandırma teknikleri uygulanmıştır:

spam filtreleme, E-posta spam mesajlarını meşru e-postalardan ayırmaya çalışan bir işlem
e-posta yönlendirme, genel bir adrese gönderilen bir e-postanın konuya göre belirli bir adrese veya posta kutusuna gönderilmesi[15]
dil tanımlama, bir metnin dilini otomatik olarak belirleme
tür sınıflandırması, bir metnin türünü otomatik olarak belirleme[16]
okunabilirlik değerlendirmesi, farklı yaş grupları veya okuyucu türleri için uygun materyalleri bulmak amacıyla veya daha geniş bir metin sadeleştirme sisteminin parçası olarak bir metnin
okunabilirlik derecesini otomatik olarak belirleme
duygu analizi, bir konuşmacının veya bir yazarın belirli bir konuya veya bir belgenin genel bağlamsal kutupsallığına ilişkin tutumunu belirleme.
halk sağlığı sürveyansında sosyal medyayı kullanarak sağlıkla ilgili sınıflandırma [17]
makale sıralaması, manuel literatür kürasyonu ile ilgili makalelerin seçilmesi, örneğin biyolojide manuel olarak derlenmiş ek açıklama veritabanları oluşturmak için ilk adım olarak yapıldığı gibi [18]

Kaynak:
https://en.wikipedia.org/wiki/Document_classification

Wiki Kaynaklar:
1)Library of Congress (2008). The subject headings manual. Washington, DC.: Library of Congress, Policy and Standards Division. (Sheet H 180: “Assign headings only for topics that comprise at least 20% of the work.”)
2)Soergel, Dagobert (1985). Organizing information: Principles of data base and retrieval systems. Orlando, FL: Academic Press.
3)Lancaster, F. W. (2003). Indexing and abstracting in theory and practice. Library Association, London.
4)Aitchison, J. (1986). “A classification as a source for thesaurus: The Bibliographic Classification of H. E. Bliss as a source of thesaurus terms and structure.” Journal of Documentation, Vol. 42 No. 3, pp. 160-181.
5)Aitchison, J. (2004). “Thesauri from BC2: Problems and possibilities revealed in an experimental thesaurus derived from the Bliss Music schedule.” Bliss Classification Bulletin, Vol. 46, pp. 20-26.
6)Broughton, V. (2008). “A faceted classification as the basis of a faceted terminology: Conversion of a classified structure to thesaurus format in the Bliss Bibliographic Classification (2nd Ed.).]” Axiomathes, Vol. 18 No.2, pp. 193-210.
7)Riesthuis, G. J. A., & Bliedung, St. (1991). “Thesaurification of the UDC.” Tools for knowledge organization and the human interface, Vol. 2, pp. 109-117. Index Verlag, Frankfurt.
8)Rossi, R. G., Lopes, A. d. A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. Information Processing & Management, 52(2):217–257.
9)”An Interactive Automatic Document Classification Prototype” (PDF). Archived from the original (PDF) on 2017-11-15. Retrieved 2017-11-14.
10)Interactive Automatic Document Classification Prototype Archived April 24, 2015, at the Wayback Machine
11)Document Classification – Artsyl
12)ABBYY FineReader Engine 11 for Windows
13)Classifier – Antidot
14)”3 Document Classification Methods for Tough Projects”. www.bisok.com. Retrieved 2021-08-04.
15)Stephan Busemann, Sven Schmeier and Roman G. Arens (2000). Message classification in the call center. In Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna and Robert Dale, eds., Proc. 6th Applied Natural Language Processing Conf. (ANLP’00), pp. 158-165, ACL.
16)Santini, Marina; Rosso, Mark (2008), Testing a Genre-Enabled Application: A Preliminary Assessment (PDF), BCS IRSG Symposium: Future Directions in Information Access, London, UK, pp. 54–63, archived from the original (PDF) on 2019-11-15, retrieved 2011-10-21
17)X. Dai, M. Bikdash and B. Meyer, “From social media to public health surveillance: Word embedding based clustering method for twitter classification,” SoutheastCon 2017, Charlotte, NC, 2017, pp. 1-7. doi:10.1109/SECON.2017.7925400
18)Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valencia, A (2008). “Overview of the protein-protein interaction annotation extraction task of Bio Creative II”. Genome Biology. 9 Suppl 2: S4. doi:10.1186/gb-2008-9-s2-s4. PMC 2559988. PMID 18834495.

Belge Sınıflandırması (Document Classification)

İlgili Yazılar

Konuşma İşleme (Speech Processing)Konuşma İşleme (Speech Processing)

Bilgi Gösterimi ve Muhakeme (Knowledge Representation and Reasoning)Bilgi Gösterimi ve Muhakeme (Knowledge Representation and Reasoning)

Yapay Genel ZekâYapay Genel Zekâ