|
Bilgi, farkındalık yaratan katma değerdir. Bir kurum ya da organizasyonu farklı kılan, sahip olduğu bilgidir. Sahip olduğu bilgiyi dış dünyadan korumayı amaçlayan bir kurum öncelikle bilgisini doğru ve hızlı tasnif edebilme kabiliyetinde olmalıdır.
Daha önceki yazımızda [1] Veri Kaçağı Önleme (DLP) çözümlerinde bir ilave ya da artı değer olarak akıllı sistemlerin güvenlik derecesi sınıflandırmalarının kullanılabileceğini öngörmüştük. Bu öngörümüzü gelecekte yapılacak bir çalışma (future work) olarak nitelemiştik. Bu yazımızın konusu olan doküman sınıflandırma ve güvenlik derecesi etiketleme sınıflandırması Ulusal Elektronik ve Kriptoloji Araştırma Enstitüsü laboratuvarında gerçeklendi. Yazıda öncelikle sınıflandırmada izlenen yol, yöntem ve algoritmaları daha sonra da elde edilen sonuçları sunacağız.
Doküman sınıfladırma önceden sınıf etiketi belirli dokümanlardan eğitilen bir yapay zeka yardımıyla yeni, sınıflandırılmamış dokümanların etiketlerinin belirlenmesi işlemidir. Akademik anlamda doküman sınıflandırma çalışmaları genellikle İngilizce gazete haber setleri üzerinde yapılmıştır [2]. Türkçe gazete haberlerinin sınıflandırıldığı bir çalışma da yine mevcuttur [3].Yazımızda konu edilen çalışma kapsamında TÜBİTAK UEKAE’ye ait 222 adet doküman “Gizli – Hizmete Özel – Tasnif Dışı” etiketlerinden uygun olanıyla sınıflandırılmaktadır. Bu sınıflandırmada takip edilen yolu açıklayalım.
YÖNTEM
Önişleme aşamasında:
-
222 dokümandaki yaklaşık 2.5 milyon kelime ki bunlara “ve, ile, de, da, dahi” ve benzeri kelimeler dahil değil, bir veritabanına tekil kayıt olarak girilir.
-
Kelimeler yine UEKAE ürünü olan Zemberek [4] yardımıyla gövde ve eklerine ayrılır. Bu ayrıştırma sonucu ayrık (distinct) kelime sayısı 9000 civarıdır.
-
İstatistiksel bir dağılım aracı olan ki-kare dağılımı uygulanarak gizlilik derecesi sınıflandırması için en değerli görülen ilk 2000 kelime seçilir.
-
TF-IDF (term frequency - inverse document frequency) matrisi oluşturulur. Bu matris satırları dokümanlardan sütunları belirteç kelimelerden oluşan bir matristir. Bu durumda matrisimizin boyutu 222*2000 olarak ortaya çıkar.
Sınıflandırma aşamasında:
-
Destek vektör makineleri (SVM) kullanılarak sınıflandırma yapılır.
-
Naive Bayes (NB) kullanılarak sınıflandırma yapılır.
-
Adaptive Neuro-Fuzzy Inference System (ANFIS) kullanılarak sınıflandırma yapılır.
-
ANFIS için ayrıklaştırma yapılır.
SONUÇLAR
Çalışmamız daha önce doküman sınıflandırmada değişik alanlarda kullanılmış olan SVM ya da naive bayes gibi algoritmaların yanında hiç kullanılmamış olan ANFIS algoritmasını da doküman setine uygulamaktadır. Öncelikle alışılageldik konvansiyonel algoritmaların başarılarını izleyelim:
Tablo-1 Genel Geçer Çözümlerin Başarı Oranları
Görüldüğü üzere en iyi başarı yüzdesi yaklaşık % 90 ile destek vektör makineleri (SVM) sınıflandırıcıda elde edilmektedir. Bu sonuç Türkçe dokümanların gizlilik derecesi sınıflandırması açısından gerçekten başarılı sayılabilecek bir neticedir. Zira sistem kendisine verilen her 10 dokümandan 9 tanesini doğru sınıflandırmaktadır.
Doküman Sınıflandırmada Yeni Bir Yöntem: ANFIS
“Adaptive Neuro-Fuzzy Inference System” (ANFIS) algoritmaları öncelikle yapay öğrenmeye dayalı elektro-motor sistemlerinde kullanılmıştı. Daha sonraları algoritmanın adaptif olması ve bulanık mantığı da içermesi bulanık veri madenciliği işlemlerinde kullanılabileceği sonucunu doğurdu. Telekominikasyon dolandırıcılığı, kara para aklama tespiti gibi bazı alanlarda veri madenciliği anlamında kullanılan sistem [5] çalışmamıza konu olan doküman sınıflandırmaya uyum göstermektedir. Nitekim bu çalışmada uygulanacak gizlilik derecesi etiketleri de bulanık sonuçlar içerebilir. Yani bir doküman gizli ve hizmete özel etiketleri arasında konumlanabilir. İnceleyen uzmanın bakış açısına göre bu bulanıklık giderilir ve sınıflardan birine aktarılır.
Aşağıdaki çizelge ANFIS kullanılarak elde edilmiş sonuçları göstermektedir. Çizelgedeki mavi noktalar dokümanların alması gereken etiketleri (1=gizli 2=hizmete özel 3=tasnif dışı) kırmızı noktalar ise ANFIS sonucunda dokümanlara atanan etiketleri göstermektedir. Görüldüğü gibi sınıflandırma sonucu dokümanlara atanan değerler bulanık değerlerdir. Örneğin 9 numaralı dokümanın alması gereken değer 1 iken 1,665 değeri kendisine atanmıştır.
Şekil -1 ANFIS Algoritması Sınıflandırma Çıktıları
Bu noktada 1,665 değerinin 2’ye mi tamamlanacağı yoksa 1’e mi indirgeneceği tartışma konusudur. Bu sorun ayrıklaştırma algoritmaları ile çözülebilir. Çalışmamızda ayrıklaştırma “Class-Attribute Contingency Coefficient” algoritması yardımıyla yapılmıştır [6]. Sürekli sınıf skorları bu sayede ayrık sınıf etiketlerine dönüştürülmüştür. Aşağıdaki çizelge önceki algoritmalar ile beraber ayrıklaştırma sonucunda elde edilen başarıyı özetlemektedir:
Tablo - 2 ANFIS Dahil Tüm Çözümlerin Başarı Oranları
Görüldüğü gibi en başarılı netice bulanık mantığı da içeren ANFIS algoritması ile elde edilmiştir. Bu netice bir doküman sınıflandırma için oldukça yüksek bir değerdedir. Zira sisteme verilen her 30 dokümandan 29 tanesi doğru sınıflanabilmektedir.
Tüm bu algoritmalar hibrit çözümlerle zenginleştirilebilir ve geliştirilebilir. ANFIS algoritması başarım oranı yüksek ancak zaman performansı düşük bir çözüm önermektedir. Bunu aşmanın yolu sınıflandırma anaçatısını diğer algoritmalar ile hızlandırmak ve yapay sinir ağı girdilerini kümelere ayırabilmektir.
Referanslar
[1] http://www.bilgiguvenligi.gov.tr/teknik-yazilar-kategorisi/veri-kacagi-onleme-dlp-ve-veri-madenciligi.html
[2] R. Cooley: Classification of News Stories Using Support Vector Machines. IJCAI Workshop on Text Mining (1999)
[3] Alparslan E.,Bahsi B., Karahoca A.: Classification of Turkish News Documents Using Support Vector Machines. INISTA. (2009)
[4] http://code.google.com/p/zemberek/
[5] Sanver, M. , A. Karahoca: Fraud Detection Using an Adaptive Neuro-Fuzzy Inference System in Mobile Telecommunication Networks. Journal of Multiple-Valued Logic and Soft Computing 15 (2-3), pp. 155-179 (2009)
[6] Tsaı, C.J., C.I. Lee, W.P. Yang: A discretization algorithm based on Class-Attribute Contingency Coefficient. Information Sciences vol:178 pp: 714–731 (2008)
Favori olarak ekle (0) | Görüntüleme sayısı: 1532
Sadece kayıtlı kullanıcılar yorum yazabilir. Lütfen sisteme giriş yapın veya kayıt olun. |