spacer.png, 0 kB
Bilgi için: bilgi at bilgiguvenligi gov tr   

 

spacer.png, 0 kB
spacer.png, 0 kB
Veri Madenciliği ve Veri Güvenliği Yazdır E-posta
Zafer NOYAN, Kamu Kurumu   
13.02.2011

İnsan zekâsının çalışması sonucu ortaya çıkan düşünce ürünü, malumat, vukuf. Bilgi kelimesinin sözlük tanımlarındandır [1]. Bilginin yaşadığımız çağa damgasını vuran bir varlık olduğu bir gerçektir. Bu açıdan bakıldığında, çağımızın altın değerindeki hammaddesi olan bilgiyi tanımlamak, kavramak ve bilgi ile ilgili hususları incelemek, insanlığın başlangıcından itibaren geçen süreçte ileriye yönelik gelişimimizi şekillendirmenin en önemli anahtarıdır. Günümüzde bilgi ön plana çıkmış gibi gözükse de, aslında bilgi; dünün ve bugünün anahtarları iken, geleceğin şekillenmesinde de her zaman anahtar rollere sahiptir [2].

Bilgi çağı olarak adlandırılan günümüzde teknolojide yaşanan oldukça hızlı gelişmeler, İnternetin yaygın kullanımı [3] ve kolay erişilebilir hale gelmesi bir endişeyi de beraberinde getirmiştir: Siber uzayda bu bilgiler ne kadar güvende?

sekil-1.jpg
Şekil -1: İnternet kullanımı (Real-time web monitor) [3]

Bu durumu en iyi bir dönem ülkemizde Radikal gazetesinde de yayınlamış olan Cathy Classics [4] karikatürü anlatan aşağıdaki alıntı ifade etmektedir.

There's a great "Cathy" cartoon in which Cathy's boyfriend Irving examines a list of Web sites she's recently visited. "The next time you log on," he remarks, "you should see an ad for singles weight-loss spas in Italy that allow dogs." Cathy run off in distress as Irving reflects, "Everybody wants to be understood. No one wants to be known." [5]

Herkes anlaşılmak ister ama tanınmak/bilinmek istemez.

Son dönemde yaşanan Wikileaks [6] gibi büyük çapta olayların yanı sıra Şekil-2 ve 3 te görüldüğü üzere özel/gizli olduğu varsayılan bilgiler kolayca ve gittikçe artan miktarlarda ortaya dökülebilmektedir. İnsanlar kişisel bilgilerinin, sağlık veya mali kayıtlarının ne kadar güvende olduğunu bilmer isterler.

sekil-2.jpg

Şekil – 2 : Veri kaybı olaylarının yıllara göre dağılımı [7]

sekil-3.jpg
Şekil – 3 : Tüm olayların türlerine göre dağılımı [7]

Her ne kadar Facebook [8] gibi sosyal medya araçlarında kolayca paylaşılıyor olsa da okudukları kitapların, gördükleri filmlerin veya siyasi görüşlerinin tamamen yabancılar tarafından bilinmesi ve hatta kullanılması istenen bir durum değildir. Gazetelerde okuduğumuz malum kimlik hırsızlığı vakaları ile ortaya çıkan yüksek miktarda kredi kullanılabiliyor olunması bu konuda haksız olmadıklarının göstermektedir.

Konu ile ilgili kanun, yönetmelik ve yönergeler [9] :

  • OECD Gizliliğin Korunması ve Kişisel Bilgilerin Sınırlar ötesi Transferine ilişkin Tavsiye Kararı,

  • Avrupa Konseyi 108/81 Sayılı Kişisel Veriler Hakkında Antlaşma (gerçek kişiler),

  • Avrupa Konseyi’nin sektörel tavsiye kararları: Tıbbi veri bankaları (1981), bilimsel araştırma ve istatistik (1983), doğrudan pazarlama (1985), sosyal güvenlik (1986), polis (suç) kayıtları (1987), istihdama ilişkin veriler (1989), elektronik ödeme ve ilgili işlemler (1990), verilerin kamu kuruluşlarınca üçüncü kişilere açıklanması (1991), kişisel verilerin telekomünikasyon alanında ve özellikle telefon servislerinde korunması (1995), tıbbi verilerin korunması (1997), istatistik amaçlı toplanan ve işlenen kişisel verilerin korunması (1997), internette özel hayatın gizliliğinin korunması (1999), sigorta sektöründe kişisel verilerin korunması (2002),

  • İnsan Hakları Avrupa Sözleşmesi m. 8: Herkesin özel ve aile hayatına, meskenine ve haberleşmesine saygı gösterilmesini isteme hakkı,

  • AB Temel Haklar Charter m. 7: Özel hayatın gizliliği,

  • AB 95/46/EC Veri Koruma Yönergesi,

  • Avrupa Siber Suçlar Konvansiyonu,

  • AB 97/66/EC Telekomünikasyon Yönergesi,

  • AB 2002/58/EC Elektronik iletişim Yönergesi,

  • 5651 sayılı İnternet Ortamında Yapılan Yayınların Düzenlenmesi ve Bu Yayınlar Yoluyla İşlenen Suçlarla Mücadele Edilmesi Hakkında Kanun.

Yukarıda listelenen kanunlar ve gizlilik politikası bildirimleri (örneğin Microsoft Çevrimiçi Gizlilik Bildirimi [10]) pek tatmin edici oldukları söylenemez.

Günlük hayatımızda devasa miktarda değerlendirilebilir veri üretiriz. E-ticaret uygulamaları, kredi kartı ile yapılan alışverişler, Akbil, KGS, OGS vb. akıllı teknolojiler ile yapılan seyahatlar, üyelik kartları/sistemleri, Facebook, MSN, Tweeter vs. sosyal medya araçları ile paylaşılan bilgiler bunlara örnektir.

Sweeney [11] tarafından yapılan bir deney sözde anonim ortak bir veritabanında sadece posta kodu ve doğum tarihi bilgilerini kullanarak bir kişiye ait bilgilerin %69 doğruluk oranında tespit edilebileceğini ve dahi cinsiyet bilindiğinde bu oranın %87'ye çıkarılabileceğini ispatlamıştır.

̈According to the Privacy Rights Center, up to 10 million Americans are victims of ID theft each year. They have a right to be notified when their most sensitive health data is stolen̈. (Luis Vicente Gutiérrez) [12]

VERİ MADENCİLİĞİ

Basit ve açık olmayan, önceden bilinmeyen ve yararlı olan desenlerin ya da bilginin çok büyük miktarlardaki veriden çıkarılması işlemidir [13]. Veriden bilgi keşfi (knowledge discovery in databases) olarak da adlandırılan ve aslında  ̈bilgi madenciliği ̈ olan veri madenciliğinin son yıllarda bu kadar [14] ilgi görmesinin nedeni sayısal ortamlarda saklanan veri miktarının (the disk storge per person)[15] Moore yasası paralelinde hızla artması ve bu verinin bilginin veriye dönüştürülme ihtiyacının oluşmasıdır. Bankaların kredi sahteciliğini engellemek için kullandıkları müşteri analiz sistemleri [16] ve Google Adsense [17] gibi kullanıcı alışkanlıklarına göre sunulan reklamcılık hizmetleri ilk akla gelen örneklerdir.

sekil-4.jpg

Şekil-4 : 1996-2006 yılları arasında Harddisk kapasite artı şı (IBM verilerine göre)

Veri madenciliği, çok büyük miktardaki veriden bilginin kazanılması için anlamlı bir teknoloji olarak ortaya çıkmıştır. Ancak, bu teknolojinin kişilerin mahremiyetini ihlal ettiğine dair endişeler vardır ve bu endişeler toplumsal bir tepkiye neden olmaktadır. Örneğin, Amerika savunma departmanı tarafından Amerika Senatosuna sunulan bir bildiriden sonra araştırma ve geliştirmeleri de kapsayan tüm veri madenciliği programları yasaklandı. [18]

Ülkemizde yeni uygulamaya alınan MEDULA sağlık sistemi [19] nedeniyle tüm sağlık kuruluşları ve eczanelere bazı kişisel verilere İnternet üzerinden erişim yetkisi verilmiştir. Gazete manşetlerinde kimlik bilgilerinin bir şebeke tarafından toplu halde hukuk bürolarına pazarlandığı haberinin üzerinden de fazla bir zaman geçmedi [20].

GİZLİLİĞİ KORUYAN VERİ MADENCİLİĞİ

Hayatımızı kolaylaştırması için tasarlandığı halde kısa zamanda büyük sorunlara yol açabilecek uygulamaların önüne geçilebilmesi için gizliliği koruyan veri madenciliği (privacy- preserving data mining)[21] alanındaki yöntemler :

Gizliliği koruyan veri yayınlama (privacy-preserving data publishing) : Bu teknikler gizlilik ile ilgili farklı dönüşüm yöntemleri üzerinde çalışmalardan oluşurlar ve randomizasyon(randomization), k-anonimlik (k-anonimity) ve l-çeşitlilik (l-diversity) gibi metotları içerirler. Ayrıca bozulmuş verinin ilişkili kural madenciliği gibi (association rule mining) klasik veri madenciliği teknikleri ile kullanımı da bu alana girmektedir [22].

sekil-5.jpg

Şekil-5 : k-anonimizasyonu uygulama örneği.

Veri madenciliği uygulamaları sonuçlarının gizliliği korumak için değiştirilmesi : Bir çok durumda ilişkili (association rule) veya sınıflandırmalı (classification) veri madenciliği uygulamaları verinin gizliliğini ihlal edebilmektedir. Bunun önlenebilmesi için ilişkili kurallardan bazılarının uygulanmamasının sağlanması ya da yeniden düzenlenmesi gerekebilir [23].

sekil-6.jpg

Şekil-6 : Sonuçların anonim hale getirilmesi modeline örnek şema [22]

Sorgu denetimi(query auditing): Veri tabanlarında, gizli kalması gereken bilgilerin açığa çıkmasının engellenmesi için geçmiş işlemlerin ve yürürlükteki kuralların yardımı ile çağrılan sorguların tespit edilmesi ve önüne geçilmesidir [24]. İki şekilde uygulanabilmektedir.

  • Sonuç verisine gürültü eklenerek koruma,

  • Belirlenmiş alt sorguların reddedilerek işlem dışı bırakılması.

Dağıtılmış gizlilik için şifreleme yöntemleri: Bazı durumlarda, veri farklı alan ve platformlarda dağıtılmış olabilir ve bu veriler kullanılarak ortak fonksiyonların yerine getirilmesi istenebilir. Bu halde, çeşitli kriptolama algortimaları kullanılarak hassas veriler açığa çıkmadan güvenli bir şekilde sonuç alınması sağlanmalıdır [25].

Referanslar:

[1] Güncel Türkçe Sözlük, Türk Dil Kurumu, 2010

[2] Gürol CANBEK, Şeref SAĞIROĞLU, Bilgi, Bilgi Güvenliği ve Süreçleri Üzerine Bir İnceleme, Gazi Ünv. Politeknik Dergisi Cilt: 9 Sayı: 3 , 2006

[3] Real-time web monitor, http://www.akamai.com/html/technology/dataviz1.html , 2010

[4] Cathy Classics, Cathy GUİSEWİTE, http://en.wikipedia.org/wiki/Cathy_Guisewite

[5] Herb EDELSTEİN, Janet MİLLENSON, Data Mining and Privacy, Information Management Magazine, Aralık 2003

[6] New York Times, 29 Kasım 2010

[7] İstatistik ve grafikler , DATALOSS db Open Security Foundation. http://datalossdb.org/statistics , Aralık 2010

[8] Facebook , http://www.facebook.com/

[9] T.C. Bilgi Teknolojileri ve İletişim Kurumu, http://www.tib.gov.tr/node/97

[10] Microsoft Çevrimiçi Gizlilik Bildirimi, http://privacy.microsoft.com/tr-tr/default.mspx

[11] Latanya SWEENEY, Information Explosion. Confidentiality, Disclosure, and Data Access: Theory and Practical Applications for Statistical Agencies, L. Zayatz, P. Doyle, J. Theeuwes and J. Lane (eds), Urban Institute, Washington, DC, 2001.

[12] Luis Vicente GUTİÉRREZ (Aralık 1953 doğumlu ) ABD Demokrat Parti Illinois Senatörü , http://www.gutierrez.house.gov/

[13] Suat ÖZDEMİR,Veri Madenciliği Ders Notları, Gazi Üniversitesi, 2010

[14] IBM Data Management Dergisi , Nisan 2010

[15] Edward GROCHOWSKI ,Emerging Trends in Data Storage on Magnetic Hard Disk Drives, 2003, http://www.soe.ucsc.edu/classes/cmps129/Winter03/papers/grochowski-trends.pdf

[16] Chan, P., Fan, W., Prodromidis, A. & Stolfo, S. , Distributed Data Mining in Credit Card Fraud Detection. , IEEE Intelligent Systems Dergisi, Volüm 4 Sayı 6, 1999

[17] Google Adsense, https://www.google.com/adsense/static/tr/Publishertools.html

[18] Tolga BERBEROĞLU, Gizliliği Koruyan Bulanık Veri Madenciliği Yöntemlerinin Geliştirilmesi, Yüksek Lisans Tezi, Fırat Ünv., 2008

[19] T.C. Sosyal Güvenlik Kurumu , http://www.sgk.gov.tr/wps/portal/ESGK/Medula

[20] Hürriyet Gazetesi , 26 Temmuz 2010, http://hurarsiv.hurriyet.com.tr/goster/ShowNew.aspx?id=15424807

[21] Charu C. AGGARWAL, Philip S. YU, Privacy-Preserving Data Mining:Models and Algorithms, Springer, 2008

[22] Benjamın C. M. FUNG, Ke WANG, Rui CHEN, Philip S. YU, Privacy-Preserving Data Publishing: A Survey on Recent Developments, ACM Computing Surveys, Vol. V, No. N, Month 20YY.

[23] V.S. Verykios , A.K. Elmagarmid , E. Bertino ,Y. Saygın , and E. Dasseni, Association Rule Hiding, 2003

[24] S.U. NABAR, K.KENTHAPADİ, N.MİSHRA, A survey of query auditing techniques for data privacy, 2008

[25] Anand SHARMA, Vibha OJHA, Implementatıon of cryptography for privacy preserving data mining, International Journal of Database Management Systems, Ağustos 2010


Favori olarak ekle (1) | Görüntüleme sayısı: 2190

Bu yazıya ilk yorumu yazın

Sadece kayıtlı kullanıcılar yorum yazabilir.
Lütfen sisteme giriş yapın veya kayıt olun.

 
spacer.png, 0 kB
spacer.png, 0 kB
Copyright 2012 TÜBİTAK-BİLGEM. Sitenin teknik altyapısında Joomla kullanılmıştır. Yazar ve site referans gösterilmeden alıntı yapılamaz. Görüşleriniz
spacer.png, 0 kB