Pandemi ile beraber denetimler yaygın bir şekilde gerçekleştirilemiyor olsa da KVKK kanunu gereği her firmanın bu verilerini toparlaması, firma içerisindeki envanterini çıkarması ve sonrasında farklı çözümler ile eğer KVKK gereği özel nitelikli kişisel veri bulunduruyorsa şifrelemesi veya güvenli veya erişimin olmadığı bir alana taşıyıp karantinaya alması gerekmektedir.
Bu tarz keşif projelerinin önemini birkaç madde ile açıklayabiliriz:
Veri keşfi projelerinde, şirket verinizin büyüklüğüne ve yıllık bu verinin büyüme endeksine göre konumlandırılacak ürünler için dikkat edilmesi gereken hususular vardır. Bu makalede bir veri keşfi ve anonimleştirme ürünü alırken nelere dikkat etmeniz gerekli onun üzerinde duracağız.
Veri keşfi araçlarından en önemli kriter veriyi yakalayabilmek adına kullanılan methodlardır. Ürün ne kadar esneklik sağlarsa, keşfedilmek istenen verideki sehven pozitiflik oranı azalacaktır. Çoğu veri keşfi ürünü belirli girdiler sonucu bir takım çıktılar üretir. Bu girdiler basit bir veri keşfi ürününde bir takım veri listelerinden de oluşabilir. Örneğin Ad-Soyad arayacaksınız ülkede en çok kullanılan bir Ad-Soyad kümesinden oluşan bir txt dosyası oluşturarak bir girdi oluşturabilirsiniz. Eğer aramak istediğiniz veri bir liste kümesi şeklinde ise bu en verimli arama methodudur. Burada en çok isim, soyad, doğum yeri, belli bir algoritması olmayan sicil numaraları gibi liste şeklinde olan veriyi bu method ile aramayı tercih ederiz. Bu method içerisinde herhangi bir veritabanının bir kolonu da veri sözlüğümüzde referans kolon olarak gösterilip aynı liste mantığı ile tüm yapısal veya yapısal olmayan ortamlarda arama yaparken kullanılabilir. Bunun yanı sıra veri keşfi uygulamalarında en çok kullanılan yöntemlerden bir diğeri ise regex (Regular Expressions) yöntemidir. Bu yöntemde ise genellikle belli bir söz veya sayı dizimine ait bellirli kurallar çerçevesinde olan verileri bulmak için kullanılır. Örnek vermek gerekirse araç plakası, kan grubu , kredi kartı numaraları ve IBAN gibi belirli bir şablona oturan kalıplar için kullanılır. Bir farklı method ise veriyi algoritmaya tabi tutarak keşfetmedir. Regex ile çıkmaza girilen noktalarda ilgili veriyi doğrulamak için ikincil bir method olarak algoritmalar devreye girer. Örneğin eğer regex’den 11 haneli sayıları bul şeklinde bir şablon hazırlarsak her 11 haneli sayı TCKN olmayacaktır. Regex’den bulunan bu 11 haneli sayıyı bir validasyon algoritmasına tabi tutup ilgili matematiksel doğruluğu bu validasyon algoritması ile doğrulamak bu tarz veriler için %100 doğru veriyi bulmak adına önemli bir etkendir. En çok kullanılan bu methodlar yanı sıra veritabanlarında kolon adı olarak arama yapabilmekte en çok kullanılan yöntemlerden bir tanesidir. Günümüzde teknolojinin gelişmesi ile beraber veri keşfi araçlarında makina öğrenmesi ve yapay zeka da içeren ürünler piyasaya sürülmeye başlamıştır.
Veri keşfi, veri sınıflandırma ve veri anonimleştirme birbirleri ile bağlantılı süreçlerdir. Firma içerisinde daha önceden belirlenmiş bir veri envanteri var ise, keşif araçlarında üretim ortamları ile ilgili çıkacak tarama sonuçları çok şaşırtmayacaktır. Envanter içerisinde hangi kişisel verinin, hangi departmana ait uygulama veri tabanlarında tutulduğu bilindiği için çıkacak bu keşif sonucu ile beraber veriyi düzenli tutabilmeniz ve denetim esnasında gösterebilmeniz kolaylaşacaktır. Asıl problem olan kısım genellikle test ortamları, geliştirme ortamları ve yapısal olmayan ortamlarda çıkmaktadır. Buradaki veriler genelde son kullanıcılar veya sistem adminleri tarafından kontrolsüzce oluşturulmuş veridir ve bu veri eğer tespit edilip imha edilmezse veya bu veri bir şekilde şirket dışına çıkartılırsa yaptırımları şirket için çok ağır olabilir. Bu sebeple ele alınmak istenen verinin kapsamı önemlidir. Bu kapsam belirlenirken geniş bir objektif ile gerçekten keşfedilmesi faydalı olacak veriyi bulmak, doğru alanları hesaba katarak ilgili keşif aracını almak ve bu keşif aracından hem yapısal hem yapısal olmayan ortamlar için maksimum faydayı sağlayabilmek önem kazanır. Bir üreticinin ürünü keşif konusunda başarılı olurken farklı bir üretici anonimleştirme maskeleme veya sınıflandırma işinde daha başarılı olabilir. Bunu 3 veya 4 fazdan oluşan bir proje gibi belirleyip önce kişisel verinizi keşfedecek ürüne odaklanmanız, sonrasında ilgili veriyi sınıflandırmanız akabinde ise anonimleştirme/maskeleme fazını yapacağınızı düşünerek sahip olacağınız ürüne odaklanmanızı tavsiye ederim.
Yapısal veriler bilindiği üzere veritabanlarının içerisinde tutulan verilerdir. Burada ele alınan en öncelikli veritabanları bunlardır: Oracle, MSSQL, Postgres, MySQL, Hadoop, Cassandra, DB2, Couchbase, Amazon RDS. Burada seçeceğiniz veri keşfi ürününde dikkat edeceğiniz en önemli unsur mümkün olduğunca fazla çeşit veritabanına erişebilmesi tarayabilmesi ve bu veritabanı içindeki veri tiplerini destekleyebilmesidir. Genellikle JDBC veya ODBC bağlantıyı destekleyen araçlar çok kullanılan yukarıda bahsetmiş olduğum veritabanlarını taramakta bir zorluk çekmezler. Yapısal olmayan verilerde ise taranacak kaynak sistem ile veri keşfi aracının bu kaynak sistemi taramaya yetkinliğidir. Kaynak sistemler çok çeşitli olabilir. Başlıca File Servers, SharePoint, Exchange Server, O365, IBM Filenet, HDFS, Google Cloud gibi verinizin dağınık şekilde tutulduğu tüm ortamlarda rahatlıkla tarama yapabilen Optical Character Recognition (OCR) ile resim, video ve ses ayırt etmeksizin geniş dosya formatı desteği olan veri keşfi araçlarını tercih etmenizde fayda vardır.
Veri keşfi bir şirketin aktif var olduğu süre boyunca yaşam döngüsünün bir parçası olacaktır. Bu sebeple ilgili keşif aracında aranacak en önemli özelliklerden bir diğeri ise hem kaynak hem de hedef sistemde oluşacak olan yükün minimum seviyede olmasıdır. Ek olarak ilgili metadata toplandıkça bu veri keşfi aracının yatay büyüyüşünde duyulacak storage ve diğer donanımsal gereksinimlerin de en az olması gerekmektedir. Aynı zamanda veri keşfi sırasında özellikle yapısal olmayan tarafı taradığımız zaman, şirket içinde veya iki farklı şehirdeki aynı şirket için bir network satürasyon oluşturmaması çok önemlidir. Bazı araçlar, ilgili keşfi ajan ile yapıp sadece metadata’yı ana sunucuya iletirken bazı keşif araçları ise connector mantığı ile çalışır ve ilgili yapısal datayı kendi üzerine çeker. Var olan veri sözlüğü ile çarpıştırarak bu keşif sonucunu ana sunucuya gönderir. Tabi ikinci belirtilen metotda ilgili çekilen veri her ne kadar siliniyor olsa bile farklı bir sunucuya ilgili datayı çektiği için daha az tercih edilen bir yöntem olmaktadır.
Yapısal tarafta ise tarama yapılırken performans kazanmanın birden fazla yolu vardır. Burada örneklem almak, yani; bir tablonun bir kolonundan belirli bir sayıda veriyi çekip veri seti olarak kullanmak hem hedef sistemdeki yükün artmasını engellemekte hem de kaynak sistem taramanın hızını arttırmaktadır. Burada örneklem method bir veri seti içerisinden keşfedilmiş verinin ne olduğuna dair yeterli kanıtı sağlar. Bu sebeple verinin tamamına hiçbir zaman ihtiyaç duyulmaz. Tüm veriyi taramak keşif araçları için maliyetli ve uzun bir işlemdir. Keşiften nasıl bir sonuç beklediğimize göre kullanacağımız yöntem ve metodlar değişkenlik gösterir.
Veriyi sistemlerinizde keşfettiğiniz zaman elinizde tarama sonucu bir harita oluşmaktadır. Bundan sonraki aşamayı uyum ve hukuk ekiplerinizin değerlendirmesi gerekmektedir. Keşiften sonraki aşama tüm firmalar için çok daha zorlu olan bir kısımdır. Nerede hangi alanda veriniz olduğuna hakim olmak ile birlikte hangi veri tiplerinin anonimleştirileceğine veya şifrelenmesi gerektiğinin bilinmesi önemlidir. Kanuna göre bazı verileri tamamen şifrelemeniz bazı verileri arşivleyip bir süre tutup silmeniz bazı verilerinizi ise tamamen aynı kalması gerekmektedir.
Keşif araçlarının temel görevlerinden birisi de şirketlere bireysel başvuru yolu ile gelen veya kanunen silinmesi istenen veriyi, taranmış olan yapısal veya yapısal olmayan ortamlar da ilgili şahış bilgisini kolay bir şekilde arayüzden listeleyip aksiyonu hızlı bir şekilde gerçekleştirmesidir. Bu sebeple kişisel verinin bulunduğu veri yolu keşif aracının metadatasında tutulmalıdır. Veri yoluna örnek vermek gerekirse bir dosya sunucusunda ilgili dosyanın tutulduğu dizin veya bir veritabanında ilgili verinin tutulduğu tablo ve kolon bilgileri gösterilebilir.
Veri keşfini iyi veya kötü tüm keşif araçları yapabilir. Fakat önemli olan metadata’nın yani keşfedilmiş verinin doğru raporlanarak risk puanlamaları ve ısı haritalarının çıkarılması, kişisel verilerin gruplandırılmasıdır. Uyumluluk ve hukuk ekiplerinin analizlerinin kolaylaşabilmesi için bir takım çıktıların keşif sonucunda yer alması gerekmektedir. Bu çıktılar, birden fazla kişisel verinin bir arada bulunduğu durumları raporlamalı ve risk değeri en yüksek veri tipine göre ilgili bulguya risk skoru atayabilmelidir.
Bir çok keşif aracı metadatayı kendi veritabanına yazar, bu sayede raporları ön yüzden kolayca alabilir ve şekillendirebilir. Bazı araçlarda ise ön yüz zayıf ve bunu sadece veritabanında belirli scriptler hazırlayarak alma imkanı sunuyor veya bu scriptlerin çıktıları düzenli olarak iş analitiği ürünleri tarafından çekilerek bir takım raporlar oluşturulmasına yardımcı oluyor. Her iki şekilde de raporu ön yüzden alabilmek ve bu raporu alırken uygulamada herhangi bir performans sorununa yol açmıyor olmak hatta raporu alırken veri keşifini durdurmaya gerek kalmadan bu işi parallel hallediyor olabilmek önemli.
Öncelikle burada veri envanterini açıklamak gerekiyor. Veri envanteri şirketlerin departmanlarına bağlı dijital veya dijital olmayan ortamlara ait nerede hangi tip kişisel veri tutulduğuna dair bir harita gibi düşünebiliriz. Bu harita ile kanuna aykırı bir kişisel verinin şirket içinde işlenip işlenmediğine kolayca karar verilebilir. Veri envanteri tutmak bir zorunluluk değil, gerekliliktir. Günümüzde hala bir çok kurumsal kategorisinde bahsettiğimiz şirket veri envanteri yönetimini excel ile yapmaktadır. Excel’i çok başarılı şekilde kişiselleştirmiş örnekler ile karşılaşmamıza rağmen bunun için bir araca sahip olmak ve bu araç ile sadece kişisel veri envanterini güvenlikli bir şekilde tutmak değil aynı zamanda bu aracı bir aydınlatma metni onay süreçlerinide yürütebilmek için kullanabilmek önemlidir. Aynı zamanda bu veri envanterini sürekli güncel tutmak ve keşif araçları ile entegre ederek gerçek zamanlı kişisel veri akışını sağlamakta çok önemlidir.
Yapısal ve yapısal olmayan verilerde keşif taraması yaparken belki de en önemli belirlenecek faktör veri sözlüğüdür. Tüm tarama sonuçları seçilen veri sözlüğü setine göre şekillenir. Üzerine en çok çalışılması gereken veri sözlüğünün belirlenmesi safhası çok titiz bir çalışma ile gerçekleştirilmeli, yalancı pozitiflik oranının mümkün olduğunca azaltılması gerekmektedir. Örneğin biz bir doğum tarihi aramak istiyorsak bunu bir veritabanı içerisinde geçen tarih formatı olarak aramak bizim sonuçlarımızın yalancı pozitiflik oranını arttıracaktır. Çünkü veritabanlarında bir çok tarih formatlı bilgi yer alır. Ya bu bilgilerin ayrıştırılması için veri keşfi ürünlerinde özel yöntemler gerekir veya bu şekilde doğum tarihi gibi yanlış bir sonuça bizi vardıracak kişisel veriyi setimizden çıkarmamız gerekmektedir. Arama yöntemlerinden biraz bahsetmiştik, regex, algoritmik formüller veritabanı kolon referansları “look-up veri setleri” gibi bizi kesin veriye ulaştırabilecek veri tiplerini özellikle seçiyor olmak, keşif sonucumuzu daha anlamlı ve müdahale edilebilir bir hale getirecektir. Bu sebeple “ne kadar fazla veri tipi o kadar iyi sonuçlar” şeklinde bir bakış açısı hiç bir zaman doğru olmayacaktır. Bizim veri keşfinde arıyor olduğumuz veri niş bulunabilir ve işlenebilir veriler olması gerekmektedir.
Günümüzde DLP (Data Loss Prevention) ürünü kullanan firmaların neden ek olarak bir de veri keşfi araçlarına sahip olma gereksiniminin olduğunu belirtmek için birden fazla nedenimiz var. Tabi bu nedenleri açıklamadan önce DLP ürünlerinin kabiliyetlerini ve bu üründe hedeflenen isteri kısaca özetlemek gerekiyor. DLP’nin en önemli özelliği gerçek zamanlı aksiyon alabilme yeteneğidir. DLP ürünleri son kullanıcı bilgisayarlarında veya sunuculardaki verinin aktif durumunu anlık olarak izleyip önceden belirlenmiş kurallar çerçevesi içerisinde ilgili veri ile ilgili aksiyon alır. DLP ürünleri ile ajanla yapılabilen veri keşifleri genelde ürünü sınıflandırmak ve sınıflandırırken aynı zamanda bu veri ile ilgili sonradan oluşabilecek bir durumun önlemini almak amaçlı uygulanan bir veri keşfidir. DLP ürünlerinde asıl amaçlanan kişisel veya şirkete ait özel bir verinin şirket dışına çıkarılmasını önceden tespit edip bu veri kaybını önlemektir.
Veri Keşfi ürünlerinde ise asıl amacımız şirket içerisindeki dağınık veya bütünleşik verilerin içerisinde KVKK, GDPR gibi yasal şartları da gözeterek, özel nitelikli veya özel nitelikli olmayan kişisel verilerin bu bahsi geçen ortamlardaki haritasını çıkarmak ve bu metadata ile şirketin veri envanterini çıkarmak hedeflenir. Verinin en büyük hazine olduğu günümüzde firmanın kendi verilerine hakim olabilmesi hem önceden alacağı güvenlik önlemleri açısından hem de ilgili firma ile alakalı düzenli bir arşiv olması açısından önemlidir. Veri keşfinden çıkan sonuca göre kritik verilerin ne şekilde korunarak saklanması gerektiğine veya kısıtlı eriştirmeye, maskeli anonim veya şifreli veri şeklinde gösterimine karar verilir. Veri keşfi belirli aralıklar ile bir zamanlı iş gibi yapılırken DLP ise devamlı işleyen bir süreçtir. Veri keşfinde şirketin tüm yapısal ve yapısal olmayan ortamları ele alınır, tam anlamıyla bir veri envanteri çıkarılır ve bu metadata bir veri ambarında saklanarak çeşitli raporlama araçları ile entegrasyonu yapılır.
Her iki metot da bilgi güvenliği sürecinin önemli bir parçasıdır. Ortak amaçlar güden bu iki yöntem her şirketin vazgeçilmez bir parçası olmalıdır.
-