Ana Sayfa Çözümler Neden Netsmart? Kariyer Keşif Kurumsal Materyal İletişim

Netsmart Bilişim Sistemleri A.Ş.

Esentepe Mh. Ecza Sk. No: 6 K: 1, 34394,
Şişli-İstanbul, Türkiye

+90212-274-31-61

info@netsmart.com.tr

Analiz

Forcepoint DLP’de Fingerprinting ve Machine Learning

Günümüz teknolojisi sayesinde veriye ulaşmak oldukça kolay hale gelmiştir. Ancak bu durum özellikle kurumlar ve sahıslar için gizli tutulması istenilen verilerin üçüncü şahısların eline geçmesini de kolaylaştırmaktadır. Buna ek olarak kişisel ve kurumsal verinin korunmasını sağlamak için sektörel düzenleyici kurumların oluşturduğu kurallar ve bu kuralların ihlaline bağlı yaptırımlar, bu kurallara tabi bütün şirketleri etkin veri güvenliği politikaları uygulamasını zorunlu kılmaktadır.

Forcepoint DLP'de Fingerprinting ve Machine Learning

Data Loss Prevention (DLP), türkçe karşılığı olarak veri sızıntısını önleme, kelime anlamından da anlaşılacağı üzere  kişisel veya kurumsal verinin istenilmeyen kişilere ulaştırılmasını digital olarak önlenmesi demektir. DLP, Forcepoint gibi firmaların ürettiği güvenlik yazılımları ile yapılmaktadır. Bu yazılım sayesinde kuruma veya tabi olduğu regulasyonlara bağlı olarak müşteri bilgileri, arge bilgileri, fiyatlandırma bilgileri gibi kurumlar için kritik sayılabilecek verilerin kulanıcı bilgisayarı veya şirket network’u gibi ortamların dışına çıkarılmasını engellenebilir veya kayıt altına alınabilir.

Kurum için kritik ve hassas olarak tanımlanmış verinin tespit edilmesinde, DLP yazılımları genel olarak basic (temel) DLP olarak adlandırılan dictionary (doğrudan kelime tespiti) veya regular expression (regex) yöntemlerini kullanırlar. Basic DLP yöntemleri bütün DLP yazılımları tarafından ortak olarak kullanılmaktadır. Ancak tahmin edileceği üzere bu yöntemler, başlı başına veri sızıntısını önlemede yeterli önlemler değildir. Forcepoint, basic DLP yöntemlerine ilave olarak sağladığı birçok özelliği sayesinde rakiplerinin önüne geçmektedir ve bu konuda fark yaratmaktadır.

Bu yazımda sizlere Forcepoint’in fark yaratan özelliklerinden Fingerprinting ve Machine Learning özelliklerinden bahsedeceğim. DLP tarafından tespit edilen verinin ilgili güvenlik politikalarına uyup uymadığı yani gerçekten bir veri sızıntısı olup olmadığının tespiti önemlidir. Özellikle basic DLP yöntemleri ile çok fazla false positive ve false negative’ler oluşur ve bu durum kurum için etkin bir güvenlik sağlanmasını zorlaştırır. Bu noktada fingerprinting yöntemi verinin DLP yazılımı ile doğru olarak tanımlanmasını çok düşük yanılma oranlarıyla yapılmasını sağlar. Ayrıca veri tespit yöntemlerinde en düşük false positive oranına sahip yöntemdir.

Fingerprinting

Fingerprinting, kelime anlamı olarak parmak izi almak anlamına gelmektedir ve aslında insan parmak izinde ki eşsiz olma durumundan esinlenilmiştir. Forcepoint DLP, “PreciseID” adı verilen patent’li bir teknoloji kullanarak text bazlı dosyalar, veritabanları ve salesforce gibi sistemlerde fingerprinting teknolojisinden yararlanır ve datanın hash bilgisini çıkarır. Ayrıca File Fingerprinting ve Database fingerprinting olarak iki farklı yöntemle fingerprint işlemi uygular.

File Fingerprinting

Forepoint DLP, file fingerprint işleminde ilgili dosyanın içini açıp, içeriğinin text halinin parmak izini alır. Bu işlem esnasında ilk olarak “canulization” olarak  adlandırılan yöntem ile text içerisinden bağlaç vs. gibi kelimeleri çıkararak sadece anlamlı olan kelimelerin parmak izini alır.

Bu işlemi bir örnek üzerinden anlatmak gerekirse, bir dosya içerisinde bulunan aşağıda ki metin açıldıkdan sonra ;

Bağlaç vs. gibi gereksiz tekrar oluşturan kelimeleri atarak geriye anlamlı kelimeleri bırakır;

Daha sonrasında ortaya çıkan kelimelerin, matematiksel bir algoritma kullanılarak hash değerleri hesaplanır.

Hash algoritması uygulanırken gereksiz kelimelerden arındırılmış olan paragrafın ilk olarak birinci, ikinci, üçüncü ve beşinci kelimeleri seçilerek ilk hash bilgisi çıkarılır. Daha sonra aynı yöntemle ikinci, üçüncü, Dördüncü ve altıncı kelimelerin yani 3 kelimede 1 bir kelime atlayarak bütün kelimelerin hash değerlerini alarak ilgili text için bir fingerprint database oluşturur. Sonrasında bu fingerprint database’i, kullanıldığı DLP politikasının uygulanacağı Forcepoint DLP komponent’lerine gönderilir. Böylelikle, örnek olarak Email kanalında fingerprint alınmış dosya için bir politika aktif edilmiş ise Email komponent’i üzerinde ki fingerprint database ile ilgili dosyayı yüksek kesinlikde tespit edebilmektedir. Ayrıca kullanıcı ilgili dosyanın belli bir kısmını kopyalayarak dışarı çıkarmak istese bile fingerprint database’de bütün kısımlar olduğu için kolaylıkla tespit edilebilmektedir.

Fingerprinting işlemi dosyanın içeriğine yapılır. Dolayısıyla, dosya tipi değiştirme gibi kullanıcılar tarafından DLP yazılımını yanıltmaya yönelik girişimler önlenmektedir.

Database Fingerprinting

Forcepoint DLP ile bir database’e bağlantı kurup, ilgili tablonun istenilen kısımlarının fingerprint alınması sağlanabilir. Örnek olarak, bir database’de bulunan müşteri adı, soyadı ve TC kimlik no gibi alanları çıkarıp sadece bunların fingerprint alınması sağlanabilir.

Database bağlantıları ODBC ile sağlanmaktadır. Ayrıca Oracle, Microsoft SQL Server, IBM DB2, IBM Informix Dynamic Server, MySQL, Sybase ASE ve Teradata gibi database çeşitleri ile ODBC bağlantı kurup fingerprint alınabilmektedir.

Database fingerprint işleminde ilgili kurum tarafından fingerprint alınacak database tablolarının belirlenmesi önemlidir. Böylelikle gereksiz datanın fingerprint alınması ve false positive’ler oluşturması engellenebilir.

Machine Learning

Machine learning (makina öğrenimi) bilgisayarların üzerlerinde bulunan önceden tanımlı kuralları kullanması yerine algoritmalardan ve çeşitli tekniklerden oluşan yapay zeka kullanma işlemidir.

Forcepoint DLP, sistem yöneticileri tarafından sağlanan örnekler ile, ilgili şirket’e özgü, gizli ve hassas verileri öğrenir. Bu durum sistemin eğitilmesi olarakta tanımlanabilir. Sonrasında sistem tarafından öğrenilen verilerin şirket network’ü dışına çıkışı izleme ve engelleme gibi DLP politikaları uygulanabilmesine imkan sağlar. Özellikle yazılım şirketlerinin ürettikleri kaynak kod gibi hızlı değişen hassas verilerin network dışına çıkarılmasını takip etme ve engellemede etkin bir yöntemdir.

Forcepoint DLP öğrenme işleminde iki farklı algoritma kullanmaktadır. Bunlardan birincisi olan “supervised learning algorithms” de sınıflandırılmış çeşitli data tipleri sağlanarak öğretim yapılır. Diğer bir algoritma tipi “unsupervised learning algoritms” ‘de ise diğerinin tam tersi olarak sınıflandırılmamış data, gruplandırılmış olarak DLP’ye sağlanır.

“Forcepoint DLP’de machine learning hangi durumlarda tercih edilmeli ?” sorusunun cevabını vermek gerekirse, aslında machine learning sağladığı kesinlik anlamında yani false positive oranı olarak fingerprint teknolojisinden daha düşük değerlere sahiptir.  Ancak belirttiğim gibi yazılım firmaları tarafından üretilen kaynak kod yazılımlarının sürekli değiştirilmesi gibi durumlarda tercih edilmesi tavsiye edilir. Sürekli güncellenen yazılımların olduğu bir data ortamını fingerprint ile veri sızıntısı olmayacak şekilde güncel tutmak pek mümkün değildir.

Sistemin çalışmasından bahsetmek gerekirse; DLP’nin beslenmesi için gerekli iki farklı data tipi vardır. Bunlar, DLP politikalarının uygulanacağı içerikler olan positif örnekler ve tam tersi olarak positif örneklerden ayırt edilmesi gereken negatif örneklerdir. Bu işlemi örnek bir senaryo üzerinden anlatmak gerekirse; positif örnek olarak patent alınmış orjinal kaynak kodların tutultuğu bir lokasyon gösterilmesi, negatif örnek olarak da geliştirilmekte olan kod parçalarının tutulduğu bir lokasyon gösterilebilir. Böylelikle sistem pozitif yani hassas veriyi negatif örnekden ayırt edebilir ve bu verinin dışarıya sızdırılması anında DLP ile tespit edebilir. Burda dikkat edilmesi gereken husus, pozitif ve negatif örnekler arasında ki çok yakın benzerlikler olması durumudur. Bu durumda en az 100-200 adet text halinde dokumanın bulunduğu lokasyonlarının DLP’ye sağlanması tavsiye edilir.

Negatif örnekleri sisteme öğretirken çok fazla örnek dosyaların tutulduğu bir klasör gösterilmesi önemlidir. Bu klasörde positif örneklerde olabilir ancak negatif örneklerin fazlalılığı sayesinde DLP tarafından öğrenilen örneklerin false positive oluşturma oranı düşecektir.

Sisteme bir örnek sağlandığında öğrenme işleminin nasıl sağlandığından bahsetmek gerekirse; DLP’nin kontrol ettiği klasör içinde ki dosya boyutu çok fazla ise bir örnekleme algoritması devreye girer ve klasörü birkaç kez örnekleme yapar ve birbirine olan benzerliklerini kontrol eder. Böylece ortaya daha kesin bir data çıkar.

Öğrenme algortimasına giren veri sonucunda eğer sonuç başarılı ise yani öğrenilebilir bir veri olduğu kararlaştılırsa aşağıda ki gibi bir ekran ortaya çıkar.

Machine learning işlemi sonucunda oluşturlan DLP politikaları çok fazla false positive veya false negative üretiyorsa, sistem sahipleri tarafından bir takım iyileştirme işlemleri yapmak gerekebilir. Burda ilk olarak yukarda ki ekranda “Sensitivity” olarak “default” ayarlı olan hassaslık seviyesini “narrow” olarak değiştirilebilir. Ayrıca false positive oranı çok yüksek ise positif örneklerin aynı konuyla alakalı olup olmadığı kontrol edilmelidir. Ayrı konu başlıklarında olanlar için farklı sınıflandırmalar yapmak için farklı klasörlere koyup machine learning işlemine tabi tutulmalıdır.

Forcepoint DLP Machine learning ve fingerprinting  işlemlerinin konfigurasyonları da oldukça basittir. Konfigurasyon esnasında iki yöntem içinde yapılan, hassas verilerin tutulduğu klasörleri tanımlamak ve bu klasörlerde read yetkili bir user credential bilgilerini girmektir. Machine learning için Fingerprint’den farklı olarak positif ve negatif örneklerin tutulduğu klasörleri ayrı ayrı tanımlamak gereklidir. Sonrasında Forcepoint sunucular üzerinde ki “crawler” adı verilen software ilgili klasörleri tarama işlemine tabi tutar. Tarama neticesinde oluşan veri için DLP üzerinde izleme ve engelleme gibi politikalar oluşturulmasına imkan sağlanmış olur. Özetlemek gerekirse, aşağıda ki tabloda verinin kesinlik sıralaması piramit şeklinde gösterilen DLP classifier yöntemlerinin her biri ayrı bir ihtiyaç için kullanımaktadır. Yani aşağıda ki tabloyu hangisi daha iyi ve tercih edilmeli şeklinde yorumlamak yanlış olur. Örnek vermek gerekirse, mail yoluyla “müşteri bilgisi” kelimelerinin iletilmesinin takip edilmesi en basit yöntem olan olan “Keywords” yöntemiyle yapılmalıdır. Ancak software firmaları örneğinde olduğu gibi çok hızlı değiştirirlen dosyaların DLP politikalı uygulanması için machine learning yöntemine ihtiyaç vardır. Ayrıca software örnekleri gibi daha az değişken datalar için fingerprinting kullanılmalıdır.

Sonuç olarak Fingerprinting ve Machine Learning özellikleri Forcepoint DLP ürününü diğer temel DLP yapan ürünlerden ayırmaktadır ve tercih sebebi haline getirmektedir. Hem fingerprinting hem de machine learning işlemleri sonrası oluşan data uygulanacak DLP politikaları sonucunda ister auditing denilen izleme işlemine, isterse de blocking adı verilen engelleme işlemine tabi tutulacakdır. Burada dikkat edilmesi gereken en önemli husus hangi data tipine hangi özelliğin uygulanmasının kararlaştırılmasıdır. Böylelikle DLP işlemlerinde ki false positive ve false negative oranları asgari düzeyde tutulabilir.

Eren Yıldırım
9 Adımda Veri Keşfi Neden Önemli

9 Adımda Veri Keşfi neden önemli ve Veri Keşfi ürünlerinde nelere dikkat edilmeli

Analiz

Veri keşfi konusu 7 Nisan 2016 tarihinde yürürlüğe giren 6698 sayılı Kişisel Verilerin Korunması Kanunu (KVKK) ile hayatımıza girdi. Bu kanunla beraber bu zamana kadar dağınık olan verilerimizin nerede tutulduğunun ve ne derece kritik olduğunun önemi giderek artmaktadır.

Daha fazla
ArcSight ESM MISP entegrasyonu nasıl yapılır?

ArcSight ESM MISP entegrasyonu nasıl yapılır?

Entegrasyon

SIEM ürünlerinin en önemli özelliği korelasyon yapabilmesidir. ESM de correlation engine sayesinde verileri işler ve korelasyon yapabilme yeteneği kazanır.

Daha fazla
Türkiye'nin En Mutlu İş Yeri ve Mükemmel Çalışan Deneyimi

“Türkiye’nin En Mutlu İş Yeri” ve 3 yıldız ile “Mükemmel Çalışan Deneyimi” ödüllerini büyük bir gurur ve heyecan ile aldık

Ofis

Happy Place to Work tarafından gerçekleştirilen uluslararası standartlara uygun değerlendirme sonrası sektöründe “En Mutlu İşyeri” seçilmiş olmamız başarımızı taçlandıran bir ödül oldu. Ofisimizde düzenlediğimiz bir etkinlik ile ödülümüzü alırken, değerlendirmeye katılan ve bizi bu ödüle layık gören ekip arkadaşlarımızla kutlama yaptık.

Daha fazla
ReFS ve NFTS Hakkında Karşılaştırma

ReFS vs. NTFS

Versus

Full Stabil yapılardan söz etmek mümkün mü? Dosya içeriği değişmiyor belki ama dosya sistemi, formatı ihtiyaçlarla paralel olarak değişebiliyor. Neden bu konuya girdim peki? Çünkü alışkın olduğumuz FAT32 ya da NTFS dosya sistemlerinin yanında artık sıklıkla duyulmaya başlanan ReFS dosya sistemi de yerini almaya başladı.

Daha fazla