İnternet şu anda çok büyük bir bilgi kaynağıdır ve hem iş hem de eğitim alanında giderek artan önemde bir rol oynamaktadır. Ancak, yeterli kontrollerin olmadığı bir yerde, organizasyonlar için çok geniş yelpazedeki sorunlarla karşı karşıya kalma olasılığı vardır. Bu yelpaze, iş sırasında İnternet’in kişisel olarak aşırı kullanılması sonucu çalışan verimliliğini etkilemekten, kullanıcıların uygunsuz içeriğe erişmeleri nedeniyle ortaya çıkan yasal risklere kadar değişmektedir.
Bu, organizasyonların kullanıcılar için İnternet erişiminde proaktif bir yönetim uygulayabilmesine imkan veren web filtreleme ürünlerinin ortaya çıkmasına neden olmuştur.
WEB FİLTRELEME NEDEN GEREKLİDİR?
Web filtreleme terimi, genel olarak, şirketlerin kendi kullanıcılarının İnternet kullanımını kısıtlamak ya da izlemek için kullanılabildikleri işlem ve araçları tanımlamak için kullanılır.
İnternet, organizasyonların verimliliğini arttırma, harcamalarını düşürme ve satışlarını yükseltmede son derece etkili bir yoldur. Hızlı ve verimli bir şekilde araştırma yapmayı, öğrenmeyi geliştirmeyi, müşterilerle etkileşime girmeyi ve iş yapmayı sağlar.
Ancak aynı zamanda kullanıcıların erişimi için, sadece bir kaçı pornografi, şiddet ve ırkçılık adına olan, uygunsuz içeriğin olmasının muhtemel olduğu bir kaynaktır.
Uygunsuz içeriğin yanı sıra, şirketin verimliliğinde dolayısıyla da finansında büyük ölçüde etkisi olabilen, alışveriş, sosyal ağlar ve haberler gibi geniş bir yelpazede farklı türde içerik bulunur.
Ayrıca, İnternet erişimini proaktif bir şekilde yönetmeyen şirketlerin karşı karşıya kalabileceği İstihdam ve Cinsiyet Ayrımcılığı mevzuatı gibi bir dizi risk de mevcuttur. Bazı durumlarda bu, finans ve itibar kayıplarına neden olabilir.

WEB FİLTRELEMENİN ORTAYA ÇIKIŞI
İnternet birkaç yüz bin web sitesinden oluştuğu zamanlarda, buna bağlı olarak web filtreleme de basitti. IT yönetimi basit bir şekilde, kullanıcıların ziyaretine izin verilen ve verilmeyen, “iyi” ve “kötü” sitelerin bir listesini tutmak zorundaydı. Genellikle bu, mesela bir Güvenlik Duvarı gibi bir ağ ögesi dahilinde yapılırdı.
Ancak İnternet çok hızlı bir şekilde o kadar büyüdü ki, bu yaklaşım daha fazla sürdürülemedi. 2007 sonu itibarıyla, İnternet’teki %48’lik büyüme ve başlıca arama motorlarının endekslediği 46 milyar web sayfası kayda değerdir.
Altı çizilecek başka bir mesele de, hem iyi hem de kötü olması muhtemel sitelere erişimin nasıl idare edileceğidir. Örneğin; bir seyahat sitesi bazı kullanıcılar için iş bağlamında “iyi” olabilirken, bazı kullanıcılar için “kötü”dür.
Web filtreleme, bu iki anahtar faktörden ötürü süratli bir şekilde kökleşmiştir.
Bu tanıtımın geri kalan kısmında, web filtrelemede kullanılan bazı alternatif teknolojiler ele alınmaktadır.

Temel WEB FİLTRELEME – GÜVENLİK DUVARLARI
Web filtrelemenin en temel seviyesi bir ağ Güvenlik Duvarı aracılığıyla gerçekleştirilebilir. Bu, filtrelemeye bir derece izin verirken, öte yandan Güvenlik Duvarı’nın istenen siteye izin vermeye ya da engellemeye karar vermesini belirlemek üzere trafiği incelemeye ihtiyaç duyması gibi belirgin performans sonuçları vardır.
Ayrıca, Güvenlik Duvarı’nın raporlama yeteneği çok basittir. Gerçi, web sitesine erişim olduktan sonra web erişiminde sınırlı bir şekilde yönetim incelemesine izin verir. Ancak, bu tipik olarak yoğun emek gerektirir ve belirli bir kullanıcının herhangi bir uygunsuz erişime sorumluluğu ile ilgili sağlam kanıtlar sağlamada yetersizdir.
Kara listeler, istenmeyen web adreslerini listelemek için kullanılabilir ve bu sitelere erişimi engelleyebilir. Beyaz listeler kabul edilebilir web adreslerini listelemek için kullanılabilir ve çoğu kez, sadece beyaz listelerde bulunan bu sitelere erişimi kısıtlamak için kullanılır. İnternet ölçeği şu anda öyle bir durumdadır ki, listelerin idame ettirilmesi zorlu bir mücadele gerektirir; Kullanıcıların gerçekten samimi nedenleri veya bir siteye erişim ihtiyaçları varsa öncelikli olarak onay almak zorunda kalmaları ve izin verilen URL’lerin içine dahil ettirmeleri çok can sıkıcı bir durumdur.
Daha gelişmiş çözümlerde, kara ve beyaz listeler kullanıcı kuralları için istisnaları listelemek için kullanılır. Örneğin; bir kullanıcının seyahat sitelerine erişime izi olmayabilir ancak uçak bileti rezarvasyonları yaptırmak için düşük maliyetli havayolu sitelerine erişimi sağlanabilir.
URL VERİTABANI WEB FİLTRELEMESİ
Web filtrelemede en yaygın yöntemlerden biri, milyonlarca web adresinin alışveriş, kumar, şiddet vb. gibi içeriklerine göre sınıflandırılmış bir veritabanını yaratmaktır. Tipik bir URL veritabanı olarak bilinen bunlar, İnternet’in büyüklüğünü karşılamaya çalışarak zaman içinde boyut olarak artmıştır.
URL veritabanı, bir dizi kullanıcının İnternet erişim profillerini yaratmada etkin bir şekilde kullanılabilir, böylece farklı kullanıcı grupları kontrollü İnternet erişimi elde eder.
Pratikte bunun anlamı şöyledir ki, bir kullanıcının İnternet erişim hakkı olmayabilir, başka bir kullanıcının sadece tek bir web sitesine erişimi bulunabilir, bir sekreter seyahat sitelerine erişebilir ancak alışveriş sitelerine erişemez, bir yönetici şiddet, ırkçılık ve pornografi gibi uygunsuz siteler haricinde geniş bir İnternet erişimine sahip olabilir.
Bu tarz yaklaşım talebi, tipik bir şekilde kendi URL listelerini idame ettirmek için yoğun olarak araştırma yapan ve büyüten, giderek artan sayıda bir URL veritabanı oluşturucusu yaratmıştır.

URL VERİTABANLARININ YARATILMASI VE BAKIMI
Her gün binlerce URL çeşitli yöntemler kullanılarak öncelikli olarak “toplanmaktadır”, fakat URL’leri gözden geçiren insanlar kullanarak elle sınıflandırma yapmak, sınıflandırma doğruluğunu garanti altına almakta halen ağırlıklı olarak kullanılmaktadır.
Elle sınıflandırmada, her bir URL gözden geçiricisinin web sitesindeki içeriği okuması ve resimlere bakması, web sitesinin türüne karar vermesi ve ilgili veritabanı içinde sınıflandırması gereklidir. Bu yaklaşımın doğruluğu değişkendir – örneğin; pornografik bir web sitesini ayırt etmek bir dereceye kadar kolaydır, ancak kimliği belirsiz proxy’leri belirlemek daha az kolay olur.

URL VERİTABANLARININ ZORLUKLARI
URL veritabanları bir takım zorluklar gösterir.
Yanlış sınıflama Her sitenin mevcut olan sınırlı zamanda sınıflandırılmasıyla beraber, gözden geçiriciyi kasti olarak yanlış bilgilendirmek isteyen herhangi bir web sitesi (örneğin daha derinlenmesine incelendiğinde pornografiye dönüşen bir yemek sitesi), sahip olduğu uygunsuz URL’nin meşru olarak sınıflandırılmasında kolaylıkla başarılı olabilir.
Web sitelerinin yanlış sınıflandırılması kullanıcılar için son derece can sıkıcıdır ve çoğu zaman müşterilerle tedarikçiler arasında bir anlaşmazlık kaynağıdır.
İnternet’in büyümesi ve dinamik doğasıyla aynı hızda ilerleme İnternet’in hergün yaklaşık 7,5 milyon yeni ya da isim değiştirmiş web adresiyle sürekli büyüyor olması söz konusudur. Ancak bir URL sınıflandırıcısı tipik olarak günde 500 web adresini gözden geçirerek sınıflandıracaktır. Bu büyümeyle aynı hızda ilerlemek ve amacına uygun güncel bir URL veritabanı tutmak 15,000 civarında sınıflandırıcı gerektirecektir. Maliyet açısından bakınca bunun gerçekçi olmadığı açıktır.
Buna ek olarak, yeni yaratılmış web sitelerinde, sitenin toplanması, gözden geçirilmesi ve veritabanına eklenmesi birkaç hafta ya da ay sürebildiği için, sıfır gün tehditlerine karşı korumada eksiklik vardır.
Ayrıca, web filtreleme tedarikçileri URL’leri sınıflandırmadan önce yeniden denetlemek için özellikle motive edilmiş değildirler. Sitelerin kayda değer bir miktarı, yeniden adlandırılmaz ya da bunların işlevsellikleri durdurulmaz ve bunların URL listelerinden silinmesi gitgide büyüyen bir veritabanının yükselmesini durdurma riski taşır. Bu nedenle web filtreleme tedarikçilerinin veritabanı büyüklükleri ile ilgili iddaaları, bunların kapasitesi hakkında bir neticeye varmak için daha ileri bir inceleme gerektirir.
Ölçek Web filtrelemesi sağlayan şirketler genellikle sınıflandırdıkları sitelerin veritabanı büyüklüğü bazında farklılaşmayı denerler – bu veritabanlarının 15 ila 35 milyon sınıflandırılmış site içermesi olağandır. Uyguladıkları prensip, daha büyük URL veritabanının, kapsamdan ve verilen korumadan daha iyi olduğu şeklindedir.
Ancak, İnternet’in toplam büyüklüğü bağlamında, URL veritabanının incir çekirdeğini doldurmaz büyüklüğünün önemi yoktur, bu da IT yöneticilerinin, veritabanında listelenmemiş olan, talep edilen URL’lere erişime izin verip vermeyeceklerine karar vermeleri gerektiği anlamına gelmektedir.

URL veritabanında listelenmemiş olan, talep edilen herhangi bir URL’ye izin vermek, kullanıcıların İnternet’in çok büyük bir parçasına serbest ve kontrolsüz erişime sahip olmaları ve bunun sadece önceden bilinen riskleri ve tehlikeleri arttıracağına anlamına gelir. Bu engelleme azaltma, tedarikçiler için huzursuzluk vericiyken, eğitim gibi belli sektörler için de tamamen kabul edilemez bir durumdur.
Tersi yaklaşımı kabul ederek veritabanında listelenmemiş olan, talep edilen bütün URL’leri bloke etmek aşırı engelleme ile sonuçlanır ve genellikle kullanıcılarda bir gerilim yükselmesi ve IT yönetiminde beyaz listeye eklenen siteler için harcanan zamanda artış anlamına gelir.

GÖRÜNTÜ TARAMA
Görüntü tarama, bir ağda pornografiyi bloke etmek için faydalıdır, ancak kusursuz bir yöntem değildir. Pahalı olmaya ve işlem yoğunluğu fazlalığına eğilimli olup, İnternet erişimini yönetmek için gerçekçi bir çözüm değildir.

URL ANAHTAR KELİME TARAMA VE PUANLAMA
URL Anahtar Tarama ve Puanlama, tipik olarak URL Veritabanı web filtrelemesini tamamlayarak, korumaya ek bir katman sağlamak üzere kullanılır. Anahtar Kelime Tarama, ya kullanıcı tarafından talep edilen ya da istenen web adresinin içindeki anahtar kelimeleri inceler. Bunlar kapsamlılığı, kullanıldığı yere göre değişir.

METİN-İÇİ SAYFA ANAHTAR KELİME TARAMA
URL anahtar kelime ve puanlamaa benzer şekilde Metin-İçi Anahtar Tarama da, talep edilen web sayfası kullanıcıya teslim edilmeden önce bunun üzerinde metni taramak suretiyle çalışır. Anahtar kelimelerin ve nahoş sözcüklerin listesi yaratılarak pozitif ya da negatif puanlar verilir. Kullanıcılar bir sayfayı talep ettiklerinde, bu kelimelerin bulunması açısından içerik analiz edilir ve eğer sayfa, kullanıcı için ayarlanan aşamalı puanlamayı aşıyorsa, bu sayfa engellenir.
Bazı tedarikçiler, adreslenmiş dikey pazarın ihtiyaçlarını temin etmek için, anahtar kelime taleplerinin uyarlandığı IT yönetimine izin verir. Buna bir örnek olarak, ana sistemin, wire strippers (kablo sıyırıcı), road hardcore (yol blokajı) vs. için araştırma yapan öğrencileri engellendiği bir inşaatçılık okulu verilebilir. Bu sistemler, böyle spesifik kavramlara izin verecek ancak “strippers” (striptizciler) kelimesini tek başına araştırmayı engelleyecek şekilde yapılandırılabilir.
Bu tür filtrelemede uygunsuz içerik için kendine has kullanımlar vardır, ayrıca önceden tanımlanmış web sitesine ve bunun engellenmesi için sınıflandırılmış olmaya ihtiyaç duymaz. Pozitif hatalarla ile ilgili bazı sorunları da çözer (örn; yer isimleri).
Ne var ki, Metin-İçi Sayfa Tarama da sadece bazı uygunsuz siteler engellendiğinde, bu siteler eğer net bir lügata sahiplerse, gerçekten fayda sağlar. Ama mesela; bir spor yazısının bir spor sitesinde mi yoksa bir haber sitesinde mi olduğunu ayırt edemeyecektir. Hatta, eğer farklı dillerdeki uygunsuz kelimeler listelenmemişse, bu içeriğin bulunduğu sitelere izin verilecektir.
Bu yöntem, içeriği dikkate almaz ve çoğu kez kullanıcıların erişimine izin verilmesi gereken siteleri engeller. Örneğin; Anahtar Kelime Tarama, eğer “iyi” anahtar kelime kombinasyonları listelenmiş ve bunlar uygunsuz kelime tarafından kazanılan puanı hükümsüz kılmışsa, sadece bir kumar web sitesini “kumardan korunma” web sitesiyle ayırt edebilmeye yatkındır. Eğer “iyi” anahtar kelimeler listelenmemiş veya yeterli sıklıkta kullanılmışsa, tamamen makul siteler (örn; Cinsellik Eğitimi) yanlışlıkla engellenebilir.

GERÇEK-ZAMANLI İÇERİK ANALİZİ VE SINIFLANDIRMA
Halihazırda web filtreleme tedarikçilerinin büyük çoğunluğu, önceden tanımlanmış olan tekniklerin varyasyonlarını ve kombinasyonlarını kullanmaktadırlar. Ancak, web filtreleme tedaikçileri artık farkına varmaya başlıyorlar ki, bu filtreleme teknikleri tek başına web’in büyümesi ve dinamik doğası ile başa çıkamazlar. Hergün yaratılan milyonlarca web sitesi, web filtreleri tarafından kolayca gözden kaçmaktadır, çünkü bunlar henüz kendi URL veritabanlarına eklenmemiştir veya URL/sayfa tarayıcısı tarafından algılanmazlar.

Yeni teknoloji artık, bir sayfa talep edildiği anda ve kullanıcıya teslim edilmeden önce o sayfadaki metnin desen ve içeriğini analiz etmek için, ileri yazılım teknikleri kullanarak ortaya çıkıyor.
Bloxx Tru-View Teknolojisi, web filtrelemede bu tarz yaklaşıma bir örnektir.
Yazılım, önceden belirlenmiş bir takım kategorilere karşı toplanmış web sayfalarından dil kalıpları ve içerik bilgisi kullanmak suretiyle çalışır, sonrasında ise talep edilen sayfayı otomatik olarak analiz ederek, imza karşılaştırmalarını baz alarak sayfayı sınıflandırır.
Web filtrelemedeki bu metin-içi gerçek-zamanlı yöntem, daha önce hiç keşfedilmemiş ve dolayısıyla da URL veritabanında henüz listelenmemiş web sayfalarının belirlenmesine ve son derece yüksek bir seviyedeki sınıflandırma hassasiyeti ile doğru bir şekilde sınıflandırılmasına izin verir.
Yöntem, web sayfalarını sadece pornografi gibi uygunsuz içeriğe karşı değil, çok kapsamlı sayıda farklı kategori karşısında sınıflandırmada son derece etkilidir. Örneğin; yazılım, uygunsuz olmayabilen ama çalışan verimliliğinde çarpıcı bir etkiye sahip olabilecek, alışveriş ve sosyal ağ gibi içeriği sınıflandırmada mükemmeldir.
Web filtrelemedeki bu çok katmanlı yaklaşım, bir URL veritabanı ve Anahtar Kelime Tarama gibi mevcut olan bazı web filtreleme yaklaşımları ile birlikte kullanıldığında, günümüz İnternet’inin talepleriyle başa çıkmakta son derece etkili bir yöntem sunar.
Günümüzün Teknoloji Denetçilerinden biri olan endüstri analisti Butler firması, üçüncü nesil web filtrelemenin mevcudiyeti hakkında konuşmuş ve mevcut web filtreleme teknolojilerinin İnternet’in büyüklüğü ile daha fazla başa çıkamayacağını, bunların organizasyon ve kullanıcılarına sınırlı bir koruma verebildiğini teyit etmiştir.
Butler Analisti Andy Kellet, Bloxx’un yaklaşımını özetlerken şu şekilde bir açıklamada bulunmuştur:
” Butler Grubu’nun fikrine göre, Bloxx’un kendi TVT çözümleri içinde kullandığı Web filtrelemedeki çok-katmanlı koruma ve içerik analizi yaklaşımı, pazara tedarikçiler tarafından sık sık sürülen, hala URL veritabanlarını güncel olarak saklamaya çılgınca ihtiyaç duymaya bel bağlayan web filtreleme çözümlerine göre yüksek rekabetçi, çığır açan bir çözüm sunmaktadır.”

ÖZET
URL Veritabanı web filtreleri, İnternet’in her günkü büyüme oranının bir sonucu olarak daha geriye düşmektedir. Hiçbir tedarikçi bu yöntemi tek başına kullanarak İnternet’in büyüme ve değişme oranlarını karşılamak üzere yeterli kaynak için yatırım yapamaz.
Kara ve Beyaz listeler, URL listeleri, Anahtar Kelime Tarama, bunların hepsi daha önceki savunma düzeneklerinin kapsamına bağlıdır – Daha önceki kapsamlı kelimeler, sözcük öbekleri, istisnalar vb. gibi ile uyumlu olmayan bir web sitesinde, web filtrelemenin etkinliği boşa çıkar.
Anahtar kelime sayfa tarama, en çok belli türde bir site için kendine özgü dilin vurgulandığı sitelerde etkilidir – örneğinİ; porno sitelerindeki argo kelimeler. Anahtar kelime tarama yoluyla temel web sitelerini tanımlama yeteneği çok daha fazla sınırlı olup bazı durumlarda tamamen etkisizdir.
Bazı web filtreleme çözümleri, kullanılan uyarlama yöntemleri yüzünden sayfa içeriği analizini hiçbir şekilde yapmaya muktedir değildirler. Bu çözümler, filtrelemeyi sağlamak için sadece büyük URL veritabanlarına yoğunlaşmaya mecburdurlar.
Gerçek zamanlı içerik analizi ve sınıflandırma, günümüz İnternet’inin talepleriyle en etkin ve en verimli şekilde başa çıkabilen bir web filtresi sağlamak üzere, diğer web filtreleme teknikleriyle birleştirilerek kullanılabilir.