Web kazıma halka açık verileri doğru şekilde elde edip, bunları depolama veya veri setleri oluşturmaya verilen isimdir. Halka açık verileri kazımak legal olsa da bazı durumlarda web kazıma yaparken dikkat edilmesi gereken durumlar vardır. Bu durumları makalemizde sizlere detaylıca anlatacağız.
Web Kazıma Nedir?
Web Kazıma yada global ismi ile bilinen Web Scraping aslında internet verilerini elde etme yöntemidir. Veri çekimi, veri hasatı gibi terimler de kullanılmakta olup, Web Scraping demek en sık kullanılan isimdir. Web Kazıma HTML türündeki sayfaları tarayıp, en uygun biçime getirip dilenilen formatta saklama anlamına gelmektedir. Bir web sayfası standart olarak HTML olup, bu web sayfası içerisinde ihtiyacınız olan veriyi Json veya farklı bir biçimde size uygun şekilde depolamaya Web scraping denir.
Web Kazıma Legal (Yasal) mıdır?
İnternette herkese açık, halka açık verileri kazımak yasaldır. Ancak websitelerin kullanım sözleşmesine dikkat etmek ve bu websitelerini kazırken o website kurallarını suistimal etmemeye dikkat edilmesi gerekmektedir. Her websitenin kullanım koşullarında halka açık verileri sunarken 3.cü kişilerin kullanımına dair kuralları mevcut olabilir.
Veri Kazıma halka açık olarak yapıldığı zaman yasal olması, bu verileri tekrar kullanırken veya işlerken o websitenin kurallarını ihlal etmemek gerektiği anlamına gelir. Kişisel veriler, fikri haklar, logolar, haber, telif hakları gibi içerikleri kazırken tekrar kullanım konusunda özellikle website kullanım koşulları okunması ve yasal sorunlarla karşılaşmamak için bunlara dikkat edilmesi gerekir.
Web Kazıma konusunda Avrupa Birliği ve veri kazıdığınız website ülkesinin kanunlarını okumanızda fayda var, halka açık veriler her ne kadar yasal ve elde edilebilir olsa da veri kazıma yaptığınız website kullanım sözleşmesinde bunlara izin vermiyorsa kazıma yapmamanız gerektiğini bilmeniz gerekiyor. Örneğin Türkiye’de hizmet veren en büyük araç ve ev ilan websitesi olan Sahibinden.com açıkca hizmet sözleşmesinde Web scraping’e izin vermediklerini belirtiyor. Sahibinden’in hizmet sözleşmesindeki scraping ile ilgili cümleyi aşağıya örnek olarak bırakıyoruz:
“Portal”ın iletişim veya teknik sistemleri engelleyen, bozan ya da sistemlere müdahale eder bir şekilde “Site”ye erişim sağlanmaya çalışılması, Site üzerinde otomatik program, robot, örümcek, web crawler, örümcek, veri madenciliği (data mining) veri taraması (data crawling) vb. “screen scraping” yazılımları veya sistemleri, otomatik aletler ya da manuel süreçler kullanılması, diğer kullanıcılarının verilerine veya yazılımlarına izinsiz olarak ulaşılması, çeşitli kriterlere göre yapılacak tespitler neticesinde bot çalıştırma, DDOS atakları ve sair her türlü sistemlerin bütününü veya bir kısmını bozmaya, değiştirmeye, mevcut performansını azaltmaya veya yok etmeye ve sair her türlü sisteme yönelik saldırıların ve sair hukuka aykırı kullanımların yapılması durumunda bu tür kullanımlar SAHİBİNDEN’in takdirine bağlı olarak engellenecektir.
Dünyadaki Veri Kazıma kanunları ne şekilde?
ABD’de veri kazıma yasal mı?
ABD mahkemeleri genelde halka açık verilerin özgür bir şekilde paylaşılması gerektiğini ve halka açık verilerin rahatca elde edilebileceğini savunmaktadır. Fakat kişisel veriler, telif hakları ve ilgili websitenin indexlenebilir sayfaları değilde oturum açtıktan sonra varolan verileri gibi ihlalere izin verilmemektedir. ABD veri kazıma konusunda California Tüketici Gizlilik Yasası (CCPA), Bilgisayar Sahtekarlığı ve Kötüye Kullanımı Yasası (CFAA) ve Telif Hakkı Yasası gibi yasaları örnek almaktadır.
Avrupa’da veri kazıma yasal mı?
Avrupa Birliği ülkelerince de tıpkı ABD gibi kişisel veriler, oturum açtıktan sonra elde edilen veriler ve telif haklı veriler gibi verilerin haricinde halka açık verilerin açıkca toplanabileceğini savunuyor. Ayrıca, toplamanızın Genel Veri Koruma Yönetmeliği (GDPR), Veritabanı Direktifi veya Dijital Tek Pazar Direktifi gibi herhangi bir AB veya ulusal düzenlemeyi ihlal etmediğinden emin olun.
İngiltere’de veri kazıma yasal mı?
İngiltere’de de tıpkı ABD ve AB gibi halka açık verilerin açıkca toplanabileceği savunuluyor. Fakat yine aynı şekilde özellikle bir oturum açmanın arkasındaki verileri, kişisel verileri, fikri mülkiyeti veya gizli verileri toplarken göz önünde bulundurmalısınız. Web kazıyıcılar için en önemli düzenlemeler arasında Veri Koruma Yasası, Telif Hakkı, Tasarımlar ve Patentler Yasası ve Bilgisayar Kötüye Kullanımı Yasası yer alır.
Türkiye’de veri kazıma yasal mı?
Türkiye’de veri kazıma ile ilgili hukuki bir yasa bulunmamakta fakat veri kazıma esnasında veri kazınan web sitesine aynı IP adresinden defalarca istek gider, bu website DDOS gibi bir saldırı görür ve website işlevsel olarak zarar görürse bu suç haline gelebilir. Türkiye’de herhangi bir veri kazıma kanunu olmamakla birlikte halka açık verilerin toplanabileceği tıpkı Avrupa, ABD ve İngiltere yasaları gibi mümkün. Fakat veri kazınacak websitenin robots.txt dosyasında veya Kullanım, hizmet sözleşmesinde veri kazımaya izin verip vermediğine dikkat etmek gerekirse o websiteden izin almak gerekmektedir.
Kişisel verileri toplamadan önce dikkat edin
Çok uzun zaman önce, çok az kişi kişisel veriler konusunda endişeleniyordu. Belirli düzenlemeler yoktu ve herkesin adı, doğum günü ve alışveriş tercihleri serbestçe kullanılabiliyordu. Bu durum artık Avrupa Birliği’nde (AB), Kaliforniya’da ve diğer yargı bölgelerinde geçerli değil. Kişisel verileri topluyorsanız, Genel Veri Koruma Yönetmeliği ( GDPR ) ve Kaliforniya Tüketici Gizlilik Yasası ( CCPA ) ve yerel yönetmelikleriniz hakkında mutlaka bilgi edinmelisiniz.
Dünyanın dört bir yanındaki düzenlemeler farklı olduğundan, nereden ve kimin verilerini topladığınız konusunda dikkatli düşünmeniz gerekir. Bazı ülkelerde bu tamamen sorun olmayabilirken, diğer yerlerde kişisel verileri tamamen önlemelisiniz. Daha fazla bilgi edinmek istiyorsanız, işte GDPR ve CCPA’nın harika bir karşılaştırması.
Peki kişisel veri (bilgi) nedir?
GDPR kişisel verileri şu şekilde tanımlar : “Kişisel veriler, tanımlanmış veya tanımlanabilir bir gerçek kişiyle ilgili herhangi bir bilgi anlamına gelir” Bunu okumak biraz zor, ancak tanımın ne kadar geniş olduğuna dair bize bir fikir veriyor. Belirli bir insanla ilgiliyse hemen hemen her şey kişisel veri olabilir. CCPA tanımı oldukça benzerdir, ancak buna kişisel bilgi der . Basitleştirmek için yalnızca kişisel veri terimini kullanacağız.
Tanımın genişliğini göstermek için kişisel veriye ilişkin bazı örneklere bakalım :
- Bir kişi hakkında resmi veriler
- adı, soyadı
- doğum tarihi
- adres
- sosyal güvenlik numarası, pasaport numarası, ulusal kimlik numarası
- istihdam bilgisi
- İletişim bilgileri
- telefon numarası
- e-posta adresi
- IP adresi
- Facebook, Twitter ve diğer ağ hesapları
- Uygulamalar tarafından sıklıkla toplanan veriler
- konum adres veya GPS ile
- alışveriş tercihleri
- davranışsal veriler
- Kişilerin video + ses kayıtları ve biyometrik veriler
- Özel kategorilerdeki kişisel veriler
- cinsiyet, toplumsal cinsiyet ve cinsel yönelim
- ırksal veya etnik köken
- dini inançlar
- siyasi görüşler
- tıbbi kayıtlar
Gördüğünüz gibi, bir insan hakkındaki hemen hemen her bilgi kişisel veriyi oluşturur. Bunun kapsamlı bir liste olmadığını unutmayın. Şüpheye düştüğünüzde, tanımı tekrar okuyun ve bilginizin buna uyup uymadığına karar vermeye çalışın.
Sosyal medya platformlarının veri kazıma ile mucadelesi
Meta Platforms yani Instagram ve Facebook, eski Twitter (X) geçmiş zamanda veri kazıma ile ilgili bazı firmalara dava açtı ve bu konudaki tavırlarını sergiledi. Bu davaların çoğu ABD tarafından kabul edilmese de aslında platformların küçük veri kazıma şirketlerini yıldırmak için böyle şeyler yaptığı yönünde söylemler mevcut. Bağlılıklarını vurgulamak için
Octopus Data, Inc. , BrandTotal Ltd. , Ekrem Ateş , Social Data Trading Ltd. (daha önce bahsedildiği gibi) ve en son Bright Data Ltd. gibi şirketlere karşı çeşitli web kazıma yazılımları veya hizmetleriyle bağlantılı olan birkaç dava açtılar.
ABD yasalarınca halka açık verilerin toplandığı veri kazıma işlemleri yasal olarak kabul ediliyor, fakat oturum açılarak yani belki binlerce hesap oluşturarak o websiteden halka açık olmayan yalnızca giriş yapılarak elde edilebilecek verilerin çekilmesini sağlayan veri kazıma işlemleri illegal yani yasal kabul edilmiyor.
Meta’nın bir Türk Ekrem Ateş’e dava açması
Meta 2022 yılında Instagram’ın halka açık olmayan profil verilerini, binlerce bot hesap ile toplayan Ekrem Ateş’e dava açmıştı. Dava dosyasına buradan ulaşabilirsiniz. Davanın kabaca detayı aslında Meta’ya ait olan Instagram profillerinin kapalı olmasına rağmen bot hesaplar ile o profillerin halka açık bir şekilde yeniden pazarlanması ile ilgili. Brightdata, Octoparse gibi şirketlerin davaları sonuçlandı fakat Ekrem Ateş’in davasının ne olduğu hakkında henüz bilgimiz yok.
Meta, daha önce veri kazıma amacıyla kullandığı ancak daha sonra platformlarından veri kazıdığı gerekçesiyle dava açtığı Bright Data’ya karşı açtığı hukuk mücadelesini kaybetti.
Mahkeme, Meta’nın şirketin kamuya açık olmayan verileri -yani bir oturum açma ekranının arkasında olmayan veya parola korumalı olmayan verileri- topladığını kanıtlayamadığına karar verdi. Meta’nın kanıtı, Bright Data’nın halka açık olarak satılan Facebook veya Instagram kullanıcı verilerini toplamasının yetkisiz erişim içerdiğini veya sözleşme şartlarını ihlal ettiğini yeterli şekilde göstermedi.
Sonuç
Peki, web scraping yasal mı değil mi? Veri kazıma yasal mı? Karmaşık bir sorun, ancak biz kesinlikle öyle olduğuna inanıyoruz ve bu kısa ve cesurca basitleştirilmiş yasal analizin sizi de ikna ettiğini umuyoruz. Ayrıca web kazımanın önünde harika bir gelecek olduğuna inanıyoruz. Kazımanın internette bilgi toplamak ve hatta yeni bilgi oluşturmak için yararlı ve etik bir araç olarak kabul edilmesinde yavaş ama istikrarlı bir paradigma değişimi görebiliyoruz.
Statista‘ya göre, büyük veri pazarının geliri her yıl artıyor ve güçlü bir veri toplama yöntemi olan web kazımanın da daha fazla popülerlik kazanması doğal. Bununla birlikte, giderek artan sayıda insanın benimsemesiyle birlikte, web kazımanın yasallığı, geliştiriciler ve bu alanda çalışan diğer kişiler arasında çok tartışılan bir konu haline geldi.
Sonuç olarak veri kazıma otomasyonları insanların internette gezebilerek yapabileceği işleri proxy ve veri kazıma botları ile daha hızlı yapmasına olanak sağlıyor. Fakat bu veri setlerini tekrar pazarlama konusunda tabiki websitelerin kurallarına dikkat etmekte fayda var. Ayrıca oturum açarak websitenin aslında gözükmeyen ama oturum açılarak görültülenen bölümlerini halka açık olarak yayınlamak yasal olarak problem yaratabilir. Bu yüzden yukarıdaki makalemizi dikkatli okuduğunuzdan emin olun.
Ayıca veri kazıma işlemlerinde yasal problem yaşamamanız için bizim gibi bir profesyonel firmadan destek almayı unutmayın.