AI zehirlenmesi, izinsiz verileri terk eden botlarla nasıl savaşıyor? - Haberler

Web, izinsiz verileri kazıyan botlarla çalkalanır. Artık içerik oluşturucular yapay zekanın kuyusunu zehirliyor – ancak benzer teknoloji, yanlış bilgi yaymak için de kullanılabilir

Yeni bilim adamı. Bilim haberleri ve uzman gazetecilerin uzun okumaları, web sitesinde ve dergideki bilim, teknoloji, sağlık ve ortamdaki gelişmeleri kapsar.

Web’in sosyal medya güncellemeleri yayınlayan veya memeler alışverişi yapan insanların hakim olduğu günler geride kaldı. Bu yılın başlarında, verilerin izlenmesinden bu yana ilk kez, insanlar yerine web tarama botları web trafiğinin büyük kısmını açıkladı.

Örneğin, bu bot trafiğinin yarısından fazlası kötü niyetli botlardan geliyor ve örneğin çevrimiçi olarak korunmasız bırakılan kişisel veriler. Ancak artan bir oran, yapay zeka şirketleri tarafından modelleri için veri toplamak veya kullanıcı istemlerine yanıt vermek için gönderilen botlardan gelir. Gerçekten de, AI şirketi Antropic tarafından geliştirilen otomatik bir sistem olan Claudebot’un yüzde 13’ünü oluştururken, Openai’nin Chatgpt’i güçlendiren bir bot olan Chatgpt-User artık tüm web trafiğinin yüzde 6’sından sorumlu.

Yapay zeka şirketleri, bu tür veri kazımalarının modellerini güncel tutmak için hayati önem taşıdığını söylüyor. Bununla birlikte, içerik oluşturucular farklı hissediyorlar, AI botlarını büyük ölçekte telif hakkı ihlali için araçlar olarak görüyorlar. Örneğin, bu yılın başlarında Disney ve Universal, teknoloji firmasının imaj jeneratörünün popüler franchise’lardan karakterleri intihal ettiğini savunarak AI Company Midjourney’e dava açtı. Yıldız Savaşları Ve Despicable Me.

Çok az içerik oluşturucu dava için paraya sahiptir, bu nedenle bazıları daha radikal savaşmak için daha radikal yöntemler benimsiyor. AI botlarının içeriğini bulmasını zorlaştıran çevrimiçi araçlar kullanıyorlar – ya da botları yanlış okumak için kandıracak şekilde manipüle ediyorlar, böylece AI, otomobillerin görüntülerini inek görüntüleriyle karıştırmaya başlar. Ancak bu “AI zehirlenmesi” içerik oluşturucuların çalışmalarını korumalarına yardımcı olabilirken, web’i yanlışlıkla daha tehlikeli bir yer haline getirebilir.

Telif hakkı ihlali

Yüzyıllar boyunca, taklitçiler sanatçıların çalışmalarını taklit ederek hızlı bir kâr elde ettiler. Fikri mülkiyet ve telif hakkı yasalarına sahip olmamızın bir nedeni budur. Ancak Midjourney veya Openai’s Dall-E gibi AI görüntü jeneratörlerinin son birkaç yılına varış sorunu süper şarj etti.

ABD’de temel bir endişe, adil kullanım doktrini olarak bilinen şeydir. Bu, telif hakkıyla korunan materyal örneklerinin, telif hakkı sahibinden izin istemeden belirli koşullar altında kullanılmasını sağlar. Adil kullanım yasası kasıtlı olarak esnektir, ancak kalbinde, yeterince değişmesi ve orijinal çalışma üzerinde zararlı bir piyasa etkisi olmaması koşuluyla, yeni bir şey yaratmak için orijinal bir çalışma kullanabileceğiniz fikridir.

Birçok sanatçı, müzisyen ve diğer kampanyacılar, AI Tools’un adil kullanım ve telif hakkı ihlali arasındaki sınırları içerik yaratıcılarının maliyetine bulanıklaştırdığını savunuyor. Örneğin, birisinin Mickey Mouse’un bir resmini çizmesi, örneğin Simpsons’ın kendi eğlenceleri için evreninde zorunlu değildir. Ancak yapay zeka ile, herkesin bu tür görüntülerin çok sayıdaini hızlı bir şekilde döndürmesi ve yaptıklarının dönüştürücü doğasının sorgulanabilir olduğu bir şekilde mümkündür. Bu görüntüleri yaptıktan sonra, örneğin kişiselden ticari kullanıma geçecek ve adil kullanım doktrini ihlal edecek olan bir dizi tişört üretmek kolay olacaktır.

Ticari çıkarlarını korumak isteyen ABD’deki bazı içerik yaratıcıları yasal işlem görüyor. Haziran ayında piyasaya sürülen Midjourney’e karşı Disney ve Evrensel Dava sadece en son örnek. Diğerleri arasında devam eden bir yasal savaşı içerir New York Times ve Openai, gazetenin hikayelerinin yetkisiz kullanımı iddiasıyla.

CPR5D2 Le Roi Lion — Disney, Disney karakterlerini intihal ettiğini söyledikleri görüntü jeneratörü hakkında AI Company Midjourney’e dava açtı

Yapay zeka şirketleri, adil kullanım doktrini altında veri kazımasına izin verilebileceğinde ısrar ederek, herhangi bir haksızlığı reddediyor. Mart ayında ABD Bilim ve Teknoloji Politikası Ofisi’ne açık bir mektupta, Openai’nin Küresel İşler Başkanı Chris Lehane, dünyanın başka yerlerinde, içerik oluşturucular için daha güçlü telif hakkı korumaları sağlama girişimlerinin olduğu, “yenilik ve yatırım bastırıyor” diye uyardı. Openai daha önce, telif hakkıyla korunan işleri kullanmadan insanların ihtiyaçlarını karşılayan AI modelleri geliştirmenin “imkansız” olacağını söyledi. Google benzer bir görüşe sahip. Mart ayında da yayınlanan açık bir mektupta şirket, “Üç hukuk alanı, önde gelen modelleri eğitmek için gerekli verilere uygun erişimi engelleyebilir: telif hakkı, gizlilik ve patentler” dedi.

Ancak, en azından şimdilik, kampanyacıların kendi taraflarında kamuoyu mahkemesi var gibi görünüyor. Site IPWatchDog, ABD Telif Hakkı Ofisi tarafından telif hakkı ve yapay zeka ile ilgili bir soruşturmaya kamuya açık yanıtları analiz ettiğinde, yorumların yüzde 91’inin AI hakkında olumsuz duygular içerdiğini buldu.

AI firmalarının halka açık bir sempati kazanmasına yardımcı olmayabilecek şey, botlarının bazı web sitelerine o kadar fazla trafik gönderdiğinden ve belki de bazı web sitelerini çevrimdışı olmaya zorladıkları ve içerik içerik oluşturucularının bunları durdurmak için güçsüz olduklarından şüphe duyuyor. Örneğin, içerik oluşturucuların botların, botların yasaklandığını söylemek için web sitesinin kalbindeki küçük bir dosyayı yeniden yapılandırmak da dahil olmak üzere botların web sitelerini taramaktan vazgeçmek için kullanabileceği teknikler vardır. Ancak botların bazen bu tür talepleri göz ardı edebileceğine ve yine de sürünmeye devam edebileceğine dair göstergeler var.

AI veri zehirlenmesi

Öyleyse, AI botlarına karşı daha güçlü koruma sağlayan içerik oluşturucular için yeni araçların sunulması şaşırtıcı değil. Böyle bir araç, kullanıcılarına dağıtılmış hizmet reddi (DDOS) saldırılarına karşı koruma sağlayan bir internet altyapı şirketi olan Cloudflare tarafından başlatıldı ve bir saldırganın bir web sunucusunu o kadar çok trafiğe sahip olacak ve siteyi çevrimdışı vuracak. Kendi DDOS benzeri risklerini oluşturabilecek AI botlarıyla mücadele etmek için Cloudflare, ateşle ateşle savaşıyor: AI botlarının, aradıkları gerçek bilgilerden ziyade tüm zamanlarını ve enerjisini saçmalıklara bakarak harcamaları için saçma içeriklerle dolu bir labirent üretiyor.

AI labirent olarak bilinen araç, Cloudflare’nin ağındaki web sitelerinde karşılaştığını söylediği AI tarayıcılarından günde 50 milyar talebi tuzağa düşürmek için tasarlanmıştır. CloudFlare’e göre, AI labirent, AI tarayıcıların ve ‘tarama’ direktiflerine saygı duymayan diğer botların kaynaklarını “yavaşlatmalı, karıştırmalı ve harcamalı ve boşa harcamalı”. Cloudflare, o zamandan beri AI şirketlerinden web sitelerine erişmek için ödeme yapmalarını veya içeriğini taramasını engelleyen başka bir araç yayınladı.

Bir alternatif, AI botlarının çevrimiçi içeriğe erişmesine izin vermektir – ancak verileri botun amaçları için daha az kullanışlı hale getirecek şekilde “zehirlemek”. Chicago Üniversitesi’nde geliştirilen Glaze ve Nightshade Tools, bu direniş biçiminin merkezinde yer aldı. Her ikisi de üniversitenin web sitesinden indirmek için ücretsizdir ve bir kullanıcının bilgisayarında çalışabilir.

2022’de piyasaya sürülen Glaze, bir sanatçının çalışmalarına algılanamaz, piksel düzeyinde değişiklikler veya “stil pelerinler” uygulayarak defansif olarak işlev görüyor. İnsanlar için görünmez olan bu değişiklikler, AI modellerinin sanatın tarzını yanlış yorumlamasına neden oluyor. Örneğin, bir suluboya boyası bir yağlı boya olarak algılanabilir. 2023’te yayınlanan NightShade, görüntü verilerini – yine, insanlar söz konusu olmadığı kadar algılanamaz bir şekilde – zehirleyen daha saldırgan bir araçtır, bir yapay zeka modelini “kedi” kelimesini köpeklerin görüntüleriyle ilişkilendirmeyi öğrenmek gibi yanlış bir ilişki kurmaya teşvik eder. Her iki araç da 10 milyondan fazla indirildi.

Şekil 7. Zehirli konseptle istendiğinde, gece kümesi zehirli SD-XL modelleri ve temiz SD-XL modeli tarafından üretilen görüntülere örnekler — Nightshade aracı, köpekleri kedi olarak temsil edecek şekilde yavaş yavaş zehirler.

AI zehirleme araçları, hem sır hem de gece kümesinin arkasındaki kıdemli araştırmacı olan Chicago Üniversitesi’nde Ben Zhao, sanatçıların eline geri döndü. “Bunlar, tam anlamıyla dünyanın en büyük şirketleri olan trilyon dolarlık piyasa-cap şirketleri, istediklerini zorla alıyor” diyor.

Zhao’s gibi araçları kullanmak, sanatçıların çalışmalarının nasıl kullanıldığı konusunda sahip oldukları küçük gücü göstermelerinin bir yoludur. ABD merkezli bir dijital haklar kâr amacı gütmeyen Elektronik Frontier Foundation’da Jacob Hoffman-““ Sır ve Nightshade, değişen düzenlemelere dayanmayan ve sanatçılar için bir avantaj yeri olmayabilecek düzgün bir eylem yöntemi gösteren gerçekten ilginç, havalı bir araçtır ”diyor.

İsveç’teki Stockholm Üniversitesi’nde Eleonora Rosati, iddia edilen kopyalardan kurtulmaya çalışmak için kendi kendini sabote eden içerik fikrinin yeni olmadığını söylüyor. “Gün içinde, telefon dizinlerinden patent listelerine kadar büyük bir veritabanlarının yetkisiz kullanımı olduğunda – kanıt açısından size yardımcı olacak bazı hatalar koymanız önerildi” diyor. Örneğin, bir haritacı haritalarına kasıtlı olarak yanlış yer adlarını içerebilir. Bu yanlış isimler daha sonra bir rakip tarafından üretilen bir haritada görünürse, intihalin açık kanıtı sağlayacaktır. Uygulama bugün hala manşetlerde bulunuyor: müzik şarkı sözleri web sitesi Genius, Google’ın içeriğini izni olmadan kullandığını iddia ettiği içeriğine farklı tür kesme türleri eklediğini iddia etti. Google iddiaları reddetti ve Genius tarafından Google’a karşı açılan bir mahkeme davası reddedildi.

Hoffman-Andrews’e göre, buna “sabotaj” demek bile tartışmalı. “Bunu mutlaka sabotaj olarak düşünmüyorum” diyor. “Bunlar sanatçının kendi düzenlemelerini uyguladıkları kendi görüntüleri. Verileriyle istediklerini yapmakta tamamen özgürler.”

Yapay zeka şirketlerinin, zehirle işaretlenmiş herhangi bir içeriği görmezden gelerek ya da verilerden çıkarmaya çalışarak kuyuun bu zehirlenmesiyle mücadele etmek için kendi karşı önlemlerini ne ölçüde aldıkları bilinmemektedir. Ancak Zhao’nun kendi sistemini kırma girişimleri, sırın almayı düşünebileceği tüm karşı önlemlere karşı hala yüzde 85 etkili olduğunu gösterdi, bu da AI şirketlerinin zehirli verilerle uğraşmanın değerinden daha fazla sorun olduğu sonucuna vardı.

Sahte haberleri yaymak

Bununla birlikte, sadece kuyuları AI’ya karşı zehirlemek için denemeyi korumak için içeriğe sahip sanatçılar değil. Bazı ulus devletler, sahte anlatıları zorlamak için benzer ilkeler kullanıyor olabilir. Örneğin, ABD merkezli düşünce kuruluşu Atlantik Konseyi bu yılın başlarında Rusya’nın Rusya’da “gerçek” anlamına gelen Pravda haber ağının, AI botlarını sahte haber hikayelerini dağıtmak için kandırmak için zehirlenmeyi kullandığını iddia etti.

Pravda’nın yaklaşımı, düşünce kuruluşu tarafından iddia edildiği gibi, Cloudflare’nin AI labirentine benzeyen milyonlarca web sayfası yayınlamayı içeriyor. Ancak bu durumda Atlantik Konseyi, sayfaların gerçek haber makaleleri gibi görünecek şekilde tasarlandığını ve Kremlin’in Rusya’nın Ukrayna’daki savaşı hakkındaki anlatısını tanıtmak için kullanıldığını söylüyor. Hikayelerin hacmi, AI tarayıcılarının kullanıcılara yanıt verirken belirli anlatıları aşırı vurgulamasına neden olabilir ve bu yıl Pravda’nın faaliyetlerini izleyen ABD teknoloji firması Newsguard tarafından yayınlanan bir analiz, 10 büyük AI chatbot’un Pravda’nın üçte bir durumunda görüşlerine uygun metin çıkardığını buldu.

Değişme konuşmalarındaki göreceli başarı, AI her şeyle olan doğal sorunu vurgulamaktadır: İyi niyetli iyi aktörler tarafından kullanılan teknoloji hileleri her zaman hain hedeflere sahip kötü aktörler tarafından seçilebilir.

Bununla birlikte, bu sorunlara bir çözüm var, diyor Zhao – AI şirketlerinin dikkate almaya istekli olduğu bir şey olmasa da. AI şirketleri, çevrimiçi bulabilecekleri verileri gelişigüzel bir şekilde toplamak yerine, meşru içerik sağlayıcılarıyla resmi anlaşmalara girebilir ve ürünlerinin yalnızca güvenilir veriler kullanılarak eğitilmesini sağlayabilir. Ancak bu yaklaşım bir fiyat taşır, çünkü lisans anlaşmaları maliyetli olabilir. Zhao, “Bu şirketler bu sanatçıların çalışmalarını lisanslamak istemiyor” diyor. “Bütün bunların kökünde para.”