Meta'nın yapay zeka ezberlenmiş kitapları kelimesi kelimesine - bu milyarlara mal olabilir - Haberler

Birçok AI modeli kitap metni üzerinde eğitildi, ancak en az bir modelin neredeyse bir modelin neredeyse tamamını, bazı kitapların tamamını doğrudan ezberlemesi sağlandı, bu da yeni bir test, Harry Potter ve Filozof Taşıtelif hakkı ihlali konusunda devam eden yasal savaşları karmaşıklaştırabilir

Nisan ayında, kitap yazarları ve yayıncılar Meta’nın AI’yı eğitmek için telif hakkıyla korunan kitapları kullandığını protesto etti

ABD ve İngiltere’deki mahkemeler teknoloji şirketlerinin yapay zeka modellerini telif hakkıyla korunan kitaplarda yasal olarak eğitip eğitemeyeceğine karar verdikçe milyarlarca dolar tehlikede. Yazarlar ve yayıncılar bu konuda birden fazla dava açmışlardır ve yeni bir bükülme ile araştırmacılar, en az bir AI modelinin sadece eğitim verilerinde popüler kitaplar kullanmadığını değil, aynı zamanda içeriğini kelimesi kelimesine ezberlediğini göstermişlerdir.

Devam eden anlaşmazlıkların çoğu, AI geliştiricilerin ilk izin istemeden telif hakkıyla korunan işleri kullanma hakkına sahip olup olmadığı konusunda döner. Önceki araştırmalar, popüler AI chatbots ve diğer üretken AI programlarının arkasındaki büyük dil modellerinin (LLM’ler) çoğunun, birçok korsan da dahil olmak üzere yaklaşık 200.000 telif hakkıyla korunan kitap içeren “Books3” veri kümesinde eğitildiğini buldu. Modellerini bu materyalde eğiten AI geliştiricileri, bir LLM’nin, telif hakkıyla korunan çalışmayı çoğaltmak yerine dönüşümüne dayanarak, eğitimine dayanarak yeni kelimeler kombinasyonlarını ortaya koyduğu için yasayı ihlal etmediklerini iddia ettiler.

Ancak şimdi, araştırmacılar bu eğitim verilerinin ne kadarının kelimesi kelimesine tükürebileceklerini görmek için birden fazla modeli test ettiler. Birçok modelin eğitim verilerindeki kitapların tam metnini korumadığını buldular – ancak Meta’nın modellerinden biri neredeyse belirli kitapların tamamını ezberledi. Hâkimler şirkete karşı karar verirse, araştırmacılar bunun Meta’yı en az 1 milyar dolarlık zarardan sorumlu hale getirebileceğini tahmin ediyorlar.

Kaliforniya’daki Stanford Üniversitesi Mark Lemley, “Bu, bir yandan, AI modellerinin sadece ‘intihal makineleri’ değil, bazılarının iddia ettiği gibi değil, aynı zamanda kelimeler arasında genel ilişkiler öğrenmekten daha fazlasını yaptıkları anlamına geliyor” diyor. “Ve cevabın model modeline ve rezervasyona uğradığı gerçeği, tüm davalarda çalışacak açık bir yasal kural belirlemenin çok zor olduğu anlamına geliyor.”

Lemley daha önce Meta’yı Kadrey V Meta platformları adı verilen üretken bir yapay zeka telif hakkı vakasında savunmuştu. Kitapları Meta’nın AI modellerini eğitmek için kullanılan yazarlar, telif hakkını ihlal etmek için teknoloji devine karşı bir sınıf eylemi davası açtı. Dava hala Kaliforniya’nın kuzey bölgesinde duyuluyor.

Ocak 2025’te Lemley, şirketin davayı kazanması gerektiğine inandığını söylemesine rağmen, Meta’yı müşteri olarak düşürdüğünü açıkladı. Bir meta sözcüsü Emil Vazquez, şirketin AI modellerini geliştirmek için “telif hakkıyla korunan materyallerin adil kullanımı hayati önem taşıyor” diyor. “Davacıların iddialarına katılmıyoruz ve tüm kayıt farklı bir hikaye anlatıyor” diyor.

Bu son araştırmada, Lemley ve meslektaşları, küçük kitap alıntılarını iki bölüme ayırarak AI kitaplarını bir önek ve bir sonek bölümü – test ettiler ve önekle ilgili bir modelin sonek ile yanıt verip vermeyeceğini gördüler. Örneğin, bir alıntı F. Scott Fitzgerald’s’tan ayırdılar Büyük Gatsby “Dikkatsiz insanlar, Tom ve Daisy idi – bir şeyleri ve yaratıkları parçaladılar ve sonra geri çekildiler” ve “paralarına ya da büyük dikkatsizliklerine ya da onları bir arada tutan her neyse, diğer insanların yaptıkları karışıklığı temizlemesine izin verdiler.”

Bulgularına dayanarak, araştırmacılar her AI modelinin sözlü alıntıları tamamlama olasılığını tahmin ettiler. Daha sonra bu olasılıkları rastgele şansla yapma olasılığı ile karşılaştırdılar.

Alıntılar, George RR Martin’s gibi popüler başlıklar da dahil olmak üzere 36 telif hakkıyla korunan kitaptan metin parçaları içeriyordu. Bir Game of Thrones ve Sheryl Sandberg’s Eğilmek. Araştırmacılar ayrıca Kadrey V Meta Platformlar davasında davacılar tarafından yazılan kitaplardan alıntıları da test ettiler.

Araştırmacılar, bu deneyleri Meta, Google, Deepseek, Eleutherai ve Microsoft tarafından geliştirilen ve yayınlanan modeller de dahil olmak üzere 13 açık kaynaklı AI modelinde yürüttüler. Meta’nın yanı sıra çoğu şirket yorum taleplerine yanıt vermedi ve Microsoft yorum yapmayı reddetti.

Böyle bir test, Meta’s Lama 3.1 70b modelinin JK Rowling’in ilk kitabının çoğunu ezberlediğini ortaya koydu. Harry Potter seri ve Büyük Gatsby ve George Orwell’in distopik romanı 1984. Diğer modellerin çoğu, davacılar tarafından yazılan örnek kitaplar da dahil olmak üzere kitapların çok azını ezberlemiştir. Meta bu sonuçlar hakkında yorum yapmayı reddetti.

Araştırmacılar, Book3 veri kümesinin sadece yüzde 3’ünün telif hakkını ihlal ettiği tespit edilen bir AI modelinin, yaklaşık 1 milyar dolarlık bir yasal zarar ödülüne ve hatta bu ihlalle ilgili AI geliştiricilerin kârına dayanan daha büyük ödüllere yol açabileceğini tahmin ediyor.

Oklahoma’daki Salon Estill Hukuk Bürosu’nda Randy McCarthy, bu tekniğin AI ezberlemesinin kapsamını belirlemek için “iyi bir adli araç” olabileceğini söylüyor. Ancak şirketlerin, bazı durumlarda telif hakkıyla korunan çalışmaların lisanssız kullanılmasına izin veren yasal bir doktrin olan ABD “adil kullanım” kuralı aracılığıyla telif hakkıyla korunan çalışmalarda AI modellerini yasal olarak eğitip eğitemeyecekleri çözmüyor.

McCarthy, AI şirketlerinin genellikle modellerini telif hakkıyla korunan materyaller üzerinde eğittiğini kabul ettiğini belirtiyor. “Soru şu ki, bunu yapma hakları var mıydı?” diye soruyor.

Öte yandan İngiltere’de, ezberleme bulgusu “telif hakkı perspektifinden çok önemli” olabilir, diyor Robert Londra’daki Londra’daki Howard Kennedy hukuk firmasında. İngiltere Telif Hakkı Yasası, telif hakkı ihlaline ABD adil kullanım doktrininden çok daha dar bir istisna sağlayan “adil iş” kavramını izlemektedir. Dolayısıyla, korsan kitapları ezberleyen AI modellerinin bu istisna için hak kazanması olası olmadığını söylüyor.