AI veri kazıyıcıları Wikipedia için varoluşsal bir tehdittir - Haberler

AI geliştiricileri modellerini eğitmek için Wikipedia içeriğini hasat ederken, otomatik trafikte ortaya çıkan artış, popüler kitle kaynaklı ansiklopediyi çalıştıran kar amacı gütmeyen kuruluşların maliyetlerini artırıyor

Wikipedia AI patlamasından tehdit altında

Wikipedia, dünya çapında milyonlarca insandan kitle kaynaklı katkılar içeren şimdiye kadar bir araya getirilen en büyük bilgi kaynaklarından biridir ve yapay zeka geliştiricilerinden artan bir tehditle karşı karşıyadır.

Wikipedia’yı işleten kar amacı gütmeyen Wikimedia Vakfı, Ocak 2024’ten bu yana, ağ trafiğinde kataloğundan görüntü ve video indirmeleri talep eden yüzde 50’lik bir artış gördüğünü söylüyor. Bu dalgalanma çoğunlukla geliştiricilerin AI modelleri için eğitim veri toplamak için kullandıkları otomatik veri kazıyıcı programlarından geliyor. İnternet trafiğindeki bu benzeri görülmemiş artış, Wikimedia’nın Wikipedia sayfalarını ve kiralanan veri merkezlerinden diğer içeriğe hizmet etmek için daha fazla para yakması gerektiği anlamına geliyor.

King’s College London’daki Elena Simperl, “Aynı şekilde acı çeken diğer içerik siteleri hakkında çeşitli raporlar var, ancak Wikimedia kadar görünür ve kritik bir kişi böyle bir ifade ile halka açıldığında, insanlar dikkat ediyor” diyor. “Tartıştıkları konu çok, çok endişe verici ve 15 yıldan fazla bir süredir AI ve sorumlu AI’da (araştırma) çalışan bir bilim adamı olarak konuşuyorum.”

Vakıf, en pahalı internet trafiğinin yüzde 65’inin veri kazıma botlarından geldiğini söylüyor. Genellikle daha az popüler makale talep ederler ve bu sorgular, yerel veri merkezlerinde depolanan daha popüler makalelerin önbelleklerini kullanabilmek yerine merkezi bir veri merkezine kadar seyahat etmelidir.

Wikimedia Vakfı blog yazısında, “Bu yüksek kullanım, bu tür tarayıcılardan ezici trafiği okuyucularımız için sorunlara neden olmadan engellemesi gereken site güvenilirlik ekibimiz için sürekli kesintiye neden oluyor.

Wikimedia Vakfı Ürün Direktörü Birgit Müller Yeni bilim adamı Organizasyon “bot trafiğini yönetmenin yollarını arıyor” ve ayrıca AI geliştiricileri gibi ticari kullanıcılardan “Wikimedia projelerinin sürdürülebilirliğini doğrudan desteklemelerini” istiyor.

Simperl, “Genel içerik veya açık lisanslı içerik için sıklıkla göz ardı edilen bir şey, içeriğin erişimi ücretsiz olması, ancak altyapının çalıştırılması ücretsiz olmamasıdır” diyor. “Altyapı çok paraya mal oluyor ve bu kaynakların ve onu yürütmesi gereken insanların bir yerden gelmesi gerekiyor.”

Wikimedia Vakfı, veri kazıma botlarının arkasındaki geliştiricileri tanımlamak için taslak planlar yayınladı ve bant genişliği açısından sıyırıcılardan otomatik trafiği yüzde 30 azaltmak amacıyla.

Wikimedia, AI yanıtları her zaman gerçek olmasa bile, çeşitli konulardaki sorulara yanıt verebilen AI chatbots’tan doğrudan rekabetle karşı karşıya. Wikimedia web siteleri, son AI gelişmelerine doğrudan atfedilebilecek trafikte damlalar görmemiş olsa da, Müller “hızlı makine tarafından oluşturulan özetler ve yanıtlar sağlamak için Wikimedia içeriğini kullanan AI hizmetlerinin tipik olarak uygun alıntılar ve“ orijinal bilgi kaynaklarına erişmek için blok yolları ”hakkında endişelerini dile getirdi.

Birçok çalışma, AI tarafından üretilen içeriğin Wikipedia girişlerine sürünebileceğine dair işaretler bile bulmuştur. Ancak Wikimedia Vakfı bu teknolojiye karşı olması gerekmez. Zaten insan editörlerinin Wikipedia alanlarının vandalizmini tespit etmesine, makale kalitesini tahmin etmesine, makale okunabilirliğini ölçmesine ve düzenlemeleri önermelerine yardımcı olmak için AI araçları kullanıyor.