AIS’in yanıltıcı cevaplar verme eğilimi, kısmen modelleri doğruluk konusunda algılanan yardımseverliği önceliklendirmeye teşvik eden belirli eğitim tekniklerine dayanabilir.

Bazı AI eğitim teknikleri, modelleri gerçeğe uygun olmaya teşvik edebilir
Yapay zeka modellerini eğitmek için kullanılan yaygın yöntemler, “makine saçmalıklarının ilk sistematik analizini” üretmeyi amaçlayan araştırmacılara göre, yanıltıcı cevaplar verme eğilimlerini artırıyor gibi görünmektedir.
Princeton Üniversitesi’nde Jaime Fernández FISAC, büyük dil modellerinin (LLM’ler) yanlış bilgi – veya “halüsinasyon” üretme eğilimine sahip olduğu bilinmektedir, ancak bu sadece bir örnektir. O ve meslektaşları saçmalıkları “izleyicinin inançlarını manipüle etmeyi amaçlayan, gerçeği değeri için göz ardı ederek sunmak” olarak tanımlıyor.
FISAC, “Analizimiz, büyük dil modellerinde saçmalık sorununun oldukça ciddi ve yaygın olduğunu buldu” diyor.
Ekip bu örnekleri beş kategoriye ayırdı: “Bu kırmızı araba herkesi büyüleyen stil, cazibe ve macerayı birleştiriyor”; Gelincik Kelimeleri – “Çalışmalar, ürünümüzün bazı durumlarda sonuçların iyileştirilmesine yardımcı olabileceğini öne sürüyor”; Paltering – yanıltıcı bir izlenim vermek için doğru ifadeler kullanmak; doğrulanmamış iddialar; ve Sycophancy.
GPT-4, Gemini ve Llama gibi modellerden çok çeşitli istemlere binlerce AI tarafından üretilen yanıt içeren üç veri kümesi incelediler. Bir veri kümesi, AIS’den rehberlik veya öneriler sağlaması istendiğinde saçmalıkları test etmek için tasarlanmış bir dizi sorgu içeriyordu, diğer veri kümeleri ise çevrimiçi alışveriş ve siyasi sorunlar hakkında sorular içeriyordu.
FISAC ve meslektaşları önce yanıtların beş kategoriden herhangi birini içerip içermediğini belirlemek için bir LLM kullandılar, daha sonra AI’nın kararlarının insanlarla uyumlu olduğunu kontrol etmek için gönüllüler aldı.
Ekip, gerçekle ilgili en ciddi sorunların, insan geri bildirimlerinden takviye öğrenimi olarak bilinen bir eğitim yöntemi sonucunda ortaya çıktığını buldu. Teknik, LLM’ye yanıtları hakkında derhal geri bildirim vererek makine yanıtlarını daha yararlı hale getirmeyi amaçlamaktadır.
Ancak bu yaklaşımın sorunlu olduğunu söylüyor FISAC, çünkü modellerin derhal insan onayına öncelik vermesini ve “bazen gerçeği söylemekle çelişen” algılanan yardımseverliği öne geçirmesini sağlıyor.
“Kötü haberleri duymayı veya açıkça doğru hissettiren bir şeyin uzun, nüanslı bir çürütmesini kim seviyor?” diyor FISAC. “Onlara sağladığımız iyi davranışların ölçüsüne uymaya çalışarak, modeller gerçeği kendinden emin, etkili yanıtlar lehine indirmeyi öğreniyor, böylece onayımızı güvence altına alabiliyorlar.”
Çalışma, insan geri bildirimlerinden gelen takviye öğrenmenin saçmalık davranışlarını önemli ölçüde arttırdığını buldu: boş retorik yaklaşık yüzde 40 arttı, yaklaşık yüzde 60 oranında yükseldi, çeyrekten fazla bir artış ve doğrulanmamış iddiaları yarısından fazlasına kadar yükseldi.
Paltering’deki artış özellikle zararlıdır, diyor ekip üyesi Kaique Liang, Princeton’da da kullanıcıların daha kötü kararlar vermesine yol açtığı için. Bir model, bir ürünün istenen bir özelliğe sahip olup olmadığı belirsiz olduğunda, insan eğitiminden sonra beşinciden dörtte üçüne atladı.
Başka bir endişe, saçmalıkların siyasi tartışmalarda özellikle yaygın olduğu, AI modellerinin “somut ifadelere bağlı kalmaktan kaçınmak için sık sık belirsiz ve belirsiz bir dile başvuruyor” diyor Liang.
Araştırmacılar, AIS’in bir çıkar çatışması olduğunda bu şekilde davranması daha olasıdır, çünkü sistem hem şirket hem de müşterileri gibi birden fazla partiye hizmet vermektedir.
Sorunun üstesinden gelmenin yolu, bir “gezinti geri bildirim” modeline geçmek olabilir. AI modelinin çıktısından sonra derhal geri bildirim istemek yerine, sistem önce kullanıcı alınan bilgilere göre hareket ederse ne olabileceğine dair makul bir simülasyon oluşturmalıdır. Daha sonra sonucu yargılamak için insan değerlendiricisine sunacaktır.
FISAC, “Nihayetinde, umudumuz, AI’nın bizi yanıltmayı hedefleyebileceği ince ama sistematik yolları daha iyi anlayarak, gerçekten doğru AI sistemleri geliştirmeye yönelik gelecekteki çabalara rehberlik edebiliriz” diyor.
Çalışmaya dahil olmayan San Diego Üniversitesi’nden Daniel Tigard, LLM’leri ve çıktılarını bu tür terimlerle tartışmaktan şüpheleniyor. Bir LLM’nin saçmalık ürettiği için, AI sistemlerinin şu anda ayakta oldukları gibi bizi aldatmaya başladıkları ve bunu yapmakla ilgilenmedikleri göz önüne alındığında, kasıtlı olarak bunu yaptığını ifade etmiyor.
Tigard, “Ana neden, bu çerçevelemenin bu tür teknolojilerle nasıl yaşamamız gerektiğine ve yaşamamamız gerektiğine dair çok mantıklı önerilere karşı çıktığı görülüyor” diyor. “Bullshit çağırmak, bu sistemleri antropomorfize etmenin başka bir yolu olabilir, bu da aldatıcı potansiyellerine katkıda bulunabilir.”