CEİD

Bu proje Avrupa Birliği tarafından finanse edilmektedir.

TÜRKİYE'DE KATILIMCI DEMOKRASİNİN GÜÇLENDİRİLMESİ:
TOPLUMSAL CİNSİYET EŞİTLİĞİNİN İZLENMESİ PROJESİ

AI halüsinasyonları daha da kötüleşiyor – ve kalacaklar

Bir AI Lider tablosu, chatbotlarda kullanılan en yeni akıl yürütme modellerinin daha yüksek halüsinasyon oranları nedeniyle daha az doğru sonuçlar ürettiğini göstermektedir. Uzmanlar sorunun bundan daha büyük olduğunu söylüyor

Yeni bilim adamı. Bilim haberleri ve uzman gazetecilerin uzun okumaları, web sitesinde ve dergideki bilim, teknoloji, sağlık ve ortamdaki gelişmeleri kapsar.

Hatalar AI tarafından oluşturulan içerikte kırpma eğilimindedir

Openai ve Google gibi teknoloji şirketlerinden AI chatbots, son aylarda akıl yürütme yükseltmeleri alıyorlar-ideal olarak bize güvenebileceğimiz cevaplar vermelerini daha iyi hale getirmek için, ancak son testler bazen önceki modellerden daha kötü olduğunu gösteriyor. “Halüsinasyonlar” olarak bilinen chatbots tarafından yapılan hatalar en başından beri bir sorun oldu ve bunlardan asla kurtulamayacağımız anlaşılıyor.

Halüsinasyon, Openai’nin Chatgpt veya Google’ın İkizleri gibi güç sistemlerinin büyük dil modelleri (LLM’ler) tarafından yapılan bazı hatalar için bir battaniye terimidir. En iyi, bazen yanlış bilgileri doğru olarak sunma şeklinin bir açıklaması olarak bilinir. Ancak aynı zamanda gerçekte doğru olan, ancak aslında sorulduğu soruyla ilgili olmayan veya talimatları başka bir şekilde takip edemeyen AI tarafından oluşturulan bir cevaba da atıfta bulunabilir.

En son LLM’lerini değerlendiren bir Openai teknik raporu, Nisan ayında piyasaya sürülen O3 ve O4-mini modellerinin, şirketin 2024’ün sonlarında ortaya çıkan önceki O1 modelinden önemli ölçüde daha yüksek halüsinasyon oranlarına sahip olduğunu gösterdi. O3, O4-Mini’nin yüzde 48’ini bu kadar yüz yüze çıkardığında, insanlarla ilgili halka açık gerçekleri özetlediğinde. Buna karşılık, O1’in yüzde 16 halüsinasyon oranı vardı.

Sorun Openai ile sınırlı değil. Halüsinasyon oranlarını değerlendiren Vectara şirketinden popüler bir lider tablo, geliştirici Deepseek’in Deepseek-R1 modeli de dahil olmak üzere bazı “akıl yürütme” modellerini, geliştiricilerinden önceki modellere kıyasla halüsinasyon oranlarında çift haneli artışlar gördü. Bu tür model, yanıt vermeden önce bir akıl yürütme çizgisi göstermek için birden fazla adımdan geçer.

Openai, akıl yürütme sürecinin suçlanmadığını söylüyor. Bir Openai sözcüsü, “Halüsinasyonlar, akıl yürütme modellerinde doğal olarak daha yaygın değil, ancak O3 ve O4-mini’de gördüğümüz daha yüksek halüsinasyon oranlarını azaltmak için aktif olarak çalışıyoruz” diyor. “Doğruluğu ve güvenilirliği artırmak için tüm modellerde halüsinasyonlar hakkındaki araştırmalarımıza devam edeceğiz.”

LLM’ler için bazı potansiyel uygulamalar halüsinasyon ile raydan çıkarılabilir. Sürekli olarak yanlışlıkları belirten ve gerçeği kontrol gerektiren bir model, yararlı bir araştırma asistanı olmayacaktır; Hayali davaları belirten bir yasadışı-bot avukatları belaya sokacaktır; Eski politikaların hala aktif olduğunu iddia eden bir müşteri hizmetleri acentesi şirket için baş ağrısı yaratacaktır.

Ancak, AI şirketleri başlangıçta bu sorunun zamanla temizleneceğini iddia etti. Gerçekten de, ilk başlatıldıktan sonra, modeller her güncellemede daha az halüsinasyon yapma eğilimindeydi. Ancak son versiyonların yüksek halüsinasyon oranları bu anlatıyı karmaşıklaştırıyor – akıl yürütme hatalı olup olmadığı.

Vectara’nın skor tablosu, verilen belgeleri özetlemede gerçek tutarlılıklarına göre modelleri sıralar. Bu, “halüsinasyon oranlarının, en azından Openai ve Google’dan gelen sistemler için akıl yürütme ile mantıksız modeller için neredeyse aynı olduğunu” gösterdi. Google ek yorum sağlamadı. Lider tablonun amaçları doğrultusunda, spesifik halüsinasyon oranı sayıları her modelin genel sıralamasından daha az önemlidir, diyor Bao.

Ancak bu sıralama AI modellerini karşılaştırmanın en iyi yolu olmayabilir.

Bir kere, farklı halüsinasyon türlerini sınırlar. Vectara ekibi, Deepseek-R1 modeli zamanın yüzde 14,3’ünü halüsine etse de, bunların çoğunun “iyi huylu” olduğuna dikkat çekti: aslında mantıksal akıl yürütme veya dünya bilgisi ile desteklenen, ancak aslında botun özetlenmesi istenen orijinal metinde bulunmayan cevaplar. Deepseek ek yorum sağlamadı.

Bu tür sıralama ile ilgili bir başka sorun, metin özetlenmesine dayalı testlerin “(LLMS) diğer görevler için kullanıldığında yanlış çıkışların oranı hakkında hiçbir şey söylemediği” diyor. LLM’lerin metinleri özetlemek için özel olarak tasarlanmadığı için skor tablosu sonuçlarının bu teknolojiyi yargılamanın en iyi yolu olmayabileceğini söylüyor.

Bu modeller, istemlerin cevaplarını formüle etmek için “muhtemel bir sonraki kelime nedir” sorusunu tekrar tekrar cevaplayarak çalışır ve bu nedenle, bir metin gövdesinde hangi bilgilerin mevcut olduğunu anlamaya çalışırken bilgi işlemiyorlar. Ancak birçok teknoloji şirketi, çıktı hatalarını tanımlarken hala “halüsinasyonlar” terimini kullanıyor.

“Bir terim olarak ‘halüsinasyon’ iki kat sorunlu” diyor Bender. “Bir yandan, yanlış çıkışların belki de hafifletilebilen bir sapma olduğunu, ancak geri kalan sistemlerin topraklanmış, güvenilir ve güvenilir olduğu anlamına gelir. Öte yandan, makineleri antropomorfize etmek için işlev görür – halüsinasyon, orada olmayan bir şey alamayan bir şey algılamaya atıfta bulunur.

Princeton Üniversitesi’ndeki Arvind Narayanan, sorunun halüsinasyonun ötesine geçtiğini söylüyor. Modeller bazen güvenilir olmayan kaynaklara dayanma veya modası geçmiş bilgileri kullanma gibi başka hatalar yapar. Ve sadece AI’da daha fazla eğitim verisi ve bilgi işlem gücü atmak mutlaka yardımcı olmamıştır.

Sonuç, hataya eğilimli AI ile yaşamak zorunda kalabiliriz. Narayanan, bir sosyal medya gönderisinde, bazı durumlarda bu tür modelleri yalnızca AI cevabını kontrol etmek için görevler için kullanmanın en iyisi olabileceğini söyledi. Ancak en iyi hamle, gerçek bilgi sağlamak için AI Chatbots’a güvenmekten tamamen kaçınmak olabilir.