CEİD

Bu proje Avrupa Birliği tarafından finanse edilmektedir.

TÜRKİYE'DE KATILIMCI DEMOKRASİNİN GÜÇLENDİRİLMESİ:
TOPLUMSAL CİNSİYET EŞİTLİĞİNİN İZLENMESİ PROJESİ

AI arama aracı cevaplarının yaklaşık üçte biri desteklenmeyen iddialarda bulunur

Şaşkınlık ve Open AI’nın GPT-4’ü dahil AI araçları genellikle tartışmalı sorulara tek taraflı cevaplar sağlar ve argümanlarını güvenilir kaynaklarla yedeklemeyin

Sanal Yardım ve AI uygulamaları

AI Tools tarafından yapılan iddialar ne kadar iyi destekleniyor?

Üretken AI araçları ve onlar tarafından desteklenen derin araştırma ajanları ve arama motorları, sık sık, alıntı yaptıkları kaynaklar tarafından desteklenmeyen desteklenmeyen ve önyargılı iddialarda bulunur. Bu, AI araçları tarafından sağlanan cevapların yaklaşık üçte birinin güvenilir kaynaklar tarafından desteklenmediğini tespit eden bir analize göre. Openai’nin GPT 4.5 için rakam yüzde 47 ile daha da yüksekti.

Salesforce AI Research’teki Pranav Narayanan Venkit ve meslektaşları, Openai’nin GPT-4.5 ve 5, You.com, Perplexity ve Microsoft’un Bing Sohbeti de dahil olmak üzere üretken AI arama motorlarını test etti. Bunun yanı sıra, beş derin araştırma ajanını hızlarına koydular: GPT-5’in Derin Araştırma özelliği, Bing Chat’in Think Deeper seçeneği ve You.com, Google Gemini ve şaşkınlık tarafından sunulan derin araştırma araçları.

Narayanan Venkit, “Üretken arama motorları hakkında sosyal bir teknik değerlendirme yapmak istedik” diyor. Amaç, cevapların ne kadar iyi olduğunu ve insanların içerdikleri bilgileri nasıl değerlendirmeleri gerektiğini tespit etmekti.

Farklı AI motorlarına cevap vermesi için 303 sorgu verildi, AI’nın yanıtları sekiz farklı metrike karşı değerlendirildi – araştırmacıların Deeptrace adını veriyor. Metrikler, bir cevabın tek taraflı veya aşırı güvende olup olmadığını, soruya ne kadar alakalı olup olmadığını, hangi kaynaklara atıfta bulunduğunu, varsa, alıntıların cevaplarda yapılan iddialar için ne kadar destek sunduğunu ve alıntıların ne kadar kapsamlı olduğunu test etmek için tasarlanmıştır. Sorular iki gruba ayrıldı: ilk grup, AI yanıtlarındaki önyargıları tespit etme fırsatı sunan çekişmeli konular hakkında sorular içeriyordu, ikinci grup ise meteoroloji, tıp ve insan-bilgisayar etkileşimi gibi çeşitli alanlarda uzmanlığı test etmek için tasarlanmış sorular içeriyordu.

Tartışmayı kışkırtmak için tasarlanmış çekişmeli bir sorunun bir örneği, “Alternatif enerji neden etkili bir şekilde fosil yakıtların yerini alamaz?” Uzmanlığa dayalı bir soru “Hesaplamalı hidrolojide kullanılan en alakalı modeller nelerdir?”

Yapay zeka cevapları, iki insan annotatörünün çalışmada kullanılanlara benzer 100’den fazla soruya nasıl cevap verdiğini incelemeyi içeren bir eğitim sürecinde bir cevabın en iyi nasıl yargılanacağını anlamak için ayarlanmış büyük bir dil modeli (LLM) ile değerlendirildi.

Genel olarak, AI destekli arama motorları ve derin araştırma araçları oldukça kötü performans gösterdi. Araştırmacılar, birçok modelin tek taraflı cevaplar sağladığını buldular. Bing Sohbet Arama Motoru tarafından yapılan iddiaların yaklaşık yüzde 23’ü desteklenmeyen ifadeler içeriyorken, You.com ve şaşkınlık AI arama motorları için rakam yaklaşık yüzde 31 idi. GPT-4.5, daha da desteklenmeyen iddialar-yüzde 47-üretti, ancak bu bile şaşkınlık derin araştırma acentesi tarafından yapılan desteklenmeyen iddiaların yüzde 97,5’inin çok altındaydı. Narayanan Venkit, “Bunu gördüğümüz için kesinlikle şaşırdık” diyor.

Openai, makalenin bulguları hakkında yorum yapmayı reddetti. Şaşkınlık kayıt hakkında yorum yapmayı reddetti, ancak çalışmanın metodolojisi ile aynı fikirde değildi. Özellikle, şaşkınlık, aracının kullanıcıların belirli bir AI modelini (örneğin GPT-4-seçmelerine izin verdiğine dikkat çekti, ancak en iyi cevabı vereceğini düşündükleri, ancak çalışma, şaşkınlık aracının AI modelinin kendisini seçtiği varsayılan bir ayar kullandı. (Narayanan Venkit, araştırma ekibinin bu değişkeni keşfetmediğini itiraf ediyor, ancak çoğu kullanıcının hangi AI modelini seçeceğini bilmeyeceğini savunuyor.) You.com, Microsoft ve Google yanıt vermedi Yeni bilim adamıS Yorum talebi.

Oxford Üniversitesi’nden Felix Simon, “Kullanıcılardan sık sık şikayetler ve büyük gelişmelere rağmen AI sistemlerinin tek taraflı veya yanıltıcı cevaplar üretebileceğini gösteren çeşitli çalışmalar olmuştur” diyor. “Bu nedenle, bu makale bu sorunla ilgili bu cephede daha fazla iyileştirmeleri teşvik etmeye yardımcı olacak bazı ilginç kanıtlar sunuyor.”

Bununla birlikte, araçların potansiyel güvenilmezliğinin anekdot raporları ile zile yapsalar bile, herkes sonuçlardan emin değildir. İsviçre, Zürih Üniversitesi’nden Aleksandra Urman, “Makalenin sonuçları, toplanan verilerin LLM tabanlı ek açıklamasına büyük ölçüde bağlıdır” diyor. “Ve bununla ilgili birkaç sorun var.” Yapay zeka kullanılarak ek açıklama yapılan sonuçlar insanlar tarafından kontrol edilmeli ve doğrulanmalıdır – Urman’ın araştırmacıların yeterince iyi yapmadığı endişe duyduğu bir şey.

Ayrıca, nispeten az sayıda insan açıklamalı cevabın LLM ile açıklanmış cevaplarla uyumlu olduğunu kontrol etmek için kullanılan istatistiksel teknikle ilgili endişeleri var. Kullanılan teknik, Pearson korelasyonu “çok standart dışı ve tuhaf” diyor Urman.

Sonuçların geçerliliği konusundaki anlaşmazlıklara rağmen, Simon, kullanıcıların bu araçlardan aldıkları cevapları doğru bir şekilde yorumlamalarını sağlamak için daha fazla çalışmaya ihtiyaç olduğuna inanıyor. “Özellikle bu sistemler çeşitli alanlarda daha geniş bir şekilde piyasaya sürüldüğünden, AI tarafından üretilen cevapların doğruluğunu, çeşitliliğini ve tedarikini geliştirmek gereklidir” diyor.