Google’ın en son modelinin çeşitli kıyaslama testlerinde rakiplerini geride bıraktığı bildiriliyor, ancak güvenilirlikle ilgili sorunlar olası bir yapay zeka balonu konusunda endişelerin devam ettiği anlamına geliyor

Gemini 3, Google’ın en yeni yapay zeka modelidir
Şirkete göre, Google’ın en yeni sohbet robotu Gemini 3, yapay zekanın ilerlemesini ölçmek için tasarlanan bir dizi kıyaslamada önemli ilerlemeler kaydetti. Bu başarılar şimdilik yapay zeka balonunun patlamasına ilişkin korkuları gidermeye yeterli olabilir ancak bu puanların gerçek dünyadaki yeteneklere ne kadar iyi yansıdığı belirsiz.
Dahası, tüm büyük dil modellerinin ayırt edici özelliği haline gelen kalıcı gerçek yanlışlıklar ve halüsinasyonlar, hiçbir çözülme belirtisi göstermiyor; bu da güvenilirliğin hayati önem taşıdığı herhangi bir kullanım için sorun teşkil edebilir.
Google’ın patronları Sundar Pichai, Demis Hassabis ve Koray Kavukcuoğlu, yeni modeli duyuran bir blog yazısında Gemini 3’ün, rakip OpenAI’nin GPT-5 modelini duyururken kullandığı “Doktora düzeyinde akıl yürütmeye” sahip olduğunu yazıyor. Bunun kanıtı olarak, matematik, bilim ve beşeri bilimlerden 2500 araştırma düzeyinde sorudan oluşan İnsanlığın Son Sınavı gibi “lisansüstü düzeydeki” bilgiyi test etmek için tasarlanmış çeşitli testlerdeki puanları listeliyorlar. Gemini 3, bu testte yüzde 37,5 puan alarak, OpenAI’nin GPT-5 versiyonu olan ve yüzde 26,5 puan alan önceki rekor sahibini geride bıraktı.
Oxford Üniversitesi’nden Luc Rocher, bunun gibi sıçramaların bir modelin belirli açılardan daha yetenekli hale geldiğini gösterebileceğini ancak bu sonuçları nasıl yorumladığımız konusunda dikkatli olmamız gerektiğini söylüyor. “Bir model bir kıyaslamada yüzde 80’den yüzde 90’a çıkıyorsa bu ne anlama gelir? Bu, bir modelin yüzde 80 doktora düzeyindeyken şimdi yüzde 90 doktora düzeyinde olduğu anlamına mı geliyor? Bence bunu anlamak oldukça zor” diyorlar. “Bir yapay zeka modelinin mantığa sahip olup olmadığına dair koyabileceğimiz bir rakam yok çünkü bu çok subjektif bir kavram.”
Karşılaştırma testlerinin, modellerin çalıştığını göstermesi gerekmeyen tek bir yanıt veya çoktan seçmeli yanıtlar gerektirmesi gibi birçok sınırlaması vardır. Rocher, “Modelleri notlandırmak için çoktan seçmeli soruları kullanmak çok kolay” diyor, “ancak doktora giderseniz doktor sizi çoktan seçmeli olarak değerlendirmeyecektir. Bir avukata sorarsanız, avukat size çoktan seçmeli yanıtlarla hukuki tavsiyede bulunmayacaktır.” Ayrıca bu tür testlere verilen yanıtların, test edilen yapay zeka modellerinin eğitim verilerinde gizlenerek hile yapmalarına izin verme riski de bulunuyor.
Rocher, Gemini 3 ve en gelişmiş yapay zeka modelleri için gerçek testin (ve performanslarının, Google ve OpenAI gibi şirketlerin yapay zeka veri merkezlerine harcadığı trilyonlarca doları haklı çıkarmaya yetip yetmeyeceği) insanların modeli nasıl kullandıkları ve onu ne kadar güvenilir buldukları ile ilgili olacağını söylüyor.
Google, modelin gelişmiş yeteneklerinin yazılım üretme, e-posta düzenleme ve belgeleri analiz etme konularında onu daha iyi hale getireceğini söylüyor. Firma ayrıca yapay zeka tarafından oluşturulan sonuçları grafikler ve simülasyonlarla destekleyerek Google aramasını geliştireceğini de söylüyor.
Oxford Üniversitesi’nden Adam Mahdi, gerçek gelişmelerin büyük ihtimalle yapay zeka araçlarını kullanarak özerk bir şekilde kod yazan insanlar için olacağını söylüyor; bu süreç, aracılı kodlama olarak adlandırılıyor, diyor Oxford Üniversitesi’nden Adam Mahdi. “Sanırım tipik bir sohbet robotunun yapabileceklerinin üst sınırına ulaşıyoruz ve Gemini 3 Pro’nun (Gemini 3’ün standart sürümü) gerçek faydaları muhtemelen günlük sohbetlerden ziyade daha karmaşık, potansiyel olarak aracılı iş akışlarında olacaktır” diyor.
İnternetteki ilk tepkiler, Gemini’nin kodlama yeteneklerini ve akıl yürütme yeteneğini öven kişileri içeriyordu, ancak tüm yeni model sürümlerinde olduğu gibi, farklı insanları işaret eden elle çizilmiş okların izini sürmek veya basit görsel akıl yürütme testleri gibi görünüşte basit görevleri yerine getirmedeki başarısızlıkları vurgulayan gönderiler de vardı.
Google, Gemini 3’ün teknik özelliklerinde, modelin diğer önde gelen yapay zeka modelleriyle kabaca karşılaştırılabilir bir oranda halüsinasyon görmeye ve zaman zaman gerçek yanlışlıklar üretmeye devam edeceğini kabul ediyor. Londra Üniversitesi City St George’s’tan Artur d’Avila Garcez, bu alanda gelişme olmamasının büyük bir endişe kaynağı olduğunu söylüyor. “Sorun şu ki, tüm AI şirketleri iki yıldan fazla bir süredir halüsinasyonları azaltmaya çalışıyor, ancak sisteme olan güveni tamamen yok etmek için yalnızca çok kötü bir halüsinasyona ihtiyacınız var” diyor.



