CEİD

Bu proje Avrupa Birliği tarafından finanse edilmektedir.

TÜRKİYE'DE KATILIMCI DEMOKRASİNİN GÜÇLENDİRİLMESİ:
TOPLUMSAL CİNSİYET EŞİTLİĞİNİN İZLENMESİ PROJESİ

Superintelligent yapay zeka hemen köşede mi yoksa sadece bir bilimkurgu rüyası mı?

Teknoloji CEO’ları, “süper -altlık” ile güçlendirilen 2030’ların giderek daha tuhaf vizyonlarını umut ediyor, ancak gerçek şu ki, en gelişmiş AI modelleri bile hala basit bulmacalarla mücadele edebilir

Makineler insanlardan daha akıllı olacak mı?

Yapay zeka şirketlerinin liderlerini sözlerine alırsanız, ürünleri önümüzdeki on yılın insanlık tarihinde herhangi birinden oldukça farklı olacağı anlamına gelir: yüksek enerjili fiziğin “çözüldüğü” ve uzay kolonizasyonunun başlangıcını gördüğümüz altın bir “radikal bolluk” dönemi. Ancak günümüzün en güçlü AI sistemleriyle çalışan araştırmacılar, en iyi modellerin bile çoğu insanın önemsiz bulduğu temel bulmacaları çözemediği farklı bir gerçeklik bulurken, “akıl” vaadi aşırı şişmiş görünmektedir. Peki, kime inanmalısın?

Openai ve Google Deepmind’in CEO’ları Sam Altman ve Demis Hassabis, her ikisi de güçlü, dünyayı değiştiren AI sistemlerinin hemen köşede olduğu iddialarını yaptı. Bir blog yazısında Altman, “2030’ların daha önce gelen her zamandan çılgınca farklı olacağını” yazıyor ve “bir yıl büyük bir malzeme bilimi atılımından gelecek yıl gerçek yüksek bant genişliğinde beyin-bilgisayar arayüzlerine” gidebileceğimizi düşünüyor.

Hassabis, bir röportajda Kablolu2030’larda yapay genel zekanın (AGI) “korkunç hastalıkları iyileştirme” gibi sorunları çözmeye başlayacağını ve “daha ​​sağlıklı ve daha uzun ömürlere” yol açacağını ve yeni enerji kaynakları bulacağını söyledi. Röportajda Hassabis, “Her şey olursa,” dedi, “o zaman yıldızlara seyahat ettiğimiz ve galaksiyi kolonileştirdiğimiz maksimum insan gelişmesi dönemi olmalı.”

Bu vizyon, chatgpt gibi büyük dil modellerinin (LLM’ler) daha fazla eğitim verisini ve onlara attığımız bilgisayar gücünü daha yetenekli hale getirdiği varsayımına dayanmaktadır. Bu “ölçeklendirme yasası” son birkaç yıldır geçerli gibi görünüyor, ancak bunun son derece ipuçları var. Örneğin, Openai’nin eğitilmesi için yüz milyonlarca dolara mal olan son GPT-4.5 modeli, selefi GPT-4’te sadece mütevazı iyileştirmeler sağladı. Ve bu maliyet gelecekteki harcamalarla karşılaştırıldığında hiçbir şey değildir ve raporlar Meta’nın “süper -altlık” elde etmek için 15 milyar dolarlık bir yatırım duyurması üzeredir.

Bununla birlikte, bu soruna tek denenen çözüm değil – AI firmaları da geçen yıl piyasaya sürülen Openai’nin O1 gibi “akıl yürütme” modellerine yöneldi. Bu modeller daha fazla bilgi işlem süresi kullanır ve bu nedenle kendi çıktılarını kendilerine geri besleyerek bir yanıt üretmek için daha uzun sürer. Bu yinelemeli süreç, bir kişinin adım adım sorunlarla düşünme şekliyle karşılaştırmalar yapmak amacıyla “düşünce zinciri” olarak etiketlenmiştir. Openai’den Noam Brown, “AI Plato’ları konusunda endişelenmek için meşru nedenler vardı,” dedi. Yeni bilim adamı Geçen yıl, ancak O1 ve bunun gibi modeller “ölçeklendirme yasasının” devam edebileceği anlamına geliyordu.

Yine de son araştırmalar, bu akıl yürütme modellerinin basit mantık bulmacalarına bile rastlayabileceğini buldu. Örneğin, Apple’daki araştırmacılar Çin AI şirketi Deepseek’in akıl yürütme modellerini ve Openai’nin O1-ailesi modelleri gibi çalışan Antropic’in Claude düşünme modellerini test etti. Araştırmacılar “kesin hesaplamada sınırlamaları olduğunu buldular: açık algoritmalar kullanamıyorlar ve bulmacalar arasında tutarsız bir şekilde akıl yürütmüyorlar” diye yazdı.

Ekip, AI’yı, bir kişinin en az sayıda adımda bir nehir boyunca eşyaları taşımak zorunda olduğu bir senaryo ve Hanoi Kulesi gibi birkaç bulmaca üzerinde test etti. Modeller bulmacaları en kolay ortamlarında çözebilse de, taşınacak halka veya eşya sayısını artırmakla mücadele ettiler. Daha karmaşık bir problem hakkında düşünmek için daha uzun bir süre harcayacak olsak da, araştırmacılar AI modellerinin, sorunların karmaşıklığı arttıkça, modellerin gösterdiği “düşünme” süresinin bir yanılsama olduğunu düşündüren daha az “jeton” – bilgi parçaları – kullandığını buldular.

Londra Üniversitesi City’deki Artur Garcez, “Zararlı kısım, bunların kolayca çözülebilir görevler olmasıdır” diyor. “50 yıl önce bunları çözmek için sembolik AI akıl yürütmesini nasıl kullanacağını zaten biliyorduk.” Garcez, bu yeni sistemlerin nihayetinde karmaşık problemlerle akıl yürütebileceği ve sonuçlandırılabilmesi mümkündür, ancak bu araştırma, yalnızca modellerin büyüklüğünü veya kendilerine verilen hesaplama kaynaklarını artırarak gerçekleşmesinin olası olmadığını gösteriyor.

Sheffield Üniversitesi Nikos Aletras, bu modellerin eğitim verilerinin dışında görmedikleri senaryoları çözmek için hala mücadele ettiğini hatırlatıyor. Aletas, “Aslında birçok durumda oldukça iyi çalışıyorlar, ancak bulma, bilgi harmanlamak ve daha sonra özetlemek gibi, ancak bu modeller bu tür şeyleri yapmak için eğitildi ve sihir gibi görünüyor, ancak değil – bunu yapmak için eğitildiler” diyor. “Şimdi, elma araştırması kör bir yer buldu.”

Bu arada, diğer araştırmalar, artan “düşünme” zamanının bir AI modelinin performansına zarar verebileceğini gösteriyor. Soumya Suvra Ghosal ve Maryland Üniversitesi’ndeki meslektaşları Deepseek’in modellerini test ettiler ve daha uzun “düşünce zinciri” süreçlerinin matematiksel akıl yürütme testlerinde doğruluğun azalmasına yol açtığını buldular. Örneğin, bir matematiksel ölçüt için, bir model tarafından kullanılan jeton miktarının üç katına çıkmanın performansını yaklaşık yüzde 5 artırabileceğini bulmuşlardır. Ancak 10 ila 15 kat daha fazla jeton kullanmak, kıyaslama skorunu yaklaşık yüzde 17 oranında düşürdü.

Bazı durumlarda, bir AI tarafından üretilen “düşünce zinciri” çıktısı, sağladığı nihai cevapla çok az ilişki kurmaktadır. Deepseek’in modellerini basit labirentlerde gezinme yeteneği üzerine test ederken, Arizona Eyalet Üniversitesi ve meslektaşları, AI sorunu çözdüğünde bile, “düşünce zinciri” çıktısının son çözüme yansıtılmayan hatalar içerdiğini buldu. Dahası, AI’yı anlamsız bir “düşünce zinciri” beslemek aslında daha iyi cevaplar üretebilir.

Kambhampati, “Sonuçlarımız, ara jetonların veya ‘düşünce zincirlerinin’, anlamsal olarak AI modellerinin iç muhakemesinin izleri olarak yorumlanabileceği ve onları bu şekilde antropomorfize etmeye karşı dikkatli olabileceği varsayımına meydan okuyor” diyor Kambhampati.

Gerçekten de, tüm çalışmalar, bu AI modelleri için “düşünme” veya “akıl yürütme” etiketlerinin yanlış bir isim olduğunu gösteriyor, diyor Danimarka’daki Kopenhag BT Üniversitesi’nde Anna Rogers. “Bu alanda olduğum sürece, aklıma gelebilecek her popüler teknik, önce nihayetinde yanlış olduğunu kanıtlayan bazı belirsiz bilişsel olarak sonucu benzetti.”

Cambridge Üniversitesi’ndeki Andreas Vlachos, LLM’lerin hala metin üretiminde ve diğer görevlerde net uygulamalara sahip olduğuna dikkat çekiyor, ancak son araştırmalar, Altman ve Hassabis’in sadece birkaç yıl içinde çözüleceğini vaat ettiği karmaşık sorunlarla mücadele etmek için mücadele edebileceğimizi söylüyor.

Vlachos, “Temel olarak, bu modellerin yapmak için eğitildikleri arasında bir uyumsuzluk var, bu da bir sonraki kelime tahmini, bunları yapmaya çalıştığımızın aksine, akıl yürütme üretmektir” diyor.

Ancak Openai aynı fikirde değil. “Çalışmamız, düşünce zinciri gibi akıl yürütme yöntemlerinin karmaşık sorunlar üzerindeki performansı önemli ölçüde artırabileceğini ve daha iyi eğitim, değerlendirme ve model tasarımı yoluyla bu yetenekleri genişletmek için aktif olarak çalışıyoruz” diyor. Deepseek yorum talebine yanıt vermedi.