AI yeteneklerinin yeni bir testi, insanların çok fazla sorun yaşamadan çözebileceği, ancak tüm önde gelen AI modellerinin mücadele ettiği bulmacalardan oluşur. Testi iyileştirmek ve geçmek için AI şirketlerinin problem çözme yeteneklerini maliyetle dengelemesi gerekecektir.

ARC-AGI-2 karşılaştırması, AI modelleri için zor bir test olacak şekilde tasarlanmıştır
Günümüzde var olan en sofistike AI modelleri, yapay genel zeka (AGI) ilerlemelerini ölçmek için tasarlanmış yeni bir ölçütte kötü puan almıştır-ve değerlendiriciler şimdi modeli yürütmenin maliyetini dikkate aldığı için kaba bilgi işlem gücü iyileştirmek için yeterli olmayacaktır.
AGI’nın birçok rakip tanımı vardır, ancak genellikle insanların yapabileceği herhangi bir bilişsel görevi yerine getirebilen bir AI’ya atıfta bulunmaktadır. Bunu ölçmek için, ARC Ödülü Vakfı daha önce ARC-AGI-1 adı verilen bir akıl yürütme yetenekleri testi başlatmıştı. Geçen Aralık ayında Openai, O3 modelinin testte yüksek puan aldığını açıkladı ve bazılarının şirketin AGI’ya yakın olup olmadığını sormasına yol açtı.
Ama şimdi yeni bir test olan ARC-AGI-2 çıtayı yükseltti. Piyasadaki hiçbir mevcut AI sisteminin testte 100 üzerinden tek haneli bir puandan daha fazlasını elde edememesi yeterince zordur, her sorunun en az iki insan tarafından iki denemede çözülmesi.
ARC-AGI-2’yi açıklayan bir blog yazısında, ARC başkanı Greg Kamradt, yeni ölçütün önceki yinelemeden farklı becerileri test etmek için gerektiğini söyledi. “Onu yenmek için hem yüksek düzeyde uyarlanabilirlik hem de yüksek verimlilik göstermelisiniz” diye yazdı.
ARC-AGI-2 ölçütü, AI modellerinin, dünya önde gelen doktora performanslarına uyma yeteneklerinden ziyade, geçmiş sembolik yorum örneklerine dayanan yeni bir görüntüdeki değişiklikleri çoğaltma gibi, basit görevleri tamamlama yeteneklerine odaklanması nedeniyle diğer AI kıyaslama testlerinden farklıdır. Mevcut modeller, ARC-AGI-1’in ölçülen “derin öğrenme” de iyidir, ancak Arc-AGI-2’de daha zorlu düşünme ve etkileşim gerektiren görünüşte daha basit görevlerde iyi değildir. Örneğin Openai’nin O3-düşük modeli, ARC-AGI-1’de yüzde 75,7, ancak ARC-AGI-2’de sadece yüzde 4’ü puan alıyor.
Ölçütü ayrıca, bir görevi tamamlamak için gereken maliyetle ölçüldüğü gibi, problem çözme verimliliğine bakarak AI’nın yeteneklerini ölçmek için yeni bir boyut ekler. Örneğin, ARC insan testçilerine görev başına 17 $ öderken, O3-Low’un aynı iş için 200 $ ‘lık ücrete mal olduğunu tahmin ediyor.
“ARC-AGI’nin yeni yinelemesinin, performansı verimlilikle dengelemeye odaklanması, AI modellerinin daha gerçekçi bir değerlendirmesine doğru büyük bir adımdır” diyor Joseph Imperial. “Bu, tek boyutlu değerlendirme testlerinden yalnızca performansa odaklandığımızın, aynı zamanda daha az hesaplama gücü de düşündüğümüzün bir işaretidir.”
Arc-agu-2’yi geçebilen herhangi bir modelin sadece son derece yetkin olması değil, aynı zamanda daha küçük ve hafif olması gerekir, diyor Imperial-modelin verimliliği yeni karşılaştırmanın önemli bir bileşeni. Bu, AI modellerinin daha fazla enerji yoğunlaştığı endişelerini gidermeye yardımcı olabilir – Bazen savurganlık noktasına kadar-sürekli daha büyük sonuçlar elde etmek.
Ancak, herkes yeni tedbirin faydalı olduğuna ikna olmamıştır. Catherine, İngiltere’nin Staffordshire Üniversitesi’nde “Zekayı test ederken tüm çerçeveleme doğru çerçeve değil” diyor. Bunun yerine, bu kriterlerin sadece bir AI’nın tek bir görevi veya görevi iyi tamamlama yeteneğini değerlendirdiğini, bunun daha sonra bir dizi görevdeki genel yetenekler anlamına geldiği için tahmin edildiğini söylüyor.
Bu kriterde iyi performans gösteren AGI’ye karşı büyük bir an olarak görülmemelidir, diyor Flick: “Medyanın bu modellerin aslında bu insan düzeyinde istihbarat testlerini geçtiğini görüyorsunuz; yaptıkları şey gerçekten belirli bir istemi doğru bir şekilde yanıt veriyor.”
Ve tam olarak ARC-AGI-2 geçildiğinde veya başka bir soru ise ne olur-başka bir ölçüte ihtiyacımız olacak mı? Imperial, “ARC-AGI-3 geliştirecek olsaydı, grafikte, uzman olsun ya da olmasın minimum insan sayısını (uzman olsun) ifade eden başka bir eksen ekleyeceklerini tahmin ediyorum” diyor Imperial. Başka bir deyişle, AGI konusundaki tartışmanın yakında çözülmesi olası değildir.