İki AI modeli, genç matematikçiler için prestijli bir yarışmada ilk kez altın madalya standardı elde etti ve geliştiricileri bu AI’lerin yakında zorlu bilimsel sorunları kırabileceğini iddia ediyor

AIS matematik sorunlarında daha iyi hale geliyor
Google DeepMind ve Openai’den deneysel AI modelleri, ilk kez Uluslararası Matematiksel Olimpiyatta (IMO) altın düzeyinde bir performans elde etti.
Şirketler, bir gün sert bilimsel veya matematiksel sorunları çözebilecek AIS için önemli bir kilometre taşı olarak selamlıyor, ancak matematikçiler daha dikkatli çünkü modellerin sonuçlarının ayrıntıları ve nasıl çalışmadıkları halka açıklanmadı.
Dünyanın genç matematikçiler için en prestijli yarışmalarından biri olan IMO, AI araştırmacıları tarafından AI sistemlerinin mücadele etme eğiliminde olan matematiksel akıl yürütme için bir turnusol testi olarak görülüyor.
Geçen yılki Bath, İngiltere’de yapılan yarışmadan sonra Google, Alphaproof ve Alfajometri olarak adlandırılan AI sistemlerinin birlikte gümüş madalya seviyesi bir performans elde ettiğini, ancak girişlerinin yarışmanın resmi belirteçleri tarafından derecelendirilmediğini söyledi.
IMO Başkanı Gregor Dolinar, Google, Huawei ve Tiktok sahibi bayta ve akademik araştırmacılar gibi şirketlerin ve akademik araştırmacıların yanı sıra akademik araştırmacılar gibi bu yılki yarışmadan önce, organizatörlere AI modellerinin performanslarını resmi olarak derecelendirip derecelendiremeyeceklerini sormalarını istedi. IMO, şirketlerin, IMO’nun tam kapanış törenlerinin tamamlandığı 28 Temmuz’a kadar sonuçlarını duyurmayı beklediklerini kabul etti.
Openai ayrıca yarışmaya katılıp katılamayacağını sordu, ancak resmi plan hakkında bilgilendirildikten sonra bir girişe yanıt vermedi veya kaydetmedi, diyor Dolinar.
19 Temmuz’da Openai, geliştirdiği yeni bir AI’nın resmi yarışmadan ayrı üç eski IMO madalyası tarafından işaretlenen altın madalya puanı elde ettiğini açıkladı. AI, altı sorudan beşini yarışmacılarla aynı 4,5 saatlik zaman sınırında doğru bir şekilde yanıtladı.
İki gün sonra Google Deepmind, Gemini Deep Think adlı AI sisteminin aynı puan ve zaman sınırlarıyla altın elde ettiğini duyurdu. Dolinar, bu sonucun IMO’nun resmi belirteçleri tarafından verildiğini doğruladı.
Google’ın özellikle yarışma için hazırlanmış ve bu yıl hem Google hem de Openai’nin modelleri tamamen doğal dilde çalıştığı bir bilgisayar programlama dilinde yazılan soru ve cevaplarla çalışan Alphaproof ve Alfageometri sistemlerinden farklı olarak.
Yalın çalışmak, AI’nın çıktısının doğruluk için anında kontrol edilebileceği anlamına geliyordu, ancak uzman olmayanların okuması daha zor. Gemini Deep Think üzerinde çalışan Google’da Thang Luong, doğal dil yaklaşımının daha anlaşılır cevaplar üretebileceğini ve genel olarak yararlı AI sistemleri için geçerli olabileceğini söylüyor.
Luong, büyük bir dil modelinde çözümleri doğrulama yeteneğinin, bir AI’nın başarının nasıl göründüğünü öğrettiği ve kurallara ve sadece deneme yanılma yoluyla nasıl başarılı olacağını öğrenen bir eğitim yöntemi olan takviye öğrenimi ile ilgili ilerleme sayesinde mümkün olduğunu söylüyor. Bu yöntem, Alphazero gibi oyun oynayan AIS ile Google’ın önceki başarısının anahtarıydı.
Google’ın modeli ayrıca, paralel düşünme adı verilen bir modda aynı anda birden fazla çözümü de dikkate almanın yanı sıra, IMO için özellikle yararlı olan matematik problemlerinin bir veri kümesi üzerinde eğitildiğini söylüyor.
Openai, takviye öğrenimi ve “deneysel araştırma yöntemleri” de kullanmasının yanı sıra sistemi hakkında birkaç ayrıntı yayınladı.
Los Angeles, California Üniversitesi’nde Terence Tao, “İlerleme umut verici, ancak kontrollü bir bilimsel tarzda gerçekleştirilmiyor ve bu yüzden bu aşamada değerlendiremeyeceğim” diyor. “Belki de dahil olan şirketler daha fazla veri ile bazı makaleler yayınladıktan ve umarım diğerlerinin sonuçları çoğaltması için modele yeterince erişim, daha kesin bir şey söyleyebiliriz, ancak şimdilik, iddia edilen sonuçlar için şirketlere büyük ölçüde güvenmek zorundayız.”
Avustralya’daki Sydney Üniversitesi’nde Geordie Williamson aynı fikirde. Williamson, “Bence burada olduğumuz yerde olması dikkat çekicidir. İçsellerle ilgili olarak yabancılara ne kadar az ayrıntı sağlandığı sinir bozucu” diyor Williamson.
Doğal dilde çalışan sistemler, matematikçiler için yararlı olsa da, bu yılki IMO’nun organizatörlerinden Joseph Myers, modellerin kontrol edilmesi zor olan uzun kanıtlar üretmesi durumunda da bir sorun yaratabilir. “AI’ler, makul bir şekilde doğru olabilecek, ancak yanlışlıkla gizlenmiş birkaç ince ama ölümcül hataya sahip olabilecek veya yanlış hizalanmış bir AI’dan potansiyel olarak kasıtlı olarak birkaç ince ama ölümcül hataya sahip olabilecek önemli çözülmemiş sorunlara çözümler üretecekse, bu AI’lerin de okumaya çalışmadan önce uzun bir AI çıkışının doğruluğuna güvenmenin anahtarıdır.
Her iki şirket de önümüzdeki aylarda, bu sistemleri ilk başta matematikçilere test etmek için daha geniş halka yayınlamadan önce sunacaklarını söylüyor. Gemini Deep Think üzerinde çalışan Google’da Junehyuk Jung, modellerin yakında daha zor bilimsel araştırma sorunlarına yardımcı olabileceğini söylüyor. “Erişimde çok, çok fazla çözülmemiş sorun olacak” diyor.



