CEİD

Bu proje Avrupa Birliği tarafından finanse edilmektedir.

TÜRKİYE'DE KATILIMCI DEMOKRASİNİN GÜÇLENDİRİLMESİ:
TOPLUMSAL CİNSİYET EŞİTLİĞİNİN İZLENMESİ PROJESİ

Andrew Barto ve Richard Sutton AI eğitim hilesi için Turing Win Turing Ödülü

Genellikle Nobel Bilgi İşlem Ödülü’nü kabul eden Turing Ödülü, yapay zeka modellerini eğitmede önemli bir teknik olan takviye öğrenimi üzerine çalışmaları için iki bilgisayar bilimcisine gitti.

Richard Sutton ve Andrew Barto takviye öğrenmesinde kilit atılımlar yaptılar

Andrew Barto ve Richard Sutton, daha sonra Google DeepMind Alphago gibi yapay zeka modellerinin başarısı için çok önemli olan makine öğrenimindeki fikirler üzerindeki temel çalışmaları nedeniyle, genellikle Nobel Bilgi İşlem Ödülü olarak adlandırılan 2024 Turing Ödülü’nü kazandı.

Şu anda emekli olan ve Cape Cod, Massachusetts’te yaşayan Barto, ödül için aday gösterildiğini bile fark etmedi. Barto, “Bazı insanlarla bir yakınlaştırmaya katıldım ve söylendi ve sadece şaşkındım” diyor. “Tamamen şaşırdım. Tamamen hazırlıksızdım, onurdan çok memnun oldum, ama bunun geleceğine dair hiçbir fikrim yoktu. ”

Çift, bir AI’nın bir hedefe ulaşmak için deneme yanılma yoluyla “ödüllendirildiği” ve “cezalandırıldığı” takviye öğrenimi üzerindeki çalışmalarından dolayı 1 milyon dolarlık ödülü paylaşacak. Bu, AI’nın kuruluşundan bu yana incelenmiştir-örneğin, 1948’de Alan Turing önce modern takviye öğrenme sistemlerini anımsatan akıllı makineler için bir “zevk ağrısı sistemi” önerdi, ancak 1980’lere kadar çok az ilgi gördü.

Bu noktaya kadar, makine öğrenimi araştırması büyük ölçüde bir bilgisayara nasıl öğrenileceğine dair kuralları manuel olarak öğretmeyi içeren sembolik yapay zekaya odaklanmıştır. O zamanlar Barto’nun öğrencisi olan Barto ve Sutton, Turing’in fikrini çoğaltabilecek algoritmaları ve matematiksel teorileri araştırmaya başladı, bir AI’nın daha önce egemen olan sembolik yaklaşımdan ziyade bu kuralları kendi başına çalıştırmasına izin vermek için sinir ağlarını kullanarak.

“Başladığımda çok modası geçmişti. Umursamadım, çünkü benim için ilginçti ”diyor Barto. “Sadece modası değil, sinir ağlarına bakmak için çıkmaz olarak kabul edildi. Bölgede birçok insanın çalıştığı, algoritmaları geliştirdiği ve birçoğu gerçekten çok faydalı olan uygulamalar yapması gerçekten şaşırtıcı ve memnuniyet verici. Bu evrimi gördüğüme hayran kaldım ve memnunum. ”

Londra Üniversitesi Royal Holloway’da Chris Watkins, “Takviye öğrenimi alanına başladılar” diyor. Watkins, AIS’in çevreleri değiştikçe eylemlerini seçmeleri için bir plan sağlayan politika gradyan modelleri gibi ilk takviye öğrenme algoritmalarının bazıları, çevre değiştikçe eylemlerini seçmeleri için bir plan ve zamansal fark öğrenimi, bugün hala yaygın olarak kullanıldığını söylüyor. Örneğin, Google Deepmind’in AlphaGo ve Alphazero gibi AI atılımlarına ve Openai’nin Rubik’in küpünü çözme konusundaki erken çalışmaları gibi gelişmiş robotik sistemleri güçlendirdiler.

Barto ve Sutton’ın hayvanların nasıl öğrendiklerine dair teorilerden esinlenen zamansal fark algoritması, bilim adamlarının beyindeki dopamin ödül sistemini anlamalarına da yardımcı oldu. 1990’larda, sinirbilimciler maymun beyinlerindeki nöronların beklenmedik ödüllere yanıt olarak ateş ettiğini fark ettiler ve tam olarak Barto ve Sutton algoritmalarının bir parçası olan tahminler gibi çalıştılar. Sutton, “Mühendislik ve doğal bilimler arasında ileri geri hareket eden fikirlerin en iyi örneği” diyor.

Sutton, mevcut yapay zeka araştırmalarının doğal dünyadan daha fazla ilham alabileceğini umuyor. Sutton, “Bir (AI) tıpkı hayvanların deneyimlerden öğrendiği gibi deneyimlerden öğrenmesi gerektiği ve bu hala ihmal edildiği konusunda bariz bir fikri yapıyoruz” diyor Sutton. “Modern AI’ler deneyimden öğrenmiyor. İnsanlar tarafından toplanan bir grup ayrı veri kümesinden öğreniyorlar… Bugün hala deneyimlerinden öğrenecek ve dünyayı anlayacak makinelerimiz yok. Bu hala göz ardı edilen bariz şey. ”