CEİD

Bu proje Avrupa Birliği tarafından finanse edilmektedir.

TÜRKİYE'DE KATILIMCI DEMOKRASİNİN GÜÇLENDİRİLMESİ:
TOPLUMSAL CİNSİYET EŞİTLİĞİNİN İZLENMESİ PROJESİ

Derin sinir ağlarında özellik öğrenmeyi açıklamak için geometri ve fizik kullanma

Derin sinir ağları (DNN’ler), büyük dil modellerinin (LLMS) ve diğer yapay zeka (AI) modellerinin işleyişini destekleyen makine öğrenme algoritmaları, büyük miktarlarda veri analiz ederek doğru tahminler yapmayı öğrenir. Bu ağlar, her biri giriş verilerini bir sonraki katmanın analizine yönlendiren ‘özelliklere’ dönüştüren katmanlar halinde yapılandırılmıştır.

DNN’lerin özellikleri öğrendiği süreç çok sayıda araştırma çalışmasının konusu olmuştur ve sonuçta bu modellerin çeşitli görevlerde iyi performansının anahtarıdır. Son zamanlarda, bazı bilgisayar bilimcileri DNN’lerde Fizikten kaynaklanan çerçeveleri ve yaklaşımları kullanarak DNN’lerde özellik öğrenimi modelleme olasılığını araştırmaya başladılar.

Basel Üniversitesi ve Çin Bilim ve Teknoloji Üniversitesi’ndeki araştırmacılar, DNS’nin çeşitli koşullar altında özellikleri nasıl öğrendiklerini temsil eden sıvı, gaz ve katı su aşamalarını tanımlamak için termodinamikte kullanılanlara benzeyen bir grafik, bir faz diyagramı keşfettiler. Makaleleri, yayınlandı Fiziksel İnceleme Mektuplarıbir DNN’yi yay-blok zinciri olarak modeller, genellikle doğrusal (yay) ve doğrusal olmayan (sürtünme) kuvvetler arasındaki etkileşimleri incelemek için kullanılan basit bir mekanik sistem.

“Cheng ve ben, çalışmaya liderlik eden araştırmacı Ivan Dokmanić CEİD’a verdiği demeçte,” Cheng ve ben ‘veri ayırma yasası’ hakkında ilham verici bir konuşmanın bulunduğu bir atölyedeydik. “Derin bir sinir ağının katmanları (aynı zamanda insan görsel korteksi gibi biyolojik sinir ağlarının) katmanları, aşamalı olarak damıtarak ve basitleştirerek girdileri işler.

“Ağda ne kadar derin olursanız, bu temsiller o kadar düzenli, daha geometrik hale gelir, yani farklı nesne sınıflarının (örneğin, kedilerin ve köpeklerin temsilleri) temsillerinin daha ayrı ve ayırt edilmesi daha kolay hale geldiği anlamına gelir. Bu ayrımı ölçmenin bir yolu vardır.

“Konuşma, iyi eğitimli sinir ağlarında, bu veri ayırma ‘özet istatistiklerinin’ karmaşık veriler üzerinde eğitilmiş çok karmaşık derin sinir ağları için bile basit bir şekilde davrandığını gösterdi: her katman aynı miktarda ayrılmayı geliştirdi.”

Ekip, ‘veri ayırma yasasının’ yaygın olarak kullanılan ‘hiperparametreler’ ile öğrenme oranı ve gürültü gibi değil, ancak farklı hiperparametre seçimleri için değil, bunun neden olduğunu anlamanın, DNS’lerin modeller arasında iyi özellikleri nasıl öğrendiklerine ışık tutabileceğini fark ettiler. Bu nedenle bu ilgi çekici bulguların uygun bir teorik tanım bulmaya başladı.

Dokmanić, “Aynı zamanda, insanların bahar bloğu modellerini fenomenolojik hata ve deprem dinamikleri olarak kullandıkları bazı projelerde yer aldık.” Dedi. “Veri ayırma fenomenolojisi bize bunu hatırlattı. Örneğin, diğer birçok analojiyi düşündük. Örneğin Cheng, eşit veri ayrılmasının biraz geri çekilebilir bir ceket askısı gibi olduğunu düşündü; biraz katlanır bir cetvel gibi olduğunu düşündüm.

“Bu kış tatilini, bu ceket askıları, katlanır cetveller vb. Dahil çeşitli ‘katman-yapılandırılmış’ ev eşyalarının ve araçlarının resimlerini ve videolarını değiştirdik. Belli bir streç trivet’in resnet adı verilen ünlü bir derin sinir ağı için iyi bir model olup olmadığını tartıştığımı hatırlıyorum.”

DNN’lerin özellikleri nasıl öğrendiğini incelemek için kullanılabilecek çeşitli potansiyel teorik modelleri ve katmanlı fiziksel sistemleri belirledikten sonra, araştırmacılar sonuçta bahar bloğu modellerine odaklanmaya karar verdiler. Bu modeller, depremler ve malzemelerin deformasyonu da dahil olmak üzere çok çeşitli gerçek dünya fenomenlerini incelemek için zaten değerli olmuştur.

Derin sinir ağlarında özellik öğrenmeyi açıklamak için geometri ve fizik kullanma

Dokmanić, “Bu veri ayırmanın davranışının ürkütücü bir şekilde, kaba bir yüzeyde kayan yaylarla (aynı zamanda katlanır cetveller gibi diğer mekanik sistemlerin davranışına) bağlı blokların davranışına benzer olduğunu gösterdik.”

“Bir katmanın ne kadar basitleştirdiği bir yay ne kadar uzandığına karşılık gelir. Ağdaki doğrusal olmama, bloklar ve yüzey arasında ne kadar sürtünme olduğuna karşılık gelir. Her iki sistemde her iki sistemde de gürültü ekleyebiliriz.”

İki sisteme veri ayırma yasası bağlamında bakarken, Dokmanić ve meslektaşları DNN’lerin davranışının bahar bloğu zincirlerine benzer olduğunu buldular. Bir DNN, veri katmanını katmana göre ayırarak eğitim kaybına (yani gözlemlenen verileri açıklama isteği) yanıt verir. Benzer şekilde, bir yay bloğu zinciri, blok katmanını katmana göre ayırarak bir çekme kuvvetine yanıt verir.

Dokmanić, “Dış (derin) ve iç (sığ) katmanlar arasında ne kadar doğrusal olmazsa, daha fazla tutarsızlık var: derin katmanlar öğreniyor / ayırıyor; yaylar için aynı.” Dedi.

“Bununla birlikte, eğitim gürültüsü eklersek veya yay-blok sistemini çalkalamaya / titreştirmeye başlarsak, bloklar sürtünme deneyimlemeden ‘havada biraz zaman harcayacak’ ve bu, yayların ayrılmayı eşitleştirmesine izin verecektir. Aslında proses mühendisliğinde ‘akustik yağlama’ ve geofiziklerde belirli çubuk-kayma fenomenine benzer.

Bu son çalışma, DNN’leri incelemek için yeni bir teorik yaklaşım ve bunların zaman içinde özellikleri nasıl öğrendiklerini ortaya koymaktadır. Gelecekte, bu yaklaşım, derin öğrenme algoritmaları ve belirli görevleri güvenilir bir şekilde ele almayı öğrendikleri süreçlerin mevcut anlayışını derinleştirmeye yardımcı olabilir.

Dokmanić, “Mevcut sonuçların çoğu, pratikte kullanılan gerçek ağların temel yönlerini eksik olan basitleştirilmiş ağlara – derinlik veya doğrusal olmama veya başka bir şey” diye açıkladı.

“Bu çalışmalar stilize bir model üzerinde tek bir etki faktörü inceler, ancak derin ağların başarısı, faktörlerin birikimine (derinlik, doğrusallık, gürültü, öğrenme oranı, normalleşme,…) dayanmaktadır. Aksine, ilk prensipler değil fenomenolojik olan yukarıdan aşağıya bir yaklaşım izledik, ancak genel bir teori, tüm bunların etkileşimini anladık.”

Araştırmacılar tarafından kullanılan yaylı teorinin şimdiye kadar DNN’lerin farklı senaryolarda genelleme yeteneğini anlamak için hem basit hem de etkili olduğu bulunmuştur. Makalelerinde, Dokmanić ve meslektaşları, eğitim sırasında DNN’lerin veri ayırma eğrilerini hesaplamak için başarıyla kullandılar ve bu eğrilerin şeklinin eğitimli ağın görünmeyen veriler üzerindeki performansını gösterdiğini buldular.







Dokmanić, “Veri ayırma eğrisinin şeklini her iki yönde de değişen gürültü ve doğrusal olmama ile nasıl değiştireceğimizi de anladığımız için, bu bize çok büyük ağların eğitimini hızlandırmak için (potansiyel olarak) güçlü bir araç sunuyor.” Dedi.

“Çoğu insan yaylar ve bloklar hakkında güçlü sezgilere sahiptir, ancak derin sinir ağları hakkında değildir. Teorimiz, basit bir mekanik sistem hakkındaki sezgilerimizi kaldırarak derin ağlar hakkında ilginç, yararlı, gerçek ifadeler yapabileceğimizi söylüyor. Bu harika çünkü nöral ağların milyarlarca parametresi var, ancak yay bloğu sistemimizin sadece bir eli var.”

Bu araştırmacı ekibi tarafından kullanılan teorik model, derin öğrenme temelli algoritmaların temellerini daha da araştırmak için hem teorisyenler hem de bilgisayar bilimcileri tarafından kullanılabilir. Bir sonraki çalışmalarının bir parçası olarak, Dokmanić ve meslektaşları, özellik öğrenmeyi mikroskobik bir bakış açısıyla keşfetmek için teorik yaklaşımlarını da kullanmayı umuyorlar.

Dokmanić, “Derin, doğrusal olmayan ağlarda yay bloğu fenomenolojisi (veya belki de katlanır cetvel fenomenolojisi) için ilk prensiplerin açıklamasına yakınız.”

“İzlediğimiz diğer yön, özellikle büyük dil modelleri gibi çok büyük transformatör tabanlı ağlar için derin net eğitimi geliştirmek için bunu nasıl işleyeceğine gerçekten ikiye katlanmaktır. Eğitim zamanında hesaplamak için ucuz olan bir genelleme vekili ve genellemeyi geliştirmek için nasıl yönlendirileceğinin anlaşılması, bir tür kutsal grail, şu anda çok popüler ölçeklendirme yasalarına alternatif bir yoldur.”

Araştırmacılar, DNN’lerin eğitiminin diğer görevlerde genelleme yeteneklerini geliştirmek için nasıl dikkatli bir şekilde tasarlanabileceğini anlayarak, büyük sinir ağları için bir teşhis aracı da tasarlayabilirler. Örneğin, bu araç, yapıların güvenliğini tehlikeye atabilecek konsantre stres bölgelerini tanımlamak için yapısal mekanikte stres haritalarının nasıl kullanıldığına benzer şekilde, bir modelin performansını artırmak için geliştirilmesi gereken alanların belirlenmesine yardımcı olabilir.

Dokmanić, “Dahili yük dağılımını bir sinir ağıdaki analiz ederek, aşırı takılmayı ve genellemeyi incitebilecek aşırı yüklenmiş katmanlar / bölgeler veya fazlalığı gösteren zar zor kullanılan katmanları bulabiliriz.”

Yazarımız Ingrid Fadelli tarafından yazılmış, Gaby Clark tarafından düzenlenen ve gerçeği kontrol edildi ve Robert Egan tarafından incelendi-bu makale dikkatli insan çalışmasının sonucudur. Bağımsız bilim gazeteciliğini canlı tutmak için sizin gibi okuyuculara güveniyoruz. Bu raporlama sizin için önemliyse, lütfen bir bağış (özellikle aylık) düşünün. Alacaksın reklamsız bir teşekkür olarak hesap.