Yapay zeka (AI) giderek yaygınlaşıyor; telefon uygulamalarına, arama motorlarına ve sosyal medya platformlarına entegre ediliyor ve sayısız araştırma uygulamasını destekliyor. Son yıllarda özellikle ilgi çeken, derin öğrenme adı verilen ve insan beynindeki sinir ağlarından ilham alan bir yapıya sahip olan bir tür yapay zeka makine öğrenimidir.
Derin öğrenme, örneğin OpenAI’nin ChatGPT ve Microsoft Copilot tarafından kullanılan büyük dil modellerinin merkezinde yer alır. Daha uzmanlaşmış derin öğrenme modelleri, karmaşık protein yapısını tahmin etmeye yönelik 2024’te kimya alanında Nobel Ödülü kazanan araştırmalar da dahil olmak üzere çok çeşitli bilimsel araştırmaları destekledi.
Derin öğrenmenin faydalarından biri, açık insan programlaması olmadan kalıpları veya özellikleri tanıma yeteneğidir, ancak bu süreç şeffaf olmayabilir. Derin öğrenmenin bu “kara kutu” kalitesi, modellerin tam olarak nasıl çalıştığına dair soruları gündeme getiriyor ve onları doğrulamayı ve optimize etmeyi zorlaştırıyor.
Aşağıdaki Soru-Cevap bölümünde, Penn State Matematik Profesörü Leonid Berlyand ve yüksek lisans öğrencisi Oleksii Krupchytskyi, derin öğrenmenin kara kutu doğasını açıklamak için matematiksel ilkeleri nasıl uyguladıklarından bahsediyorlar.
Derin öğrenme nedir?
Berlyand: Derin öğrenme, insanların öğrenme şekline benzer şekilde verilerden öğrenmek için yapay sinir ağlarını kullanan bir tür makine öğrenimidir. YSA olarak da adlandırılan bu ağlar, ilk olarak bilgisayar bilimcileri tarafından geliştirildi ve insan beyninin yapısından ilham aldı. Bir YSA, tipik olarak katmanlar halinde düzenlenmiş kenarlarla birbirine bağlanan düğümlerden oluşur.
Kabaca söylemek gerekirse, bu düğümler “yapay nöronlardır” ve kenarları beyindeki nöronları birbirine bağlayan sinapsları taklit eder. Öğrenme, verilerin ağa sunulduğu ve YSA’nın tahminlerindeki hataları azaltmak için bağlantıların ağırlıklarını yinelemeli olarak ayarladığı eğitim süreci sırasında gerçekleşir.
Derin öğrenme ne için kullanılır?
Berlyand: Derin öğrenme, konuşma ve ses tanıma, bilgisayarlı görme ve doğal dil işleme dahil olmak üzere bilim ve teknolojinin birçok alanını büyük ölçüde değiştirdi. Basit bir örnek, telefonunuzun bir yüzün siz olup olmadığına karar vermesi veya 0’dan 9’a kadar elle yazılan rakamlar gibi görüntüleri sınıflandırması gibi bir sınıflandırma sorunu olabilir. İkincisinde, girdi bir görüntüdür ve pikselleri, bileşenleri her pikselin yoğunluğu olan bir vektöre dönüştürülür. Çıktı, bir rakamın görüntüsünü 0, 1, 2 vb. olarak sınıflandırır.
Son zamanlarda YSA tabanlı büyük dil modelleri, eğitim, sağlık ve bilimsel araştırma dahil olmak üzere çok çeşitli uygulamalardaki mükemmel performanslarından dolayı evrensel olarak popüler hale gelmiştir. Aslında bu yıl şu ana kadar ChatGPT haftalık yaklaşık 700 milyon kullanıcıya ulaştı.
Krupchytskyi: Derin öğrenme ağları, görseller ve metinler gibi büyük miktarlardaki yapılandırılmamış verileri analiz etmede özellikle başarılıdır. Sohbet robotlarında, sürücüsüz otomobiller için gerekli olan görüntü tanımada ve video yayın platformlarında kullanılanlara benzer öneri hizmetlerinde yaygın olarak kullanılıyor.
Onu ‘derin’ yapan şey nedir?
Berlyand: Yapay sinir ağlarında giriş ve çıkış katmanları arasında birçok gizli katman bulunur. Örneğin, 0’dan 9’a kadar olan rakamları sınıflandıran bir modeliniz varsa, bir katman görüntünün kenarlarına odaklanabilir, diğeri belirli piksellerin karanlığına odaklanabilir ve her katman giderek daha karmaşık özellikleri tanımlar. Daha fazla katman eklemenin YSA’nın doğruluğunu arttırdığı ve daha karmaşık soruları yanıtlamamıza olanak sağladığı ampirik olarak gözlemlenmiştir. Daha fazla katmana sahip bir model “daha derin”, dolayısıyla “derin öğrenme” olarak kabul edilir.
Krupchytskyi: Derin öğrenme modelleri bu tür yüzlerce katmana ve milyonlarca, trilyonlarca parametreye sahip olabilir. Derin öğrenmeyle insanlar, katmanlar arasındaki her bağlantıyı açıkça programlamaz; model bu işlevleri kendisi kurar ve ilgili özellikleri otomatik olarak keşfeder. Bu tür modellere genellikle “kara kutu” adı verilir çünkü tam olarak ne olup bittiğini bilmiyoruz. Hedeflerimizden biri, bu modellerin gerçekte ne yaptığını daha iyi anlamak için matematiksel araçları uygulamak, böylece sağlamlıklarını garanti altına almak ve sonuçta performanslarını iyileştirmektir.
Matematiksel temelleri derin öğrenmeye uygulayarak ne kazanabiliriz?
Berlyand: Derin öğrenme büyük ölçüde bilgisayar bilimcileri ve mühendisleri tarafından oluşturuldu ve geliştirildi. Penn State’li meslektaşım, seçkin matematik profesörü Pierre-Emmanuel Jabin ve ben, eğitim algoritmalarının kararlılığı ve yakınsaması veya algoritmaların “eğitimli” olarak kabul edilebileceği durumlar gibi YSA’ların çeşitli performans kriterlerine sıkı bir matematiksel destek sağlamak istedik. Bu motivasyon bizi, lisans matematik öğrencileri için derin öğrenmeden gelen tanım ve kavramların kesin bir matematiksel çerçevede sunulduğu basit bir giriş kitabı yazmaya yöneltti.
Öğrencilerime şunu söylüyorum: Bir yarış arabası sürücüsü olabilirsiniz ve arabayı nasıl kullanacağınızı bilirsiniz, ancak içinde ne olduğunu bilmiyorsanız onu geliştiremezsiniz veya yeni bir araba tasarlayamazsınız. Benzer şekilde, derin öğrenmenin matematiksel olarak anlaşılması, daha iyi tahmin doğruluğu ve YSA performansında iyileşme ile sonuçlanacaktır.
Krupchytskyi: Derin öğrenmenin pek çok farklı kullanım durumu var ancak bunların temelindeki matematik hepsinin aynısı. Derin öğrenme konusunda temel bir anlayışa sahip olmak, güvenilir, yorumlanabilir ve sağlam ağlar oluşturmak için önemlidir.
Bilgisayar bilimcileri ve mühendisleri, YSA’ların performansını artırmak için büyük ölçüde ampirik gözlemlere dayanan birçok araca sahiptir. Onlarca hatta yüzyıllardır geliştirilen ve fizik, malzeme bilimleri ve yaşam bilimleri gibi çeşitli alanlara uygulanan ve geliştirilen zengin matematik teorilerini sizlerle buluşturuyoruz. Derin öğrenmede matematiğin kullanılması, YSA’lar için hangi tür problemlerin en uygun olduğunu, ağların en iyi şekilde nasıl yapılandırılacağını, ne kadar süre eğitilmesi gerektiğini anlamamıza yardımcı olur ve genel olarak kararlılığın iyileştirilmesine yardımcı olabilir.



