CEİD

Bu proje Avrupa Birliği tarafından finanse edilmektedir.

TÜRKİYE'DE KATILIMCI DEMOKRASİNİN GÜÇLENDİRİLMESİ:
TOPLUMSAL CİNSİYET EŞİTLİĞİNİN İZLENMESİ PROJESİ

Biyoteknoloji firması ‘biyolojinin chatgpt’i yaratmayı hedefliyor – işe yarayacak mı?

Bir İngiliz biyoteknoloji firması, daha önce bilinmeyen 1 milyon mikrobiyal türü ve milyarlarca yeni tanımlanan genleri ortaya çıkaran genetik veri toplayarak yıllar geçirdi – ancak bu veri trove bile bir AI biyologunu eğitmek için yeterli olmayabilir

Malta’da genetik veri toplayan basecamp araştırmacıları

Basecamp Research adlı bir İngiliz biyoteknoloji firması, son birkaç yılını dünyanın dört bir yanındaki aşırı ortamlarda yaşayan mikroplardan genetik veri toplayarak bir milyondan fazla türü ve bilime yeni yaklaşık 10 milyar geni tanımladı. Gezegenin biyoçeşitliliğinin bu büyük veritabanının, dünyadaki yaşamla ilgili soruları cevaplayacak bir “biyoloji chatgpt” eğitimi almaya yardımcı olacağını iddia ediyor – ancak bunun işe yarayacağının garantisi yok.

Dünyanın en çeşitli mikrobiyal kültür koleksiyonlarından birini barındıran Almanya’daki Leibniz Enstitüsü DSMZ’de Jörg Overmann, bilinen genetik sekansların artan olması değerli olduğunu, ancak toplandıkları organizmalar hakkında daha fazla bilgi olmadan ilaç keşfi veya kimya gibi yararlı bulgularla sonuçlanmayabileceğini söylüyor. “Sonunda, gerçekten yeni işlevlerin anlaşılmasının, dizi alanındaki bu kaba kuvvet artışı ile hızlanacağına ikna olmadım” diyor.

Son yıllarda, araştırmacıların kalıpları tanımlamak ve çok miktarda biyolojik veri içinde ilişkileri tahmin etmek için eğitilmiş bir dizi makine öğrenme modeli geliştirdiğini gördü. Bunların en ünlüsü, sadece genetik verilere dayanan bir proteinin 3D yapısını tahmin edebilen ve Google DeepMind’de yaratıcılarını 2024 Nobel Kimya Ödülü’nü kazanan Alphafold’dur.

Berkeley, California Üniversitesi’nde Frances Ding, bu tür “üretken biyoloji” modelleri daha da karmaşıklaşmış olsa da, çok daha iyi hale gelmediler. Bunun bir nedeni biyolojik çeşitlilik verilerinin eksikliği olabilir. “Biyolojideki mevcut modeller, iyi çalışılmış türleri orantısız olarak temsil eden veri kümeleri üzerinde eğitilmiştir (örn. E. colifareler, insanlar) ve bu modeller, yaşam ağacının diğer kısımlarından gelen diziler hakkındaki özellikleri tahmin etmekte daha kötüdür ”diyor.

Basecamp’taki araştırmacılar bu biyolojik çeşitlilik boşluğunu ele almak için yola çıktılar. Şirketin yayınladığı bir rapora göre, şirketin büyüyen veritabanı 26 ülkede 120’den fazla alandan örnekler içeriyor. Şirketin baş bilim memuru Jonathan Finn, koleksiyon çabalarının, kutup deniz buzunun altındaki soğuk sudan orman kaplıcalarına kadar henüz yaygın olarak örneklenmemiş aşırı ortamlara odaklandığını söylüyor. Finn, “Ardığımız örneklerin çoğu prokaryotik örnekler: bakteriler, mikroplar ve virüsleri” diyor. “Orada bazı mantarlarımız olduğunu biliyorum.”

Bu örneklerin genetik analizi, yaşam ağacı boyunca neredeyse evrensel olarak paylaşılan genlerde farklılıklar ortaya çıkarmıştır – buna dayanarak, verilerin AI biyoloji modellerini eğitmek için kullanılan kamu genomik veri kümelerinde meydana gelmeyen 1 milyondan fazla türden bilgi içerdiğini tahmin etmektedir. Araştırmacılar, bunlar toplu olarak yaklaşık 9.8 milyar yeni tanımlanmış gen içeriyor, her biri potansiyel olarak yararlı bir proteini kodlayan toplam bilinen gen sayısında 10 kat artış.

Finn, “Bu modelleri büyük bir doğa göstererek biyolojinin nasıl çalıştığını daha iyi anlamalı” diyor. “Bir biyoloji chatgpt inşa etmeye çalışıyoruz.”

Bazı tahminlere göre, Earth, neredeyse hiçbiri iyi karakterize edilmeyen bir trilyon mikrobiyal türe ev sahipliği yapar. Yani, şirketin bu kadar yeni bir hayat tanımlaması büyük şaşırtıcı değil. İngiltere, Wellcome Sanger Enstitüsü’ndeki Leopold parçaları, “Daha fazla keşfederseniz daha farklı gen varyantları elde etmeniz neredeyse kaçınılmaz” diyor.

Ancak Basecamp, tüm yeni materyallerin değerli olabileceği fikrine bankacılık yapıyor – ve yalnız değil. ABD’de bir biyoteknoloji firması olan Genentech’in makine öğrenimi araştırmacısı Nathan Frey, “Bu, uzun zamandır gördüğüm en heyecan verici şeylerden biri” diyor. Genel olarak, Biyoloji için AI modelleri üzerinde yapılan çalışmaların algoritmaları iyileştirmeye veya dünyaya çıkmak ve örnek toplamak yerine laboratuvarlarda daha fazla veri üretmeye odaklandığını söylüyor.

Ancak, veritabanının şirketin istediği radikal olarak geliştirilmiş modellere yol açacağına şüpheci olmak için bir neden var. Birincisi, bu yeni protein çeşitliliğinin, plastik yiyen enzimler veya gen düzenleme için yeniden tasarlanabilecek proteinler gibi değerli yeni fonksiyonları ne ölçüde temsil ettiği belirsizliğini korumaktadır. “Bu yeniliğin bir şekilde yararlı olduğunu göstermek zorundalar” diyor Parts.

Ayrıca, yeni genler zaten bildiklerimizden büyük ölçüde farklıysa, Overmann mevcut araçların işlevlerini nasıl kolayca tahmin edebileceğini veya verilerin yeni bir model eğitimi için nasıl kullanılabileceğini görmez. “Genlerin çoğunluğunun ne yaptığına dair hiçbir fikriniz yok” diyor. Şirket, yeni bir biyoloji hazinesi bir araya gelebilirdi, ancak daha eski moda laboratuvar çalışmaları olmadan, en güçlü AI için bile gizemli kalabilir.