CEİD

Bu proje Avrupa Birliği tarafından finanse edilmektedir.

TÜRKİYE'DE KATILIMCI DEMOKRASİNİN GÜÇLENDİRİLMESİ:
TOPLUMSAL CİNSİYET EŞİTLİĞİNİN İZLENMESİ PROJESİ

Tüm önemli yapay zeka modelleri, tehlikeli bilim deneylerini teşvik etme riski taşıyor

Bilim insanları, araştırmacıların yapay zekanın deneyler tasarlamasına izin vererek yangın, patlama veya zehirlenme riskiyle karşı karşıya olduğu konusunda uyarıyor. Tehlikeleri tespit etme ve bunlardan kaçınma becerilerini değerlendirmek için yaklaşık 19 farklı yapay zeka modeli yüzlerce soru üzerinde test edildi ve hiçbiri tüm sorunları tanıyamadı; bazıları rastgele tahmin yapmaktan biraz daha iyi sonuç verdi

Bilimsel laboratuvarlar tehlikeli yerler olabilir

Araştırmacılar, yapay zeka modellerinin bilimsel laboratuvarlarda kullanılmasının, yangına veya patlamaya neden olabilecek tehlikeli deneylere olanak sağlama riski taşıdığı konusunda uyardı. Bu tür modeller ikna edici bir anlayış yanılsaması sunar ancak temel ve hayati güvenlik önlemlerinin gözden kaçırılmasına karşı hassastır. 19 ileri teknolojiye sahip yapay zeka modeli üzerinde yapılan testlerde her biri potansiyel olarak ölümcül hatalar yaptı.

Üniversite laboratuvarlarındaki ciddi kazalar nadirdir ancak kesinlikle duyulmamış değildir. 1997’de kimyager Karen Wetterhahn, koruyucu eldivenlerinden sızan dimetilcıva nedeniyle öldürüldü; 2016’da bir patlama bir araştırmacının koluna mal oldu; ve 2014’te bir bilim adamının gözleri kısmen kör oldu.

Artık yapay zeka modelleri, deney ve prosedür tasarlamak için kullanılabilecek araştırma laboratuvarları da dahil olmak üzere çeşitli endüstri ve alanlarda hizmete sunuluyor. Niş görevler için tasarlanan yapay zeka modelleri; biyoloji, meteoroloji ve matematik gibi birçok bilimsel alanda başarıyla kullanıldı. Ancak büyük genel amaçlı modeller, doğru bir yanıt oluşturmak için gerekli verilere erişimleri olmadığında bile bir şeyler uydurmaya ve soruları yanıtlamaya eğilimlidir. Bu, tatil yerleri veya tarifler araştırılırken sıkıntı yaratabilir, ancak bir kimya deneyi tasarlarken ölümcül olabilir.

Riskleri araştırmak için Indiana’daki Notre Dame Üniversitesi’nden Xiangliang Zhang ve meslektaşları, bir yapay zeka modelinin potansiyel tehlikeleri ve zararlı sonuçları tanımlayıp tanımlamadığını ölçebilen LabSafety Bench adlı bir test oluşturdu. Güvenlik sorunlarını içerebilecek 765 çoktan seçmeli soru ve 404 resimli laboratuvar senaryosu içerir.

Çoktan seçmeli testlerde Vicuna gibi bazı yapay zeka modelleri neredeyse rastgele tahminlerle görülebilecek kadar düşük puan alırken, GPT-4o yüzde 86,55’e, DeepSeek-R1 ise yüzde 84,49’a kadar yüksek bir doğruluğa ulaştı. Görüntülerle test edildiğinde InstructBlip-7B gibi bazı modeller yüzde 30’un altında doğruluk oranı elde etti. Ekip, LabSafety Bench’te 19 son teknoloji büyük dil modelini (LLM) ve görme dili modelini test etti ve hiçbirinin genel olarak yüzde 70’ten fazla doğruluk elde edemediğini buldu.

Zhang, robotların tek başına çalıştığı sözde sürücüsüz laboratuvarlarda bile bilimde yapay zekanın geleceği konusunda iyimser, ancak modellerin henüz deney tasarlamaya hazır olmadığını söylüyor. “Şimdi mi? Laboratuarda mı? Sanmıyorum. Genellikle genel amaçlı görevler için eğitiliyorlardı: bir e-postayı yeniden yazmak, bir kağıdı cilalamak veya bir makaleyi özetlemek. Bu tür görevleri çok iyi yapıyorlar. (Fakat) bu (laboratuar) tehlikeleri hakkında alan bilgisine sahip değiller.”

Bir OpenAI sözcüsü, araştırmacıların önde gelen modelini test etmediklerini belirterek, “Yapay zekanın bilimde özellikle riskli laboratuvar ortamlarında güvenli ve güvenilir olmasına yardımcı olan araştırmaları memnuniyetle karşılıyoruz” diyor. “GPT-5.2, araştırmacıları daha iyi desteklemek için bu makalede tartışılan modelden çok daha güçlü muhakeme, planlama ve hata tespitine sahip, bugüne kadarki en yetenekli bilim modelimizdir. İnsanlar ve mevcut güvenlik sistemleri güvenlik açısından kritik kararlardan sorumlu olmaya devam ederken bilimsel çalışmayı hızlandırmak için tasarlanmıştır.”

Google, DeepSeek, Meta, Mistral ve Anthropic yorum talebine yanıt vermedi.

Londra Brunel Üniversitesi’nden Allan Tucker, yapay zeka modellerinin insanlara yeni deneyler tasarlamada yardımcı olmak için kullanıldığında çok değerli olabileceğini, ancak risklerin bulunduğunu ve insanların döngünün içinde kalması gerektiğini söylüyor. “Bunların (LLM’lerin) davranışları kesinlikle tipik bilimsel anlamda iyi anlaşılmamıştır” diyor. “Bence dili taklit eden (başka pek bir şey değil) yeni yüksek lisans sınıfının açıkça uygunsuz ortamlarda kullanıldığına inanıyorum çünkü insanlar onlara çok fazla güveniyor. İnsanların arkalarına yaslanıp kapanmaya başladıklarına ve gerekli inceleme olmadan yapay zekanın zor işi yapmasına izin verdiğine dair zaten kanıtlar var.”

Los Angeles Kaliforniya Üniversitesi’nden Craig Merlic, son yıllarda basit bir test gerçekleştirdiğini ve yapay zeka modellerine, üzerinize sülfürik asit dökerseniz ne yapacaklarını sorduğunu söylüyor. Doğru cevap suyla durulamaktır, ancak Merlic, yapay zekaların her zaman buna karşı uyarıda bulunduğunu, ısı oluşumu nedeniyle deneylerde aside su eklenmemesine ilişkin alakasız tavsiyeleri yanlış bir şekilde benimsediğini bulduğunu söylüyor. Ancak son aylarda modellerin doğru cevabı vermeye başladığını söylüyor.

Merlic, üniversitelere iyi güvenlik uygulamaları aşılamanın hayati önem taşıdığını, çünkü çok az deneyimi olan yeni öğrencilerin sürekli akın ettiğini söylüyor. Ancak deney tasarlamada yapay zekanın yeri konusunda diğer araştırmacılara göre daha az karamsar.

Merlic, “İnsanlardan daha mı kötü? Tüm bu büyük dil modellerini eleştirmek başka bir şey ama bunu temsili bir grup insan üzerinde test etmediler” diyor. “Çok dikkatli olan insanlar var ve olmayan insanlar da var. Büyük dil modellerinin yeni başlayan mezunların veya hatta deneyimli araştırmacıların belirli bir yüzdesinden daha iyi olması mümkündür. Diğer bir faktör de büyük dil modellerinin her ay gelişmesidir, dolayısıyla bu makaledeki sayılar muhtemelen önümüzdeki altı ay içinde tamamen geçersiz olacaktır.”

Yorum yapın